华为“天才少年”李博杰博士：如何开发一个让大多数人用得起的AI产品

2024 年 1 月初我参加知乎 AI 先行者沙龙的时候，一位嘉宾的发言我认为很有道理：有趣的 AI 价值更高，因为娱乐、社交是人的天性，最大的几家互联网公司大部分是娱乐、社交领域的。如果一个好的 AI 伴侣真的能给人带来情绪价值，或者游戏中的 AI 真的能让用户沉浸感更强，这样的 AI 不愁没人付费。

成本

大模型广泛应用的一个很大的挑战是成本问题。比如如果我做一个游戏的 NPC，跟玩家不停的交互，如果用 GPT-4 来做，成本会高达每小时每个玩家 26 美元，没有任何游戏能烧的起这么多钱。

这是怎么算出来的？假设玩家每分钟交互 5 次，一小时就是 300 次；每次交互需要 8K token 的上下文，500 token 的输出，每次交互的成本就是 $0.095；乘一下，成本就是每小时 26 美元。很多人在计算成本的时候只考虑到了输出 token，没有考虑输入 token，其实很多场景下输入 token 才是成本的大头。

那么这个成本有没有可能降低 100 倍甚至 1000 倍？答案是肯定的。

我们主要有三个方向：用小模型替代大模型、推理 infra 优化、算力平台优化。

首先，to C 应用中的大多数问题用小模型其实就足够了。但有一些复杂问题是小模型解决不了的，这时候就需要找大模型。我们人类社会其实一直就是用这种方式工作的，比如电话客服的普通接线员就足够处理大多数的问题，少数棘手的问题上升到经理解决，这样就可以合理控制成本。

大小模型结合的一个挑战是克服小模型的幻觉，也就是当它自己不知道的时候，不要胡说八道，而要说我不知道，这样才有机会交给更大的模型处理。

其次，推理 infra 中其实有很多值得优化的点。例如现在多模态领域的很多开源模型都没有支持 batching 和 Flash Attention，它们的 GPU 利用率其实不够高。当我们有很多 LoRA 微调模型时，最近也有一些学术界的工作可以实现大量 LoRA 的批量推理。持久化 KV Cache 虽然很多人都在提，做成有状态的 API 降低每次都重新计算的成本，但没有一个开源软件真的实现了。

最后就是自建算力平台，使用消费级 GPU 做推理。对 24 GB 内存就足够放下的模型，4090 显然是比 H100 和 A100 更划算的。

使用开源模型和自建算力平台能够节约多少成本呢？我们在这里对比闭源的 GPT-4、GPT-3.5，以及开源的 Mixtral 8x7B 和 Mistral 7B，分别在第三方 API 服务和自建算力平台上的成本。

假设我们的需求都是 8K token 的输入上下文，500 token 的输出。如果我们用 GPT-4，每 1000 个请求就要 $135，这是相当贵了。如果用 GPT-3.5，就可以便宜 15 倍，只要 $9，但这也还是挺贵的。

Mistral 8x7B MoE 模型的能力大致与 GPT-3.5 是相当的，用 Together AI 的 API 服务需要 $5，又比 GPT-3.5 便宜了一半。如果自己搭建 H100 集群来服务这个 8x7B 模型，价格还能降低一半多，只需要 $2。

那么为什么自己服务比 Together AI 的便宜呢？因为任何云服务都要考虑到资源不是 100% 占满，用户的请求是有波峰波谷的，平均下来资源利用率能到 30% 就不错了。像我们这种客户算力需求波动很大的小公司，经常出现租了几十块 GPU 卡但闲置一个月的情况。因此如果考虑到用户请求的波峰波谷，自己搭建 H100 集群去服务 8x7B 模型未必比调用 API 更省钱。

要想进一步省钱，还可以用 7B 模型，Mistral 7B 模型的性能也不错，特别是 UC Berkeley 使用 RLAIF 的方法搞了一个基于 Mistral 7B 的 Starling 模型，性能甚至超过 LLaMA 13B 模型。

7B 模型如果使用 Together AI API，只要 $1.7，比 GPT-3.5 便宜 5 倍。如果在 4090 上自己搭，只要 $0.4，又便宜了 4 倍。能便宜这么多的主要原因是 Together AI 之类大厂一般是用数据中心级的 GPU 做推理，如果我们用消费级的 GPU，成本相比数据中心 GPU 就可以至少降低一半。

4090 上跑 7B 模型的成本比 GPT-3.5 便宜 23 倍，比 GPT-4 便宜 346 倍。原来 $26 一个小时的互动游戏 NPC，用 4090 和 7B 模型，就可以做到 $0.075 一个小时，这虽然还有点高，但已经是可以接受的了。再加上一些输入上下文的压缩技术，可以把 7B 模型的成本降到 GPT-4 API 的千分之一，也就是 $0.026 一个小时，这就是可以接受的了。

其实到了 $0.026 每个小时这种量级，会发现 CPU 成本也变成不可忽略的了，因此 CPU 上的软件优化也是很重要的。大多数公司的后端服务都是用 Python 写的，虽然开发效率高，但是执行效率比较低。因此我们公司最近把后端的核心业务逻辑切换到了 Go，在 CPU 效率上有明显的提升。

上面我们只算了文本模型，其实语音识别模型、语音合成模型、多模态图片识别模型、图片生成模型、视频生成模型也都有很多可以优化的点。

前面讲语音合成的时候，我们提到基于开源的 VITS 自己做语音合成模型可以比 ElevenLabs API 便宜 360 倍，如果要达到接近 ElevenLabs 效果的语音克隆，用 GPTs-soVITS，也可以比 ElevenLabs 便宜 100 倍。这种成本数量级上的降低是可以从根本上改变商业逻辑的。

再如视频生成，OpenAI 的 Sora 生成 1 分钟的视频大概需要 50 美金的成本，Runway ML 的 Gen2 生成 1 分钟视频大概需要 10 美金成本。但如果我们不要这么高的质量，就用 Stable Video Diffusion 去生成，1 分钟的视频只要一块 4090 跑 1 个小时，只要 0.5 美金成本。Sora 的视频质量比 SVD 高太多，100 倍的成本也许是值得的。但 Runway ML 生成的视频质量可能就不值 20 倍的成本了。

这也是为什么我不建议贸然自己去做基础模型。如果没有拳打 OpenAI、脚踢 Anthropic 的实力，在效果上比不过最好的闭源模型，成本上也比不上开源模型。我相信 Runway ML 的 Gen2 推理成本也不会比 Stable Video Diffusion 高太多，ElevenLabs 的语音合成推理成本也不会比 GPT-soVITS 高太多，但是这些模型的研发成本高到可怕，都要平摊到 API 的溢价里。

这就是 Peter Thiel 在《从零到一》里说的，一项技术需要比现有技术好 10 倍才能有垄断优势，只是好一点点是不够的。我知道操作系统很重要，我也知道如何写一个操作系统，但我不知道如何写一个比 Windows、Linux 或者 Android、iOS 好 10 倍的操作系统，因此我不会去做操作系统。基础大模型同理。

我们相信大模型的成本一定会快速降低，一方面是摩尔定律，另一方面是大模型的进步，比如说用最新的 vLLM 框架和消费级的 GPU，Mistral AI 的 8x7B 的 MoE 模型可能相比最早的 LLaMA 70B 成本降低 30 倍。

随着硬件和模型的进步，未来会不会同等能力的模型可以跑在手机上？如果手机上可以跑 GPT-3.5 级别能力的模型，很多可能性都打开了。

再看模型的输出速度和上下文容量。我参观计算机历史博物馆的时候，看到 ENIAC 那么大一个机柜，每秒只能做 5000 次加法，只有 20 个字的内存。我们今天的大模型每秒钟也只能输出几十个 token，“内存” 也就是上下文长度从最早的 4K token 一路提升到今天的上百 K token。

未来会不会有一天，能够出现一套硬件和一个模型，每秒钟能输出上万个 token，内存也就是上下文有上亿个 token？

有人问，输出这么快有什么用呢？其实 AI Agent 不一定需要跟人交流特别快，但是 AI Agent 自己可以想得很快，可以跟其他 Agent 交流得特别快。比如说一个问题需要多步网络搜索去解决，人可能需要搜一个小时，未来的 AI 有没有可能一秒钟就解决了？

上下文搞这么多 token 有什么用呢？我们知道现在大模型在很多方面还不如人，但长上下文这个方面其实是比人更强的。前面我们提到这个大海捞针的测试，几十万字的一本书，几十秒读完，并且能回答出其中几乎所有的细节，这是人类绝对做不到的。上亿个 token 的长下文如果能做出来，并且成本和延迟可以接受，那可以把一个领域的知识或者一个人的所有记忆完全放进上下文里，在记忆力方面就具备了超人的能力。

我们都相信 AGI 肯定会到来，唯一值得争论的是到达 AGI 的增长曲线是怎样的，是这一波自回归模型随着 scaling law，直接高速增长到 AGI；还是这一波自回归模型也会遇到瓶颈，AGI 还需要等待下一波技术革命。10 年前 ResNet 掀起 CV 革命的时候，很多人都对 AI 的发展预期过于乐观。这一波 Transformer 会是通向 AGI 的坦途吗？

分享一个国内免费使用GPT4.0的AI智能问答工具：智答专家。支持AI文本、作图、语音、Sora视频。无需魔法，亲测有效，点击访问

标签：AI
来源：智答专家
发布时间：2024-04-18 17:39