GPT4最值得关心的6个问题 | 见智研究

人工智能开启狂飙进化路，见智研究（公众号：见智研究Pro）特邀中信证券研究部高级副总裁【丁奇】一起来聊聊人工智能GPT4的最新进展，并将核心内容整理如下：

摘要：

1、多模态带来成本的提升是非常正常的。

(资料图片仅供参考)

2、科技越往后成本会越低。从长远来看，OpenAI 的边际成本将无限趋近于 0 。

3、人机交互界面的改变是GPT3.5开始被产业界重视的原因

4、多模态4.0的本质：所有的文字，语音，图像，视频都可以抽象成一组向量。GPT本质上就是一个向量的输入，通过它的相关性输出另一组向量，从而转换成图像、语音或者视频，本质上是一样的，不同的是所消耗的算力资源。

5、现在其实有两个革命，一个是能源革命，基于锂电池，从过去的化石能源到我们的现在的锂电能源。另一个革命就是以ChatGPT为代表的 AGI通用人工智能，未来在有了更灵敏的机械反馈后，机器人就是最大的一个应用场景，但数字人一定会比机器人更先应用。

6、 AI演绎路径：肯定是先软件后硬件，先云端，后端，最后是边端。

正文

丁奇：微软将GPT4嵌入Bing、Office全家桶这是一次天作之合。GPT4的核心就是多模态，能够生成文字、图像和视频，这对搜索引擎和办公有非常大的促进作用，像搜索引擎的核心需要的不仅是链接，而是答案， GPT4就可以直接生成我们想要的具体关于某个问题的答案。

我们平时一般通过办公软件、PPT、Word、Excel来生成内容，现在GPT成了非常强大的助手，比如一键生成PPT，极大促进了办公效率。所以我们认为微软和OpenAI合作必将对生产内容带来革命性的变化，也希望国内相关办公软件尽快推出相关的功能，让人享受到办公的便利。

见智研究：如何看待GPT4 的运行成本？

丁奇：首先GPT4现在并没有公开论文说参数到底是多少，不过360董事长周鸿祎先生根据GPT4的效果做了一个预估，可能是万亿量级的参数。不过这点对于成本来讲还没有那么重要。

另外，过去的计价和现在的计价，都是基于token，现在的单位计价贵了30倍左右（过去是1000个token0.002美元，现在是0.06美元）。为什么会更贵了？因为token的计价方式不同。通用计价方式是你看输入的参数，现在输入同样词更贵了，因为不能光看输入端的成本，还要看输出端的成本。过去的输入和输出都是文字，所以成本是比较低的。而GPT 4.0输出完全可能是图片，甚至以后是视频，输出量是大幅增加的，所以多模态带来成本的提升是非常正常的。

见智研究：GPT 3.5 Turbo为什么能做到参数量更多，但是价格反而更低？

丁奇：3.5相比3.0，核心参数在调优后是有所下降的。成本可以分为两块，一块是训练成本，一块是推理成本。从3.0之后，模型是做好了一个大概的训练，很多成本是有所摊销的，到了3.5之后，大家摊的更多的是推理成本。

科技就是这样的，在一开始的时候肯定是贵的，因为它有大量的研发投入、大量的基础设施投入。当然越往后它会越便宜，因为用的人越多，成本也会分摊的越多。

所以OpenAI 说，从长远来看，它的边际成本是无限趋近于 0 的。其实就像我们现在的搜索引擎一样，现在点一次搜索成本是极其低的。只不过 4. 0相比过去的 3. 5生成的内容不一样，图像、视频对网络带宽、计算量消耗很大，所以短期成本也会提升。

见智研究：GPT4发布后，如何看待之前版本的价值量？GPT1、2、3、3.5到4代大模型的演进变化是怎样的？

丁奇：1. 0 是 2018 年出的， 2. 0 是 2019 年出的，但是其实在产业界没有激起太大的水花，都是 transformer往 NLP（自然语言理解）上的尝试。过去在NLP上大家体验效果其实不太好的，比如语音的转写，翻译效果其实是不太尽如人意的。

过去的人工智能，它的主要算法是基于CNN， RNN， LSTM这三种。它在模仿人的神经元，认为信号是从一个神经元传递到另一个神经元的，也就是从一个单词找到相邻单词之间的相关性。这种方法在图像上特别有效，因为从图像上来讲，相邻的颜色，纹理都会很相似，也诞生出了人工智能的CV领域。

但是像语音、文字就不一定是相邻相关的，需要结合上下文的语境，甚至在前几章就可能埋了伏笔，需要对上下文要有一个完整的记忆和解读。关键就是如何让机器能够实现语境理解。

Transformer 架构提供了一个非常好的思路。既然我们生活中的理解、智慧、经验跟很多东西都相关。那就把参数组扩大，一直扩大到十亿或者是几十亿的范围。这样就能从各种各样的训练数据里找到更多的相关性。

之前Transformer 架构没表现出厉害的特质，本质上只是做一个统计相关。当它只有 1. 17 亿参数的时候，也就是GPT1.0，大家也没有觉得多了不起。到 GPT2. 0 的时候，大概 15 亿的参数，大家也觉得好像也没有什么特别大的突破。GPT3.0 到 3. 5，大家就发现发生了本质的变化。当它的容量扩到上千亿参数的时候，可以想象关联了多少知识在里面，这个时候它的准确率就有一个飞跃。所以直到GPT3.0 和 3. 5 问世才被产业界真正开始重视起来。

3.5 跟 3. 0 的根本区别在于改变了人机交互的界面，这是非常大的一个突破。InstructGPT能够更好的将语言模型和人类的意图、偏好进行匹配，并且在反馈的机制上进行微调。而 4. 0的本质就是多模态了。

见智研究：多模态是如何实现的？

丁奇：无论中文还是英文，常用词也就上万个词，完全可以用矩阵做一个编码。图像其实是由像素点形成，每一个像素点是由三种颜色涂在一块，是三个数字的小矩阵，把若干个矩阵连在一起，就会形成一个大矩阵。图像本质上就是这样的。

每一个语音就是一个正弦波，对它抽样，它也变成一组数字视频，其实就是一张图像把它叠起来，所以本质上所有的文字，语音，图像，视频都可以抽象成一组向量。GPT本质上就是一个向量的输入，通过它的相关性输出另一组向量，向量转换成图像、语音或者视频，本质上是一样的，不同的是所消耗的算力资源。所以为什么能实现多模态？因为本质上都变成了一组矩阵，所有的东西都可以抽象成一组矩阵，这是能变成多模态的底层原因。

其实我们做Transformer 也好，做这GPT也好，根本目的是想使用一个通用人工智能( AGI)做到在不同的情境下都能用。过去都是专用人工智能，比如专门做人脸识别的，专门做车牌识别的，或者专门做工业检测的，都是在某些专业领域的。人机交互一定是多模态的，这也是为什么 4. 0能够让业界感到欢心鼓舞，这是意味着我们离 AGI 更近了一步。

见智研究：GPT4应用具有怎样的想象力？

丁奇：搜索一定是落地的第一个场景，比如New Bing最先接入;其次就是办公软件，比如office365；电子邮件、视频会议也是生成内容类的场景。此外，像服务机器人、智能客服也是非常好的应用领域。

现在其实有两个革命，一个是能源革命，基于锂电池，从过去的化石能源到我们的现在的锂电能源。另一个革命就是以ChatGPT为代表的 AGI通用人工智能，未来在有了更灵敏的机械反馈后，机器人就是最大的一个应用场景。

数字人一定会比机器人更先应用。因为机器人受掣肘的地方比较多，包括续航、关节自由度等等，落地的困难要大很多。如果是数字世界里面的一个数字人，它的到来可能就会快很多，比如主持人、直播带货、数字明星等等。

此外，对游戏行业的影响也很大，特别是能够直接大幅降低游戏的开发成本。用AI画图能够极大提高游戏创意师的工作效率。

未来AI机器能够替代很多简单的工作，所以人的创意，人的思想就变得特别重要。所以我们觉得对于内容创意者会带来特别大的需求提升。

见智研究：AI 产业是硬件迭代的速度更快，还是应用侧发展会更快？

丁奇：我觉得要分两个阶段，初期一定是应用会更快，现在海外有很多的企业都接入了API 接口。国内也有百度的文心一言，后面也会开放API 接入很多的应用。

现在看起来国内和海外的发展路径非常类似，有一两个企业做出一些通用的大模型，接入API后向上层的应用软件进行拓展，就可以极大提升效率。Office365 就是一个很典型的代表。

硬件的迭代要取决于几个条件。云端的硬件就是以GPU 服务器为代表，国内相比英伟达还是有一定差距的，不是短期之内能够迅速追上的。而云端，我们相信以后在端侧也会有一些智能硬件，这些端侧硬件现在的计算能力、内存能力，肯定是难以支持千亿参数的大模型。

而一些应用变得智能，也需要对大模型去做剪枝。可能对参数范围进行圈定，在特定领域有特定应用，从一个大模型变成一个专用领域的特定模型，使得一些边缘侧的智能硬件也可以用。

我们认为首先起来的是云端的软件，以一种 SaaS 化的方式给大家提供。其次就是云端的硬件，因为云端的硬件要怎么去做，其实已经有标杆在那里了，只是大家要踏踏实实地基于路径去做。