作者丨李梅黄楠
编辑丨岑峰
今日,多模态大模型GPT-4震撼登场!
GPT-4能够接受图像和文本输入,输出文本,在各项测试和基准上的表现已经与人类水平相当。
OpenAI一次性大放送,发布了GPT-4的技术报告、systemcard,并提供了ChatGPTPlus体验、GPT-4的APIwaitlist、demo视频,以及用于自动评估AI模型性能的OpenAIEval框架。
SamAltman称,GPT-4是“我们迄今为止最强大、对齐最好的模型”。
——1——对ChatGPT的巨大超越
在许多方面,GPT-4都已经能做到之前ChatGPT(GPT-3.5)所力不能及的事情。相比ChatGPT,GPT-4支持更长的输入,一次可接受个token,相当于50页纸的内容,长篇学术论文可以直接丢给它去解读了。
图源知乎
GPT-4跟GPT-3.5具有相同的API接口和交互界面,但在文本总结和加工能力上,GPT-4有了明显的提升,这表现提出指令后,模型能更好地遵循指令给出答案。
例如让一篇文章变成一个句子,每个单词都以G开头,GPT-3.5还未尝试就放弃了任务,但在GPT-4中可以很好地完成:
GPT-3.5
GPT-4
同时,GPT-4对指令的理解能力更佳:
(图片来源:知乎网友:
连诗路)此次更新中,GPT-4最令人惊喜的能力,是它可接受图片输入,并对图片生成说明、分类和分析。比如输入一张有鸡蛋、面粉和牛奶的图片,询问GPT-4可以使用这些原材料做什么,得到的结果如下:
GPT-4可以实现从图片中提取文字信息并输出到HTML,比如尝试手绘一个笑话网站模型,让GPT-4尝试自动生成网站的原型图(程序员嗅到了危险的味道):
手绘的笑话网站模型图
GPT-4根据手绘生成的笑话网站
对比ChatGPT,GPT-4的推理能力也有所超越,下面的结果展示了同一个问题ChatGPT和GPT-4给出的不同答案:
左边为ChatGPT,右边是GPT-4
不仅如此,GPT-4还能基于税务法则,帮助一对夫妻精准地计算出年缴纳的税额,并给出详尽的算法步骤,以便阅读解释。
据了解,OpenAI于去年8月就已经完成了GPT-4的训练,我们与OpenAI的差距似乎更大了。
——2——与ChatGPT相同的技术路线
在技术层面,一句话概括,GPT-4是一个Transformer模型,使用公开可用的数据(如互联网数据)和第三方提供商许可的数据进行预训练,预测文本中的下一个token,然后使用RLHF(来自人类反馈的强化学习)对模型进行微调。
在一份98页的技术报告中,OpenAI报告了GPT-4的性能、局限性和安全特性,但并没有公开有关架构(包括模型参数量)、硬件、训练计算、数据集构建、训练方法等内容的更多细节。
OpenAI声称是“鉴于竞争格局和GPT-4等大规模模型的安全性影响”。
关于GPT-4的参数量,此前OpenAI的CEOSamAltman表示,GPT-4不会比GPT-3高出太多,但大家关于GPT-4拥有极大参数量的猜测仍有很多。
对此,UCL计算机系教授、上海数字大脑研究院院长汪军认为,大力确实出奇迹,此前ChatGPT的语言能力很强,有一定的逻辑推理能力,但它并未真正理解数据里面的内容,它只是在原来的训练数据中、搭料能力很强,因此是具有一定局限性的,在训练里一定要加上它对整个世界的理解。举个简单的例子,以下棋为例,如果你给它所有人类的下棋数据能力,比如说分以下所有人的数据,如果模型只模仿人的话,那么它是模仿不出比这分更高的智能的。
报告