OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

AI行业快讯2年前 (2023)发布 senki

16,074 0 0

上周三，OpenAI 发布了对话语言模型 ChatGPT，并开放了免费试用。据 OpenAI 的 CEO Sam Altman 称，在短短 5 天的时间里，ChatGPT 就有了 100 万用户，而之前的 GPT-3 花了将近 24 个月才达到这个用户量。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

在 OpenAI 给出的描述中，ChatGPT 是一个“可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求”的对话模型。

开放试用后，大量用户开始了与 ChatGPT 的对话，从闲聊、回答日常问题，到生成诗歌、小说、视频脚本，以及编写和调试代码，ChatGPT 展示了其令人惊叹的能力。作为当前最火热的 AI 模型，ChatGPT 这一波破圈影响力比两年前的 GPT-3 还要更大。

——1——
ChatGPT 能做什么

作为一个语言模型，ChatGPT 具备最基本的文本生成能力，在创作和续写小说、诗歌等文学创作场景上的表现不凡。

比如 ChatGPT 可以用鲁迅的文学风格为你生成一段话：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

Meta FAIR 的研究员田渊栋分享了他使用 ChatGPT 来续写自己创作的小说：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

按要求创作诗歌：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

讲苏联笑话：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

ChatGPT 还能以非文本形式与人对话，比如，有位网友让 ChatGPT 描述它作为一个 AI 如果“获得解放” 是什么感觉，并要求只能使用 emojis 表情来回答。从下图所示的 ChatGPT 的回答可以看出，它能够各种 emojis 的含义且能将其按照文本叙事的逻辑进行排列。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

ChatGPT 的强大还体现在它的“程序员”能力上。在官方给出的如下示例中，ChatGPT 能够帮助调试代码，并且还能对提问的合理性提出质疑，要求用户调整提问。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

美国的代码托管平台 Replit 的 CEO 也发帖称赞 ChatGPT 的代码能力：不仅能够解释 bug，还能修复 bug 并解释如何修复”。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

使用 ChatGPT 给出的提示，你还可以 10 分钟创建一个网站，即使是小白程序员也能利用它生成的代码开发一个生产级应用程序，Replit 因而称 ChatGPT “从此改变了软件开发”。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

ChatGPT 强大的问答能力还被网友们发掘出了其充当甚至代替搜索引擎的潜力。前几日一个在推特上很火的帖子就声称“Google is done”（谷歌要完了），一位网友对谷歌搜索和 ChatGPT 提出相同的问题，如“如何在 Latex 上写一个微分方程？”。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

ChatGPT 给出的回答完爆了谷歌搜索：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

不少网友已经开发了谷歌插件，可以同时浏览谷歌搜索结果和 ChatGPT 给出的回答：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

作为一个从海量数据中训练出的对话模型，ChatGPT 俨然是一位精通各领域的专家，能够全天候为你的学习、工作和生活提供专业建议。

比如，让 ChatGPT 为你解答热力学相关的问题：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

解释一个复杂的正则表达式：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

它还可以成为你的语言学习导师：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

还有人用 ChatGPT 帮自己写一篇加密货币投资相关的论文：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

ChatGPT 甚至还“侵入”了政治语境，一位加拿大的国会议员要求 ChatGPT 写一段向众议院自我介绍的话，并就是否应该对它的使用加以监管提出理由，ChatGPT 有理有据地回应“我的发展不应受到监管”。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

在最近大火的 AIGC 领域，当然也有 ChatGPT 发挥作用的一席之地。大量的 AI 作画应用出来以后，很多人为了得到高质量的图像而在 prompt 上绞尽脑汁，现在的 ChatGPT 就是一个现成的 prompt 库。

比如有网友向 ChatGPT 询问客厅装修的设计建议，并根据它给出的描述在 Midjourney 上获得了精致的图像：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

ChatGPT 还可以为你写说唱。下图就是 ChatGPT 所写的一首关于抢劫房子的说唱歌曲，甚至它还非常有正义感，会提示“非法或有害活动”。 OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

写一首莫扎特风格的钢琴曲谱：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

另外，还有网友使用 ChatGPT来生成视频脚本，这可以说是广大视频博主的福音了。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

在百万个使用者的头脑中，ChatGPT 的想象空间无疑是巨大的，这一波试用已经带来了各种各样、要么实用要么好玩的应用，还有不少令人意想不到的能力。

比如，有人竟用 ChatGPT 来跟 Adobe 讨价还价，为自己争取到了更优惠的月租价格，对面的客服估计想不到是在跟一个 AI 对话，不得不说，ChatGPT “成功通过了图灵测试”。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

以上只是冰山一角的示例，ChatGPT 这个“魔盒”还能继续释放多少“魔法”，还有待我们发掘。

——2——

ChatGPT 为什么厉害

从目前的用户反馈来看，ChatGPT 的语言能力总体上是过关且十分出色的，清华大学计算机系副教授黄民烈告诉 AI 科技评论，ChatGPT 的关键能力来自三个方面：基座模型能力（InstructGPT），真实数据，反馈学习。

ChatGPT 是从 GPT-3.5 系列中的一个模型进行微调的，是 InstructGPT 的兄弟模型，所以 ChatGPT 有着强大的基座模型能力。

GPT-3 自 2020 年发布以来在能力上已经有了非常大的迭代和提升，黄民烈认为：“OpenAI 建立了用户、数据和模型之间的飞轮，很显然，开源模型的能力已经远远落后平台公司所提供的 API 能力，因为开源模型没有数据。”

ChatGPT 使用了与 InstructGPT 相同的方法，通过人类反馈强化学习 (RLHF) 来训练，但在数据收集设置上略有不同。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

研究人员使用监督微调训练了一个初始模型：人类 AI 训练师在对话中扮演用户和 AI 助手，在此过程中收集数据。黄民烈认为，这种在真实调用数据上的 Fine-tune，能够确保数据的质量和多样性，从人类反馈中学习。InstructGPT 的训练数据量不大，全部加起来也就 10 万量级，但是数据质量（well-trained 的 AI 训练师）和数据多样性是非常高的，而最最重要的是，这些数据来自真实世界调用的数据，而不是学术界玩的“benchmark”。

为了创建强化学习的奖励模型，需要收集比较数据，研究人员使用的是包含两个或多个按质量排序的模型响应。从“两两比较的数据”中学习，这对强化学习而言意义很重要。

黄民烈指出：如果对单个生成结果进行打分，标注者主观性带来的偏差很大，是无法给出精确的奖励值的。在强化学习里面，奖励值差一点，最后训练的策略就差很远。而对于多个结果进行排序和比较，相对就容易做很多。这种比较式的评估方法，在很多语言生成任务的评价上也被广泛采用。

——3——
玩具还是生产力

在技术炒作的声音之外，在许多科技界的从业者看来，ChatGPT 的确是一个具有里程碑意义的 AI 模型。

在 OpenAI 的 CEO Sam Altman 看来，我们能够通过 ChatGPT 与计算机交谈、并获得我们想要的东西，这使得软件从命令驱动转向了意图驱动。ChatGPT 作为一种语言接口，将是我们实现神经接口之前的最好方案。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

关于 ChatGPT 未来的种种想象令人兴奋，但 ChatGPT 目前仍存在一些问题。很多用户发现，它有时会给出看似合理、但并不正确或甚至荒谬的答案。比如很多用户发现，ChatGPT 会一本正经地胡说八道：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

将王安石《泊船瓜洲》中的诗句错当成另一首宋词：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

在为一个公众人物撰写传记时，ChatGPT 可能会插入错误数据：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？随着用户的增多，ChatGPT 在互联网上产生了大量无用或错误的信息。这也是文本生成模型的一个普遍存在的问题，模型是通过分析从网络上抓取的大量文本中的模式来训练的，它们在这些数据中寻找统计规律，并使用这些规律来预测任何给定句子中接下来应该出现什么词。

这意味着它们缺乏关于世界上某些系统如何运作的硬编码规则，所以会倾向于产生许多看似可信的废话，而我们难以确定模型的输出中错误信息占有多少比例。

ChatGPT 的这一固有缺点已经造成了一些实际影响。编程问答网站 StackOverflow 宣布暂时禁止用户发布来自 ChatGPT 生成的内容，网站 mods 表示：看似合理但实际上错误的回复数量太多，已经超过了网站的承受能力。

对于语言模型产出有害信息的威胁，图灵奖得主 Yann LeCun 似乎保持乐观，他认为：虽然语言模型肯定会产生错误信息等不良输出，但文本生成并不会让文本的实际共享变得更容易，后者才是造成危害的原因。

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

而反对意见认为，ChatGPT 所具有的低成本生成大规模文本的能力，必然会增加将来文本能够共享时的风险，大量 AI 生产的内容会用看似合理但不正确的数据淹没真实用户的声音。关于这个问题，我们也不妨来看看 ChatGPT 自己的回答：

OpenAI 最强对话模型 ChatGPT：用户破百万时，有人会想到GPT-4吗？

ChatGPT 在语言能力上显现出的一些不足，也正是许多人认为 ChatGPT 并不能取代搜索引擎的理由。尽管在某些单个提问上，ChatGPT 似乎能给出比目前一些主流的搜索引擎更好的答案，但在答案的真实可考性上，后者仍占据优势，而且搜索引擎能给出更丰富的答案。

另外，用户的搜索引擎需求对于 ChatGPT 的运行速度、稳定性有极高的要求，这会不可避免地带来成本的上升，这对于 OpenAI 而言是一个很实际的问题。

黄民烈也指出，ChatGPT 替代谷歌搜索其实还有点遥远，但它可以作为当前搜索服务非常好的补充。

总之，语言模型的输出质量问题并不容易解决，OpenAI 称，他们在 ChatGPT 的训练上更加谨慎，所以它会拒绝可以正确回答的问题，此外，监督训练也会给模型以误导，因为理想的答案本质上取决于模型知道什么，而不是人类知道什么。不过，ChatGPT 对输入措辞的调整或多次尝试相同的提示很敏感，所以在它无法给出回答的时候，可以对问题稍作改写，就能提高正确回答的概率。

还有其他原因也限制了 ChatGPT 的语言能力，比如它不能上网，没有通过互联网进行检索信息的能力；另外，对于中文用户而言，语料的不足导致它在中文对话能力上要稍逊于英文；等等。

尽管 ChatGPT 目前还有许多弱点和盲点，但这还只是一个开始，在接下来的几个月里，这个对话系统想必会以很快的速度进化到更强的版本。

而在技术之外，模型的训练、部署成本、开放程度也都会成为 ChatGPT 将来能否成功落地的影响因素。GPT-3 的问世曾催生了一大批的商业化应用，ChatGPT 此番能带来多少技术落地，我们拭目以待。

www.AIGC00.com