OpenAI 主动 “暂停” GPT5，谷歌这个模型将成全球最强，AI“高风险功能” 将被开启？

有人认为，谷歌今年晚些时候推出的 Gemini 有望成为全球迄今为止最强大的 AI 模型，但其 “计划” 能力或引发安全风险。

打开潘多拉魔盒的不是 OpenAI，而是谷歌？

在美国国会举行的听证会上，OpenAI 首席执行官 Sam Altman 说，OpenAI 目前还没有在未来六个月内训练 GPT-5 的计划，表明年内这家公司可能都不会推出更强大的 AI 模型。

因此有人认为，谷歌今年晚些时候推出的 Project Gemini 有望成为全球迄今为止最强大的 AI 模型。

与现有模型相比，Gemini 的最大优势在于其多模态能力。谷歌在近期的一篇博客文章中介绍说：

我们已经开始着手研发 Gemini，这是我们从零打造的下一代模型，具备多模态能力，高效整合工具和 API（应用程序编程接口），并为实现未来创新（如记忆和计划）而设计。

尽管 Gemini 目前仍在训练阶段，但它已经展现出先前模型从未有过的多模态能力。一经精细调整和严格的安全测试，我们将提供不同大小和功能的 Gemini 模型，就像 PaLM 2 一样，确保它能够在各种产品、应用和设备上得到应用，造福每个人。

Gemini 比 GPT 强在哪里？

Gemini 由谷歌最新组建的 Google DeepMind 团队开发，最大的亮点就是它的多模态能力。

据悉，Gemini 建立在多模态模型的基础上，不仅能够理解和生成文本、代码，还能够看懂和生成图像。相比之下，ChatGPT 只是一个纯文本模型，只能理解和生成文本。

这意味着 Gemini 可以应用于更广泛的任务领域。例如，基于 Gemini 创建的 AI 聊天机器人，能够理解和生成文本和图像。

类似地，Bing 虽然有一个专门用于图像创建的链接，但在聊天框内生成的内容仍局限于纯文本，因此用户无法要求它生成图像。

与 ChatGPT 相比，Gemini 还可以为更多种类的产品和应用提供支持。例如，Gemini 可以用于新的 Google 搜索引擎，或者用于创建一种新型 AI 助手。

ChatGPT 和 Bing 都不具备这些能力。但值得一提的是，GPT 5 或许可以实现这些功能。

另外，凭借记忆和计划能力，Gemini 可以用于创建一种新型的 AI 应用，这是 ChatGPT 做不到的。

例如，Gemini 可以用于创建一个能记住你的偏好并帮助你规划日常活动的 AI 个人助手。

但据华尔街见闻此前文章，ChatGPT 本周推出的 70 款插件，基本上能够扮演 24 小时私人助理的角色，但并不能实现规划这一功能。

AI“高风险功能” 将被谷歌开启？

Gemini 的能力令外界感到惊讶，同时也感到害怕。

一名昵称为 “AI Explained” 的 Youtube 知名科技博主认为，谷歌不顾安全风险，赋予模型自行制定并执行计划的能力，并加速开发这一危险的技术，或加剧 AI 对人类社会的威胁。

AI Explained 发现，“计划” 这一能力被谷歌当做 Gemini 的卖点，但被 OpenAI 视为一种安全风险。

在 GPT 4 的技术报告中，有这样一段话：

在更强大的模型中，往往会出现新的引人注目的能力。其中一些能力尤为令人担忧，包括制定和执行长期计划的能力，谋求权力和资源的能力（“谋求权力”），以及展示越来越 “主动性” 的行为。

谷歌谈到将加速对 Gemini 的开发，毫无疑问，其刚刚发布的通用大语言模型 PaLM 2 将是开发加速的地方。可以理解，在这场激烈的全球 AI 竞赛中，暂时处于下风的谷歌必须加快脚步。

作为对比，GPT 4 的技术报告是这样描述的：

OpenAI 特别关注的一个重要问题是，竞争可能引发安全标准下降、不良规范的传播以及人工智能时间表的加速，进而加剧与人工智能相关的社会风险。我们在此将其称为 “加速风险”。

也就是说，OpenAI 是不主张在未能确保安全的情况下加速研究 AI 技术的，主动 “暂停” GPT5 的开发符合这一理念。