OpenAI 刚刚推出了深度研究(Deep Research),看名字像学了deepseek,那么它的实际使用也是和deepseek一样么?今天我们就来一探究竟。篇幅有点长,大家可以先点赞关注,方便随时可以看。
接下,我们就好好聊聊这个Deep Research。
据悉,这是一款对 ChatGPT 专业版订阅用户开放使用的人工智能智能体,不过每月查询限制为 100 次。此外,团队版和企业版计划很快也会推出,免费版访问随后也会上线。其理念是它可以为你在互联网上处理多步骤的研究任务。
它会搜索网络,浏览数百个信息源,筛选文本、图像、PDF 文件等任何它能找到的内容,然后生成一份完整记录、有引用来源且经过推理的报告。
他们将其称为 “迈向通用人工智能(AGI)的又一重大飞跃”,因为能够整合知识在某种程度上是创造新知识的先决条件,对吧?所以,如果你能在几分钟内完成一篇高水平的文献综述,这就可能会是一个改变游戏规则的新突破。
OpenAI 的首席产品官凯文・W(Kevin W)在发布会上演示了Deep Research的能力。
在ChatGPT中,可以在消息编写框内直接选择深度研究,输入查询内容。也许你想要深入分析适合城市生活的各种通勤自行车,或者想要对流媒体平台进行全面的财务分析。你甚至可以附加数据文件和电子表格。
然后,你点“开始”,一个侧边栏就会弹出,展示智能体正在采取的步骤、它访问的信息源,以及如果遇到新信息时它如何调整方向。
这可能需要运行 5 分钟,或者长达半小时,具体取决于你问题的复杂程度。与普通聊天的一个巨大区别是,当它在运行时你可以走开,比如去喝杯咖啡,研究是同步进行的。
完成后,它会通知你,你将在聊天窗口中收到一份最终的、极其详尽的研究分析风格的报告。其实这与deepseek R1研究过程基本一致,这里大家可以去试试就知道了。
据 OpenAI 称,他们最终会嵌入图像、数据可视化内容,比如图表或表格,使其更加清晰明了。除此之外,他们还做了一个很有意思的对比示例。
当你询问同时带有文本标签和图标的按钮,与仅带图标或仅带文本的按钮在可用性上有何差异。GPT - 4 的简短回答可能是:“哦,是的,图标加标签通常更清晰,因为图标可能会有歧义”,这是一个不错的总结。
但深度研究则进行了全面深入的分析,引用了实际研究,列出了用户错误率和老年人使用模式的统计数据,参考了尼尔森・诺曼集团(Nielsen Norman Group)的建议,甚至提及了图标在不同文化中可能存在的歧义。最终的报告看起来像一份精心整理的多页文档,非常适合任何需要将其展示给客户或教授的人。
或许大家都能猜想到,是OpenAI的新模型GPT - o3,针对网页浏览、数据抓取、分析以及重要的推理进行了优化。该系统还通过端到端强化学习进行训练,使用实际任务。它还可以使用Python来处理数据或生成可视化内容。
另外,他们在 “人类最后一次考试”(Humanity's Last Exam)中对深度研究进行了测试,这是一场涵盖 100 个学科、3000 道题的大型测试,以了解它处理专家级问题的能力。
GPT - 4 准确率为 3.3%,然后他们还有其他模型,准确率为10%左右,但为深度研究提供动力的模型准确率飙升至 26.6%。等于提升了2倍,这是一个巨大的飞跃,得益于它可以进行多步骤、多搜索的研究。
同时,他们还提到了 GIA,这是一个针对现实世界问题的公共基准测试。深度研究显然在这个排行榜上名列前茅,尤其是在高难度问题上。他们追踪各种指标,比如如果模型被允许在线进行大量工具调用,通过率就会提高。
它浏览和思考得越多,表现就越好,这与人类研究人员的工作方式完全一致:先阅读一些内容,意识到有所缺失,再去阅读其他内容,交叉核对参考资料,然后完成研究。
不仅如此,OpenAI 还希望它不局限于网页浏览。最终,它将连接到基于订阅的信息源和公司内部数据,甚至能够分析私人PDF文件。
从长远来看,他们设想它与另一个人工智能智能体Operator协同工作,负责处理诸如预订航班或进行购物等现实世界任务。目标是打造一个完全自主的人工智能助手,能够为你思考、研究并采取行动。
如果真的实现了,就意味着有智慧的AI真的来了,大家期待它的到来吗?