Devin背后技术浮出水面!居然是OpenAI推出新版本GPT-4Vision!

技术创新发展界 2024-04-12 17:01:57

撰稿 | 言征

出品 | 51CTO技术栈(微信号:blog51cto)

就在今天,GPT-4推出重磅更新!带视觉能力的GPT-4面向大众公开了!

图片

MiraOpenAI首席技术官Mira在推特上公布了这一消息。

图片

据OpenAI API官方介绍,GPT-4 Turbo with Vision 现已在 API 中正式推出。Vision 请求现在也可以使用 JSON 模式和函数调用。

大家都知道,GPT-4是一个多模态的大模型,支持文本和图像的输入,输出为文本,那么GPT-4 Vision 又是什么鬼?

简单来讲,就是这个版本的GPT-4不再仅限于输入图片,而是可以随时盯着你的屏幕与操作,成为你的实时助手,而不再只是一个局限在聊天工具里的智囊。

这样还是比较抽象,OpenAI开发者账号还给出了几个生动的实例,大家不妨感受下!

1.GPT-4 Vision:主打一个实时屏幕交互

首先,不得不提Devin,当时cognition_labs推出它时,朋友圈都被刷爆了,感慨它是一个颠覆式的编程Agent!

当时,业内人士就猜测背后的模型是GPT-4,现在OpenAIDevs也官宣了:Devin是GPT-4 Turbo提供支持的人工智能软件工程助手,那些丝滑的Agent体验,也使用了Vision来执行各种编码任务。

通过屏幕的实时跟踪和交互,一切都变得更有趣起来了!

,时长00:45

第二个,印度最大的健康&健身平台Healthify,目前拥有超过4000万用户,提供健康跟踪和人工智能增强的健康指导。近一年来,Healthify通过OpenAI API,极大增强了原有AI产品的性能,简化了健康跟踪流程,并扩大了教练的业务范围。

具体到GPT-4 Vision,Healthifyme团队使用带有Vision的GPT-4 Turbo构建了Snap,通过识别来自世界各地的食物照片为用户提供营养见解。使用 GPT-Vision 和嵌入模型来即时跟踪食物和规模指导,准确度大大提升。

,时长00:18

该公司的AI产品总监Raja表示,GPT-4的能力极限很大。“除了让GPT-4回答问题,现在还可以让它执行应用程序操作。”

第三个例子,也是最为对开发者形象的例子就是tlfraw团队开发的产品Make Real。

Make Real可以实时通过用户画示例图的交互形式结合局部提示快速生成由真实代码驱动的工作网站,这背后也是带有视觉的GPT-4 Turbo的功劳。

2.实际融入业务,GPT-4 Vision究竟如何强悍?

GPT-4 Vison的早期使用者们,实际反馈如何,又是究竟看上了OpenAI哪里呢?

以上文提到的healthify为例,借助 OpenAI 率先上市的简单 API,团队快速构建了原型来测试模型性能。在正式选择提供商之前,团队评估了多种模型选项,包括开源模型。

经过全面评估后,Healthify 与 OpenAI 合作原因主要有这四点:

首先,是一流的精度。 GPT-4 Vision瞬间超越了Snap pipeline的性能;该模型本身就可以识别来自世界各地的食物,并检测到照片中的多种食物。GPT-4(针对 Ria)和 Whisper(针对 Coach Copilot)同样优于其现有管道和其他GenAI替代模型。

其次,轻松集成。一旦他们验证了原型并且需要集成到他们的生产系统中,Healthify 团队就可以简单地将 OpenAI 的 API 添加到他们现有的管道中。“使用 OpenAI 构建概念验证并使用它们来构建生产系统非常容易,”Vashisht 说。

第三,只需要简单的微调。Healthify 选择 OpenAI 很大程度上是因为可以进行开箱即用的微调。对数据进行建模以进行微调并将其上传到服务非常简单。该团队无需太多配置就能够成功地将 OpenAI 的模型应用到他们的用例中。

第四,强大的嵌入模型。Healthify 使用嵌入模型来解决其关键问题之一:除了文本匹配之外,如何匹配两种食物?他们需要将 GPT-4 返回的食物名称与自己系统中已有的食物名称进行匹配。“GPT 是它自己的一个模型。它有自己的食物名称词典。Healthify 有自己的食物名称,我们试图弄清楚如何进行匹配,”技术副总裁Abhijit Khasnis评论道。

“当我们测试 OpenAI Embeddings 模型时,我们意识到 GPT 识别的食物名称和我们的食物嵌入之间的余弦相似度匹配为我们提供了很高的准确性!”

大模型时代,如何用上、用好大模型的能力,是今年以来每一位热衷于AI变革的创新者都在思考的问题。我们不妨借鉴下healthify的思路。

3.网友:这正是我想要的!

大模型一出,所有的应用都值得重构一下,这句话放到2024年,绝对不再是夸张的说辞。

OpenAI也明显让GPT-4开始具备了融入生活、工作多种场景下的多种意想不到、却又惊艳到用户的心动功能。网友们纷纷表示:啊哈,GPT4 Vision果真是我想要的!

图片

图片

最后,不得不提:GPT-4,不是不能吃掉原来的应用,只不过它不想吃,GPT-4需要更多的朋友来加速它的AGI飞轮!

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

来源: 51CTO技术栈

0 阅读:0

技术创新发展界

简介:感谢大家的关注