Devin—被程序员一手缔造出来的将会替代自己的怪物

思阳看商业 2024-03-28 14:22:31

2024年3月12日,一则X上的更新引起了全世界的关注:

真的是平地一声雷,给火爆的AI大模型行业又加了一把柴。这次他们要做的不是“取代设计师”、“取代作家”,而是矛头一转直接插向自己,准备干掉“程序员”!恨起来连自己都不放过。

Devin 是一位突破性的 AI 软件工程师,旨在通过与人类的协作来革新软件开发。它不仅仅是一个程序,而是一种能够编写代码、调试并开发应用程序和网站的 AI。由 Cognition 公司开发,由 Scott Wu 领导,Devin 在软件开发中扮演着重要角色。它旨在与人类一起工作,提高生产力,而不是取代工作。Devin 具有学习和适应的能力,正在改变软件工程任务的处理方式,承诺 AI 与人类更密切地协作的未来。

这是Cognition官网的介绍,极致简约,感觉跟小学生做的ppt一样:

这个是Devin的界面,也是一个简单的对话框,跟ChatGPT类似,不过还不能直接用,需要申请使用资格。

以下是 Devin 的一些特点:

AI 作为软件工程师:Devin 可以自主处理多种编程语言的编码、测试和部署。

学习和适应:它从每个项目中学习,随着时间的推移不断提高效率和能力。

与人类协作:Devin 的设计目标是辅助人类工程师,而不是取代他们,提高团队的生产力。

实际应用:从网站创建到应用程序开发和软件测试,Devin 在实际项目中已经展示了其潜力

Cognition这家初创公司团队都不简单

这么一家初创公司竟然已经上市了,看了下它的股价,貌似近期并没有异动:

Cognition Labs 是一个由各个领域的人才组成的小团队。创始团队在国际信息学奥林匹克竞赛(IOI)中共获得10枚奖牌,这是一项非常著名的中学生竞争性编程竞赛。从照片中可以看出,其中有不少华裔的面孔,创始人Scott Wu本身也是一位华裔。

Scott Wu从小就是个数学天才,最初出名是在2011年雷神公司数学竞赛全国竞赛中获胜,那时他只有8岁,他说他很喜欢这些比赛,后来在14岁时哥哥Neal又给他推荐了编程比赛,表现依然很出色,在Codeforces 上晋升为传奇大师,这个是编程比赛的顶级平台,他目前的评分为 3297,最高总分是 3350。

Scott Wu在著名的哈佛大学学习经济学,然后搬到旧金山创办自己的公司。2017 年,他与合作伙伴共同创立了 Lunchclub,这是一个旨在利用数据和机器学习促进专业联系的平台。2023 年 11 月,27岁的Scott Wu 与其两位联合创始人首席技术官 Steven Hao 和首席产品官 Walden Yan 一起创立了 Cognition Labs。它最大的优势之一在于其创始团队的非凡才能,每个成员都拥有 Codeforces 的传奇大师评级。2024 年 3 月,他们推出了他们的主要发明——自主软件工程师“Devin”,它在几个小时内就打破了互联网。

Scott Wu 的哥哥 Neal Wu也是联合创始人,他也是一个数学天才,在童年时期赢得了各种比赛。目前是CodeForces的国际特级大师,他之前以最高评分3147获得了传奇特级大师头衔,与他的兄弟相提并论。他是 3 次 IOI 金牌得主,与吴并列。

其他成员包括联合创始人 Steven Hao,他曾在 Scale AI 担任工程师,Scale AI 是一家领先的人工智能系统训练初创公司。另一位联合创始人瓦尔登·严(Walden Yan)直到最近还要求哈佛大学保持他的身份“模棱两可”。造成这种情况的主要原因是他还没有和父母谈过从哈佛辍学去Cognition工作的问题。郝和闫都是IOI赛事的一届金牌得主。

Cognition 获得了Founders Fund领投的2100 万美元投资

最近,Cognition 获得了 Peter Thiel 的风险投资公司 Founders Fund 领投的 2100 万美元投资。其他著名的投资者包括加密货币平台Coinbase的创始人Fred Ehrsam;Tony Xu,DoorDash 首席执行官;以及前 Twitter 高管 Elad Gil。

Founders Fund也大有来头,它是2015年由彼得·蒂尔(Peter Thiel)联合创办的风险投资基金。在他们看来,一家公司是死是活就要看创始人们,因此他们把这支基金取名为创始人基金Founders Fund(创始人基金)。

Peter Thiel可能有些人会有点陌生,但提到马斯克大家应该都知道。他俩曾经共同创立PayPal,后来出售给eBay,两人都实现了财务自由,蒂尔转型为一名职业风险投资人,他投过的企业如:LinkedIn、Facebook、SpaceX、Airbnb、DeepMind、Palantir等等,一个比一个牛。Cognition能被他看中,相信未来也一定会有不错的表现。

Devin的功能强大,完全媲美一个程序员

Cognition官网是这么描述的:Devin 可以计划和执行需要数千个决策的复杂工程任务。Devin 可以在每一步中回忆相关的上下文,随着时间的推移学习并纠正错误。

我们还为 Devin 配备了通用的开发人员工具,包括 shell、代码编辑器和沙盒计算环境中的浏览器——人类完成工作所需的一切。

最后,我们赋予了 Devin 主动与用户协作的能力。Devin 实时报告其进度,接受反馈,并根据需要与您一起完成设计选择。

让我们来看看 Devin AI 的一些关键特点:

(1)快速学习与应用新技术:Devin 可以通过阅读博客文章和执行代码,迅速掌握并应用全新的技术。例如,当需要生成带有特定文字的图像时,Devin 可以在短时间内理解 ControlNet 技术,并成功应用于实际任务中。

(2)端到端的项目实施:Devin 不仅仅是代码的编写者,还能够管理整个软件开发流程,从构建到部署,实现端到端的应用程序开发。例如,对于“生命游戏”,Devin 可以自行创建应用,编写并测试代码,并将其部署到云服务如 Netlify,让项目轻松上线。

(3)自动化测试与 Debug:在软件开发中,测试和调试是确保代码质量的关键步骤。Devin 能够自行识别代码库中的错误,进行有效的测试和修复。例如,面对一个大型开源库中的 bug,Devin 不仅能找到问题所在,还能自行编写测试用例,并通过调试修复错误。

(4)AI 模型训练与微调:Devin 不仅可以编写和调试代码,还能够训练和微调 AI 模型。这意味着 Devin 可以进行 AI 训 AI 的操作,将 AI 的能力进一步推向新的高度。Devin 成功微调了 QLoRA 和 7B Llama 模型,处理了在模型训练过程中遇到的各种问题。

(5)开源代码库的问题解决:Devin 展现了在开源社区贡献的能力,能够自动解决代码库中的错误和功能请求。例如,对于 impro 这一开源工具的问题,Devin 不仅能理解问题本质,还能独立完成代码的编写和调试,最终完成了用户的任务。

(6)为成熟的生产存储库做贡献,修复系统错误:在处理成熟的生产库问题时,Devin 同样表现出色。它能够配置环境,复制错误,并自行编码和测试修复方案,如在 sympy Python 代数系统中成功解决对数计算错误。这不仅节省了开发者的时间,还提升了库的稳定性和可靠性,证明了 Devin 在高级编程任务中的能力。

(7)胜任自由职业平台的工作:在全球最大的综合性自由职业平台 Upwork 上,Devin 也证明了自己的工作能力。面对一个具体“用计算机视觉模型做推理”的工作任务,Devin 能够独立完成项目设置、代码编写、问题解决及结果报告的整个工作流程。这意味着,AI 已经可以自动化地在 Upwork 上赚钱了。

专业测试中完胜其他大模型:

我们在 SWE-bench 上评估了 Devin,这是一个具有挑战性的基准测试,要求代理解决在 Django 和 scikit-learn 等开源项目中发现的真实 GitHub 问题。

Devin 正确地解决了 13.86%* 的端到端问题,远远超过了之前最先进的 1.96%。即使提供要编辑的确切文件,以前最好的模型也只能解决 4.80% 的问题。

这是Devin工作时的界面:

和ChatGPT相比各有千秋

Devin 在模拟开发人员工作区的沙盒环境中运行。在该沙盒中,它可以访问常见的开发人员工具,如 shell、代码编辑器和浏览器。它可以在该环境中独立计划和执行。在执行此操作时,它会保持有用的习惯,即在聊天窗口中更新用户,并详细说明其正在进行的进度。

相比之下,ChatGPT 提供了一个对话界面,用户必须在其中不断输入文本提示或语音命令。虽然 ChatGPT 解释了它正在做什么并响应用户创建代码的请求,但它并没有在可见的开发环境中工作。

虽然 Devin AI 擅长编码,但 ChatGPT 是一个更通用的知识系统。它能够参与广泛主题的对话,这赋予了它实用性,而 Devin 仅能在其专业领域应用。

Devin AI 和 ChatGPT 代表了截然不同的 AI 编码方法,每种方法都有其独特的优势。Devin AI 突破了自主软件开发的界限,而 ChatGPT 则提供了一个适应性强且易于访问的界面,适合广泛使用。这两种技术都在为一个快速加速的过程做出贡献,在这个过程中,人工智能工具和服务继续改变我们的日常生活。

那么Devin在实际使用中的表现怎么样呢?

由于目前是测试阶段,并不是对所有用户开放,需要在Devin的主页申请试用,审核通过了才可以登陆。

这是笔者申请后的提示:

斯坦福的小哥Andrew Kean Gao在 Devin 发布的第一时间就联系了团队,获得了第一手体验的资格。他把使用过程拍成了视频发布了出来,我们看看他使用后的感受:

首先是让 Devin 做一个用 API 获取股票价格的软件:

下一个任务是让 Devin 做一个可以让普通用户直接与大模型下棋的网站。

因为要调用ChatGPT的接口,Devin 直接要求小哥提供 API 密钥,而且在试用过程中还可以正确地保护它。

可能这个还是有点复杂,最终没有完成任务。

与此同时,小哥要求它再执行一个数据分析的任务。让 Devin 去「创建一张过去五十年南极洲海水温度的地图」。最终,Devin 将 App 部署到了 Netlify 上了,一个应用已经上线了,然而打开之后是这样的:

完全不知道它做的是什么。可能是Devin对于南极洲的理解有误,后面又改成北美,不过没有给我们再展示。

通过一系列的使用,简单做了一个总结: Devin 产品化做得很好,可以直接生成一个产品,还可以调用第三方的API接口,自动生成网址等,产品的完成度已经非常高了,远远超过了一般的演示 Demo。但是使用中小哥也发现了反应速度有点慢,甚至等了17分钟才向小哥要ChatGPT密钥,也可能跟网速有关。还有就是还不能允许用户直接自己编辑代码,也不能修改。

最终,小哥用 Devin 做了一个 chrome 插件,可以帮助用户把 Github repo 转化成 Claude prompt,这个插件看起来还是不错的:

好了,关于Devin的介绍就到此为止,目前看起来还不是那么完善,但它已经足以让世界震惊,相信经过不断的迭代,马上我们就能很简单流畅的使用它,人人都可以成为程序员!

0 阅读:0

思阳看商业

简介:感谢大家的关注