OpenAI元老级研究员AlecRadford离职,主导了GPT-1、GPT-2的研发

岁月如歌醉 2024-12-21 16:53:45

OpenAI 人事方面的变动还在继续。

据外媒 The Information 报道,OpenAI 元老级人物 Alec Radford 即将离职,离职后进行独立研究。

据了解 Radford 信息的人士透露,Radford 表示他计划与 OpenAI 以及其他 AI 开发者展开合作。

OpenAI 研究主管 Mark Chen 在一份声明中表示:「我们对 Alec 及其贡献有着深深的敬意和感激,并期待在他探索独立研究的同时,继续与他合作开展项目。」

也许你没听说过 Radford 这个人,但他参与的研究却是重量级的,在他 2016 年加入 OpenAI 后,带来了一系列革命性突破,比如大家熟知的初代 GPT,还主导了 GPT-2 的研发等等。

在前几天火热进行的 NeurIPS 2024 大会上,OpenAI 前首席科学家 Ilya Sutskever 在他的演讲中特别提到了 Alec Radford、 Dario Amodei 等人参与的 GPT-2、GPT-3 开创性工作,它们推动了预训练时代以及所有进步的到来。

有人猜测,Radford 的离职预示着 GPT-4.5 就要来了。因为之前 OpenAI 高级语音模式发布后的第二天,首席技术官 Mira Murati 官宣离职。这么推算下来,作为 GPT 系列的重磅参与者,GPT-4.5 很可能就是明天发布(毕竟是 OpenAI 连发 12 天的最后一天)。

对此,有人赞同的表示:「也许他想在离开之前完成手头的项目。这并非完全不可能。」

在这条评论下,有人回答道「他虽然做了深入研究,但没有参与任何发布(没有走到台前,一直在幕后),不像 Murati 或其他已经离开的人。如果他不得不等待某件事,那么在 GPT-5 发布后离开会更合适。但老实说,他的离职在某种程度上可能有益于开源研究,因为离开 OpenAI 后会被允许再次发表文章。不过我不知道 OpenAI 的情况,对他们来说,前景看起来很暗淡。」

还有人表示人们低估了 Alec 对 OpenAI 以及整个 AI 研究的影响。他不仅是 GPT 和 Dall-E 的主要作者,而且很可能引领了公司所有重要的研究方向。甚至表示他的影响力不亚于 Ilya。这对 OpenAI 来说是一个巨大的损失,但该网友同时也希望 Alec 可以做一些开放的研究并发表一些东西,这样整个世界都可以受益。

此前,不列颠哥伦比亚大学教授 Jeff Clune 在 X 上发起了一个讨论,「谁是世界上最重要但又最被低估的 AI 科学家?在我看来,只有一个明确的正确答案。大多数重大进展背后都有一个人,但却很少被提及或庆祝。」

Jeff Clune 毫不犹豫的推荐了 Alec Radford,「Radford 显然是影响力最大但知名度最低的人。他推动了许多令人惊叹的发展,他应该作为现代生成式人工智能之父载入史册。Radford 也是一个非常好的人,不追求荣誉,这也是他很少受到关注的部分原因。我们更有理由谈论他对人工智能的巨大影响!」

「Radford 的研究绝对是领先的。他的贡献绝对是惊人的,至少三次改变了这个领域!我们欠他很多。」

他全程参与了 GPT 系列模型的研发

Alec Radford 是GPT-1 的一作、GPT-2 的共同一作,其中 GPT-1 的被引数已经达到了 11947,GPT-2 的被引数为 14828。

2018 年,GPT-1 开启了预训练大模型时代,提出「半监督(semi-supervised)」(后来普遍称为自监督)的方法,先在没有标号的数据上面训练一个预训练模型,再在少量标号数据上面训练一个分辨的微调模型。

2019 年,OpenAI 在 GPT-1 的基础上发布了 GPT-2,利用无监督预训练模型做有监督任务。相较于初代模型进行诸多改进,GPT-2 参数达到 15 亿,可以执行多样性任务,开始学习在不需要明确监督的情况下执行数量惊人的任务。在 GPT-2 阶段, OpenAI 去掉了 GPT-1 阶段的有监督微调(fine-tuning),成为无监督模型。

GPT-1 论文:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

GPT-2 论文:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

不仅如此,Alec Radford 还参与了GPT-3 论文的撰写、以及 GPT-4 的预训练数据和架构研究工作。

2020 年,到了 GPT-3 阶段,参数相较于 GPT-2 增加两个数量级以上,达到了 1750 亿参数,在许多 NLP 数据集上都有很强的性能(包括翻译、问题解答和完形填空任务),以及一些需要动态推理或领域适应的任务(如解译单词、在句子中使用一个新单词或执行算术)。

2023 年,GPT-4 开始迈向多模态模型,成为 AI 新里程碑,可以解决更复杂的问题、编写更大型的代码,并通过图片产生文字。GPT-4 的回答准确性不仅大幅提高,还具备更高水平的识图能力,且能够生成歌词、创意文本,实现风格变化。

GPT-3 论文:https://arxiv.org/pdf/2005.14165

GPT-4 技术报告:https://arxiv.org/pdf/2303.08774

根据 Google Scholar 显示,Alec Radford 的论文被引总数超过了 19 万,其中 1 万以上的达到 7 篇,足可见其参与工作的含金量和影响力。

0 阅读:0