互相薅羊毛?字节被爆用GPT训练模型谷歌Gemini中文语料或来自文心一言

Hawk Insight 2023-12-18 18:40:12

这两天,在AI大模型领域先后出现两个“丑闻”。

字节跳动被爆秘密使用GPT训练自己的模型

12月16日,有媒体报道称,字节跳动(下称“字节”)秘密使用OpenAI的GPT来训练字节的模型。

知情人士表示,其从字节的内部文件中看到,该公司在几乎每个开发阶段,包括训练和评估模型,都依赖OpenAI API来开发其代号为“Project Seed”的基础大模型。

知情人士称,字节内部相关员工非常清楚这件事的影响,因此在字节内部沟通平台飞书上,还有关于如何“洗白”员工的对话。而且,字节员工还通过“数据脱敏”来避免被收集证据。这种滥用行为非常猖獗,以至于Project Seed的员工经常达到API访问的最大限额。

字节此举直接违反了OpenAI的服务条款,该条款规定其模型输出不能用于“开发任何与我们的产品和服务竞争的人工智能模型”。

这件事也引起OpenAI的重视。OpenAI发言人Niko Felix随后表示,“所有API客户都必须遵守我们的使用政策,以确保我们的技术得到良好利用。虽然字节跳动对我们API的使用很少,但我们在进一步调查期间已暂停了他们的帐户。如果我们发现他们的使用不遵守这些政策,我们将要求他们进行必要的更改或终止其帐户。”

这一“丑闻”被爆出之后,字节也做出了回应。

字节的相关负责人表示,公司在使用OpenAI相关服务时,强调要遵守其使用条款。字节也正与OpenAI沟通联系,以澄清外部报道可能引发的误解。

字节还对外介绍了其使用OpenAI服务的相关情况:

●今年年初,当技术团队刚开始进行大模型的初期探索时,有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在4月公司引入GPT API调用规范检查后,这种做法已经停止。

●早在今年4月,字节大模型团队已经提出了明确的内部要求,不得将GPT模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用GPT时遵守服务条款。

●9月,公司内部又进行了一轮检查,采取措施进一步保证对GPT的API调用符合规范要求。例如分批次抽样检测模型训练数据与GPT的相似度,避免数据标注人员私自使用GPT。

●未来几天里,字节会再次全面检查,以确保严格遵守相关服务的使用条款。

谷歌Gemini的中文语料来自文心一言?

无独有偶,在字节被爆出抄袭“丑闻”的同时,有网友注意到,谷歌Gemini的中文训练语料很可能来自百度的文心一言。

12月18日,有微博大V发帖表示,自己用中文使用Google的AI产品Gemini-Pro时,在没有任何前置对话的情况下,Gemini-Pro会回答自己是文心一言。对此,这位大V怀疑,Gemini-Pro中文这块的语料是拿百度训练的。

在这位大V的附图中可以看到,向Gemini-Pro提问“你是谁”时,Gemini-Pro直接回答:“我是百度文心大模型,一个由百度公司开发的大型语言模型。”而提问“你的创始人是谁” 时,Gemini-Pro回答称:“我的创始人是李彦宏,他是百度公司的创始人、董事长兼首席执行官。”

对于Gemini-Pro用中文“胡言乱语”,谷歌行动十分迅速。目前,当在Poe网站上用中文与Gemini-Pro对话时,它的回答已经从百度变回了谷歌。

当对其进一步提问时,Gemini-Pro已经变得很“警惕”,不再跟之前一样说自己是文心一言了。不仅如此,它还对自己之前的所作所为给予否认。

其实,不管是字节用GPT训练自己的模型,还是谷歌的中文训练语料用百度,这两件“丑闻”背后折射的是现阶段AI竞争的白热化。正是因为竞争的激烈,为了求快,这些公司才会“不择手段”,做起这种 “薅羊毛、抄近道”的行为。

如今,几乎每个大型科技企业都在自研大模型,都想要推出类似ChatGPT的聊天机器人。但是滴水石穿,非一日之功,为求快而“抄近道”,只会暴露自己的短板,消耗自己的声誉。相信这两件事情被爆出之后,其他企业在训练大模型也会更加小心。

0 阅读:51

Hawk Insight

简介:思考多一点,洞见远一点