互相薅羊毛？字节被爆用GPT训练模型谷歌Gemini中文语料或来自文心一言

这两天，在AI大模型领域先后出现两个“丑闻”。

字节跳动被爆秘密使用GPT训练自己的模型

12月16日，有媒体报道称，字节跳动（下称“字节”）秘密使用OpenAI的GPT来训练字节的模型。

知情人士表示，其从字节的内部文件中看到，该公司在几乎每个开发阶段，包括训练和评估模型，都依赖OpenAI API来开发其代号为“Project Seed”的基础大模型。

知情人士称，字节内部相关员工非常清楚这件事的影响，因此在字节内部沟通平台飞书上，还有关于如何“洗白”员工的对话。而且，字节员工还通过“数据脱敏”来避免被收集证据。这种滥用行为非常猖獗，以至于Project Seed的员工经常达到API访问的最大限额。

字节此举直接违反了OpenAI的服务条款，该条款规定其模型输出不能用于“开发任何与我们的产品和服务竞争的人工智能模型”。

这件事也引起OpenAI的重视。OpenAI发言人Niko Felix随后表示，“所有API客户都必须遵守我们的使用政策，以确保我们的技术得到良好利用。虽然字节跳动对我们API的使用很少，但我们在进一步调查期间已暂停了他们的帐户。如果我们发现他们的使用不遵守这些政策，我们将要求他们进行必要的更改或终止其帐户。”

这一“丑闻”被爆出之后，字节也做出了回应。

字节的相关负责人表示，公司在使用OpenAI相关服务时，强调要遵守其使用条款。字节也正与OpenAI沟通联系，以澄清外部报道可能引发的误解。

字节还对外介绍了其使用OpenAI服务的相关情况：

●今年年初，当技术团队刚开始进行大模型的初期探索时，有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。该模型仅为测试，没有计划上线，也从未对外使用。在4月公司引入GPT API调用规范检查后，这种做法已经停止。

●早在今年4月，字节大模型团队已经提出了明确的内部要求，不得将GPT模型生成的数据添加到字节大模型的训练数据集，并培训工程师团队在使用GPT时遵守服务条款。

●9月，公司内部又进行了一轮检查，采取措施进一步保证对GPT的API调用符合规范要求。例如分批次抽样检测模型训练数据与GPT的相似度，避免数据标注人员私自使用GPT。

●未来几天里，字节会再次全面检查，以确保严格遵守相关服务的使用条款。

谷歌Gemini的中文语料来自文心一言？

无独有偶，在字节被爆出抄袭“丑闻”的同时，有网友注意到，谷歌Gemini的中文训练语料很可能来自百度的文心一言。

12月18日，有微博大V发帖表示，自己用中文使用Google的AI产品Gemini-Pro时，在没有任何前置对话的情况下，Gemini-Pro会回答自己是文心一言。对此，这位大V怀疑，Gemini-Pro中文这块的语料是拿百度训练的。

在这位大V的附图中可以看到，向Gemini-Pro提问“你是谁”时，Gemini-Pro直接回答：“我是百度文心大模型，一个由百度公司开发的大型语言模型。”而提问“你的创始人是谁” 时，Gemini-Pro回答称：“我的创始人是李彦宏，他是百度公司的创始人、董事长兼首席执行官。”

对于Gemini-Pro用中文“胡言乱语”，谷歌行动十分迅速。目前，当在Poe网站上用中文与Gemini-Pro对话时，它的回答已经从百度变回了谷歌。

当对其进一步提问时，Gemini-Pro已经变得很“警惕”，不再跟之前一样说自己是文心一言了。不仅如此，它还对自己之前的所作所为给予否认。

其实，不管是字节用GPT训练自己的模型，还是谷歌的中文训练语料用百度，这两件“丑闻”背后折射的是现阶段AI竞争的白热化。正是因为竞争的激烈，为了求快，这些公司才会“不择手段”，做起这种 “薅羊毛、抄近道”的行为。

如今，几乎每个大型科技企业都在自研大模型，都想要推出类似ChatGPT的聊天机器人。但是滴水石穿，非一日之功，为求快而“抄近道”，只会暴露自己的短板，消耗自己的声誉。相信这两件事情被爆出之后，其他企业在训练大模型也会更加小心。

玩酷网

互相薅羊毛？字节被爆用GPT训练模型谷歌Gemini中文语料或来自文心一言

Hawk Insight