弱智吧成中文AI最佳训练语料,AI之路道阻且长

无线不科技 2024-04-05 05:27:33

你知道弱智吧吗?他们的画风是这样的。

这是一个充满荒谬、离奇、不合常理发言的中文社区。吧友们用简洁双关的中文制造一个又一个令人乍一看令人一脸茫然,细想又会心一笑的冷笑话。这样的冷笑话居然出现在了中科院的论文上,还成为了最佳的中文AI训练数据?

中科院和其他研究机构联合团队从百科、知乎、豆瓣、小红书等各种平台中收集了大量的中文语料,并且经过精细地筛选与整理,编制成了中文数据集。基于此数据集,中科院团队进一步对人工智能模型进行了训练,并使用不同数据集合所培育的AI模型进行了性能评估。每个数据集的得分如下:

弱智吧数据集训练的 Yi-34B 模型在开放式问答、头脑风暴、分类、生成、总结、封闭式问答、 提取、代码8个项目下都拿到了最高,在所有子集里的总分排名第二!

弱智吧的帖子通常包含双关语、多义词、因果反转和谐音词等,很多设计都带有逻辑陷阱,这对人类来说也是一项挑战。它能增强了模型的逻辑推理能力,从而在大多数指令跟随任务中受益。弱智吧中的内容具有挑战性,需要模型进行更深层次的理解和推理,在一定程度上提高了模型处理复杂指令的能力。大量真实、生动、复杂的中文语料,为AI深度学习提供了宝贵素材,让中文AI更加贴近我们的思维方式和表达习惯。

自GPT-3.5于2022年11月发布以来,AI浪潮席卷了全社会,无数国内科技公司投身大模型的开发。百度的文心一言、科大讯飞的星火认知大模型、阿里的通义千问等大模型产品历经千锤百炼逐步上线。由于缺少优质中文数据集等原因,国内的AI会出现很多问题,在理解复杂语境、文化差异及长篇连贯对话中面临挑战,如双关语、讽刺和隐喻等。在长篇连贯的对话中,AI也难以保持对话题的持续跟踪和深入理解。

在各个大模型发布之初,弱智吧其实已经是他们绕不开的难题。当时就有许多网友拿弱智吧的问题去拷问AI,让AI无法理解、漏洞百出来取乐。在AI经历过一波发展浪潮后的今天,弱智吧依然是他们的宝贵“老师”。

想让AI真正理解人类所思所感,在人类的生活中起到更多作用,还有很长的路要走。

0 阅读:17

无线不科技

简介:感谢大家的关注