弱智吧成中文AI最佳训练语料，AI之路道阻且长

你知道弱智吧吗？他们的画风是这样的。

这是一个充满荒谬、离奇、不合常理发言的中文社区。吧友们用简洁双关的中文制造一个又一个令人乍一看令人一脸茫然，细想又会心一笑的冷笑话。这样的冷笑话居然出现在了中科院的论文上，还成为了最佳的中文AI训练数据？

中科院和其他研究机构联合团队从百科、知乎、豆瓣、小红书等各种平台中收集了大量的中文语料，并且经过精细地筛选与整理，编制成了中文数据集。基于此数据集，中科院团队进一步对人工智能模型进行了训练，并使用不同数据集合所培育的AI模型进行了性能评估。每个数据集的得分如下：

弱智吧数据集训练的 Yi-34B 模型在开放式问答、头脑风暴、分类、生成、总结、封闭式问答、提取、代码8个项目下都拿到了最高，在所有子集里的总分排名第二！

弱智吧的帖子通常包含双关语、多义词、因果反转和谐音词等，很多设计都带有逻辑陷阱，这对人类来说也是一项挑战。它能增强了模型的逻辑推理能力，从而在大多数指令跟随任务中受益。弱智吧中的内容具有挑战性，需要模型进行更深层次的理解和推理，在一定程度上提高了模型处理复杂指令的能力。大量真实、生动、复杂的中文语料，为AI深度学习提供了宝贵素材，让中文AI更加贴近我们的思维方式和表达习惯。

自GPT-3.5于2022年11月发布以来，AI浪潮席卷了全社会，无数国内科技公司投身大模型的开发。百度的文心一言、科大讯飞的星火认知大模型、阿里的通义千问等大模型产品历经千锤百炼逐步上线。由于缺少优质中文数据集等原因，国内的AI会出现很多问题，在理解复杂语境、文化差异及长篇连贯对话中面临挑战，如双关语、讽刺和隐喻等。在长篇连贯的对话中，AI也难以保持对话题的持续跟踪和深入理解。

在各个大模型发布之初，弱智吧其实已经是他们绕不开的难题。当时就有许多网友拿弱智吧的问题去拷问AI，让AI无法理解、漏洞百出来取乐。在AI经历过一波发展浪潮后的今天，弱智吧依然是他们的宝贵“老师”。

想让AI真正理解人类所思所感，在人类的生活中起到更多作用，还有很长的路要走。

玩酷网

弱智吧成中文AI最佳训练语料，AI之路道阻且长

无线不科技