Meta开发了一个AI模型,解决维基百科的「性别偏见」问题

科技行者 2022-04-02 18:39:00

维基百科一直是全球访问量Top 10的网站,是许多人搜索历史人物与领创者资讯的第一站,但这些人物的传记,并不总被“平等”的呈现在维基百科上。

Meta人工智能研究科学家Angela Fan在一篇博文中指出,维基百科的所有英文传记中只有20%是关于女性的。且这个数字在交叉性群体中估计就更少了,例如科学界的女性、非洲的女性和亚洲的女性等。

甚至,维基百科内容里“女性代表不足”的情况,也延伸到了该组织本身,该网站上只有15%的编辑表明自己是女性(来自维基媒体《2021年社群洞察报告》)。

Angela Fan提到,“女性在历史上对科学、政治、社会甚至创新创业的各个部分都产生了巨大影响。但是这些女性人物却被忽视,或是被以不成比例的方式在维基百科上呈现。”

比如,加拿大物理学家Donna Strickland,曾在2018年获得诺贝尔物理学奖,第一时间维基百科上却无法找到任何关于她的资讯,直到维基百科发布了关于她的工作传记后才得到改善,然而那时距离她获得诺奖已经过去很多天了。”

针对女性传记缺乏的情况,Meta公司宣布开源旗下的一个“生成式(Generative)”人工智能模型,该模型可以自动研究并创建一些重要人物的高质量传记文章。

该模型的工作方式与人类研究员的工作方式相似,分三步走:首先是「检索模块」,搜索特定人物的相关信息;然后是「生成模块」,起草一个维基百科式的人物条目;最后是「引用模块」,附上引证信息的来源。最终达到涵盖维基百科传记所需要的所有元素,如传记人物的早期生活、教育和职业。

由于该AI系统仍还存在一些限制,因此在定位上,需要能与维基百科编辑互补——由AI系统产生草稿,接着再由编辑进行事实查证和补充。模型的限制包括,用来创建维基百科条目的网页内容,可能存在文化偏见,需要依靠人工鉴别;而且在技术上,文本生成系统容易产生幻觉(Hallucination),也就是非事实的内容;此外在语义方面,AI的连贯性和逻辑也有些力不从心。

即便如此,该AI模型仍然令人印象深刻。下图彩色文本,是由AI模型替无脊椎动物的研究先驱Libbie Hyman,所生成的简短传记。绿色文本来自参照文章;紫色文本则来自网络上的证据;橘色文本则表示幻觉,是由模型脑补,无法被验证的资讯。

虽然模型所生成的结果无法直接发布,但该模型已经拿到了足够多与Libbie Hyman相关的信息(包括对无脊椎动物的研究、重要出版物和工作等),人类研究员或作家可以根据这些信息迅速上手并完成这篇文章。

尽管技术方面还在完善中,但这是对维基百科内容的性别平等踏出的重要一步。研究人员提到,他们目前的工作,仅是解决一个复杂问题的一小部分,接下来还有很多工作要做,包括识别不同的“偏见”问题:比如女性传记往往涉及额外的生活细节,“离婚”一词出现在女性传记的频率是男性传记的4倍;一些“小报”往往更关注女性的生活,而这些细节可能冲淡人物更应该被关注的成就;跨性别和二元性别人物的传记,往往长度更长,但是大部分章节都是描写个人生活,而非个人成就。

为了改进该模型,Meta还发布了一个数据集,数据集可用于评估该模型基于1527份来自“边缘化群体”的女性传记中的表现。Meta表示,这些数据可用于训练该模型的迭代并评估模型的性能。

[编者按] 海外来电是科技行者旗下编译团队,聚焦海外新技术、新观点、新风向。

撰文 | 海外来电

图片 | 海外来电

来源 | SiliconANGLE

0 阅读:10

科技行者

简介:科技行者,一个只谈智能的信息服务平台。