这种万能的AI可以通过不停地阅读整个网络来学习,不断进化自己

科技全频 2020-09-05 09:54:30

Diffbot正在通过对数十亿个网页应用图像识别和自然语言处理来构建有史以来最大的知识图。

早在7月份,OpenAI的最新语言模型GPT-3便凭借其剔除看起来好像是人类编写的段落的能力而眼花缭乱。人们开始炫耀GPT-3如何自动完成代码或填写电子表格中的空白。

在一个示例中,Twitter员工Paul Katsen在推特上发布了“电子表格功能,可对所有内容进行统治”,其中GPT-3自行填写了各列,并提取了美国各州的数据:密歇根州的人口为1,030万,阿拉斯加成为了美国的一个州。 1906年,依此类推。

除了GPT-3可能有点麻烦。密歇根州的人口从未达到1030万,阿拉斯加在1959年成为州。

像GPT-3这样的语言模型是令人赞叹的模仿物,但是他们对他们实际所说的话几乎没有任何了解。斯坦福初创公司Diffbot首席执行官Mike Tung说:“他们真的很擅长制作有关独角兽的故事。” “但是他们没有受过事实训练。”

如果我们希望AI值得信赖,这就是一个问题。这就是Diffbot采用不同方法的原因。它正在构建一个AI,以多种语言读取整个公共网络上的每个页面,并从这些页面中提取尽可能多的事实。

像GPT-3一样,Diffbot的系统通过吸取网上发现的大量人工文字来学习。但是,Diffbot没有使用这些数据来训练语言模型,而是将其读取的内容变成了一系列的三部分式,使一个事物与另一事物相关:主语,动词,宾语。

在指出我的生物,例如,Diffbot获悉威尔·道格拉斯天堂是一个记者; Will Douglas Heaven在《麻省理工学院技术评论》工作;MIT Technology Review是一家媒体公司;等等。这些事实实体中的每一个都与庞大的,相互联系的事实网络与数十亿其他事实实体结合在一起。这称为知识图。

知识图并不新鲜。它们已经存在了数十年,并且是早期AI研究中的基本概念。但是构造和维护知识图通常是手工完成的,这很困难。这也阻止了蒂姆·伯纳斯-李实现他所说的语义网,该语义网本来包括机器和人类的信息,以便机器人可以预订我们的航班,进行购物或提供比搜索引擎更智能的问题答案。

几年前,Google也开始使用知识图。搜索“ Katy Perry”,您会在主要搜索结果旁边看到一个方框,告知您Katy Perry是美国创作歌手,并在YouTube,Spotify和Deezer上提供音乐。您一眼就能看出她已与奥兰多·布鲁姆(Orlando Bloom)结婚,现年35岁,身家1.25亿美元,依此类推。Google并没有为您提供有关Katy Perry的页面链接列表,而是为您提供了从其知识图中得出的关于她的一系列事实。

但是Google仅针对最受欢迎的搜索词执行此操作。Diffbot想要为所有事情做到这一点。通过使构建过程完全自动化,Diffbot能够构建可能是有史以来最大的知识图。

除Google和Microsoft之外,它是爬网整个公共网络的仅有的三家美国公司之一。“爬网绝对有道理,” Salesforce的研究科学家维多利亚·林(Victoria Lin)说,他致力于自然语言处理和知识表示。“否则,很多人的努力就可以用来建立庞大的知识库。” 德国曼海姆大学的Heiko Paulheim同意:“自动化是构建大规模知识图谱的唯一方法。”

超级网络冲浪者

为了收集事实,Diffbot的AI像人类一样读取网络-但速度更快。AI使用升级版的Chrome浏览器,可以查看网页的原始像素,并使用图像识别算法将页面归类为20种不同类型之一,包括视频,图像,文章,事件和讨论主题。然后,它识别页面上的关键元素,例如标题,作者,产品描述或价格,并使用NLP从任何文本中提取事实。

每个由三部分组成的类素都添加到知识图中。Diffbot从以任何语言编写的页面中提取事实,这意味着Diffbot可以使用从中文或阿拉伯文文章中获取的事实来回答有关Katy Perry的查询,即使这些事实中不包含“ Katy Perry”一词。

像人类一样浏览网络,可以使AI看到与我们相同的事实。这也意味着它必须像我们一样学习导航网络。AI必须向下滚动,在选项卡之间切换,然后单击弹出窗口。董说:“人工智能必须像视频游戏一样玩网络,才能体验页面。”

Diffbot会不间断地爬网并每四到五天重新构建其知识图。Tung表示,随着在线上涌现新人,创建公司和推出产品,AI每月增加1亿至1.5亿个实体。它使用更多的机器学习算法将新事实与旧事实融合在一起,创建新连接或覆盖过时的连接。随着知识图的增长,Diffbot必须向其数据中心添加新硬件。

研究人员可以免费访问Diffbot的知识图。但是Diffbot也有大约400个付费客户。搜索引擎DuckDuckGo使用它来生成自己的类似Google的框。Snapchat使用它从新闻页面中提取亮点。流行的婚礼策划应用程序Zola使用它来帮助人们列出婚礼清单,获取图片和价格。纳斯达克提供有关股票市场的信息,并将其用于金融研究。

假鞋

阿迪达斯和耐克甚至使用它在网上搜索假鞋。搜索引擎将返回一长串提及耐克运动鞋的网站。但是Diffbot允许这些公司寻找实际销售鞋子的网站,而不仅仅是谈论它们。

目前,这些公司必须使用代码与Diffbot进行交互。但是董先生计划增加一个自然语言的界面。最终,他想建立一个他所谓的“通用事实证明问题回答系统”:一种可以回答您提出的几乎任何问题的AI,并有消息来源来支持其回答。

这种AI不能仅凭语言模型来构建。但是更好的办法是将这些技术结合起来,使用像GPT-3这样的语言模型为万事通机器人制作出像人一样的前端。

获取更多每日科技新资讯,欢迎订阅关注“科技全频”。

0 阅读:9

科技全频

简介:发现科技新知识,带你领略科技魅力。