从混乱到有序:Exa让网络搜索变成你的私人数据库

新兴科技是个圈 2024-12-11 11:42:44

来源:MIT Technology Review

一家名为 Exa 的初创公司正在推出一种新的生成搜索引擎,利用 LLM 背后的技术来返回结果列表,并声称这些结果比谷歌和 OpenAI 等竞争对手的结果更准确。此项目的目的是将互联网上混乱的网页变成一种目录,提供具体而精确的结果。

Exa 已将其搜索引擎作为后端服务提供给希望在其基础上构建自己的应用程序的公司。近期,该公司推出了该搜索引擎的第一个消费者版本:Websets。

“网络是数据的集合,但它很混乱。”Exa 联合创始人兼首席执行官 Will Bryk 表示,“这里有一个 Joe Rogan 的视频,那里有一篇《大西洋月刊》的文章,完全没有组织性。我们的目标是让网络感觉更像一个数据库。”

Websets 面向高级用户,他们需要查找其他搜索引擎不擅长查找的内容,例如人员或公司类型。如果搜索“制造未来硬件的初创公司”,Websets 会给出数百个具体公司的列表,而不是指向提及这些术语的网页的随机链接。Bryk 说,谷歌无法做到这一点:“对于投资者或招聘人员,或者想要从网络上获取任何类型数据集的人来说,Websets 都能提供更多价值。”

自从 MIT TR 于 2021 年报道谷歌研究人员正在探索在新型搜索引擎中使用 LLM 以来,相关事件发展迅速,导致这个想法很快就招来了激烈的批评,但科技公司并不在意。三年过去了,谷歌和微软等巨头与 Perplexity 和 OpenAI 等一大批新晋者争夺这一热门新趋势,而且 OpenAI 还在 10 月份推出了 ChatGPT Search。

Exa 还没有试图超越任何一家公司,但它提出了一些新的东西。其他大多数搜索公司围绕现有搜索引擎包装 LLM,使用这些模型分析用户的查询,然后总结结果。但搜索引擎本身并没有发生太大变化。例如,Perplexity 仍然将其查询定向到 Google 搜索或 Bing。简单理解,可以把当今的 AI 搜索引擎想象成一个三明治,外侧是新鲜的面包,但里面的馅料已经变质了。

不仅仅是关键词

Exa 为用户提供了熟悉的链接列表,但使用 LLM 背后的技术来重新设计搜索本身。基本思路如下:Google 的工作原理是抓取网页并构建大量关键字索引,然后将其与用户的查询进行匹配;Exa 抓取网页并将网页内容编码为一种称为嵌入的格式,一种 LLM 可以处理的模式。

嵌入将单词转换为数字,这样具有相似含义的单词就变成了具有相似值的数字。实际上,这让 Exa 能够捕捉网页上文本的含义,而不仅仅是关键字。

图|Websets 的屏幕截图显示了以下搜索结果:“公司;初创公司;总部位于美国;医疗保健重点;技术联合创始人”

LLM 使用嵌入来预测句子中的下一个单词,而 Exa 的搜索引擎会预测下一个链接,输入“制造未来硬件的初创公司”,该模型就会给出可能跟在该短语后面的链接。

当然,Exa 的方法也是有代价的。对网页进行编码而不是对关键字进行索引既慢又昂贵。Bryk 表示,Exa 已经对数十亿个网页进行了编码,与谷歌相比,这个数字微不足道,谷歌已经对大约一万亿个网页进行了索引。但 Bryk 并不认为这是一个问题:“你不必嵌入整个网络才能发挥作用。”他说。(一个有趣的事实:“exa”表示为 1 后面跟着 18 个 0,“googol”表示为 1 后面跟着 100 个 0。)

Websets 返回结果的速度非常慢,搜索有时需要几分钟。但 Bryk 声称这是值得的。“我们的许多客户开始要求提供数千或数万个结果。”他说,“他们愿意去喝杯咖啡,然后回来看到一大堆结果。”

“当我不知道自己到底在寻找什么时,我发现 Exa 最有用。”斯坦福大学计算机科学系学生 Andrew Gao 使用过该搜索引擎,他说道。“例如,查询‘一篇关于金融法学硕士的有趣博客文章’在 Exa 上比在 Perplexity 上效果更好。”但他也表示,它们各有千秋:“我将两者用于不同的目的。”

“我认为嵌入是表示现实世界中的人、地点和事物等实体的好方法。”Diffbot 首席执行官 Mike Tung 表示,该公司使用知识图谱构建了另一种搜索引擎。但他指出,如果你试图嵌入整个句子或整页文本,就会丢失大量信息:“将《战争与和平》表示为单个嵌入会丢失该故事中发生的几乎所有具体事件,只留下对其类型和时期的一般了解。”

Bryk 承认 Exa 还在开发中。他还指出了其他限制。如果你只想查找一条信息,比如 Taylor Swift 男朋友的名字,或者 Will Bry 是谁,Exa 不如竞争对手的搜索引擎好:“它会给出很多听起来像波兰人的人,因为我的姓氏是波兰人。可以看出,嵌入在匹配精确关键词方面表现不佳。”他说。

目前,Exa 通过在需要时将关键词重新组合来解决这个问题。但 Bryk 对此持乐观态度:“我们正在弥补嵌入方法中的缺陷,使其变得越来越好,直到我们不再需要额外手段修正。”

原文链接:

https://www.technologyreview.com/2024/12/03/1107726/the-startup-trying-to-turn-the-web-into-a-database/

0 阅读:3

新兴科技是个圈

简介:感谢大家的关注