关于人工智能语音助手的看法

架构即是人生 2024-06-12 08:45:14

原文:https://a16z.com/ai-voice-agents/

现在是重新构想电话通话的时代。由于通用人工智能的存在,没有人再需要亲自拨打电话。只有当电话对他们有价值时,人们才会花时间打电话。

对于企业来说,这可能意味着:(1)节省人工呼叫者的时间和劳动成本;(2)有可能将资源重新分配以增加收入;(3)通过更符合规定和一致的客户体验来降低风险。

对于消费者来说,语音助手可以提供相当于人类水平的服务,而无需支付费用或“匹配”一个真正的人。目前,包括治疗师、教练和伙伴——在未来,这很可能会涵盖更广泛的围绕语音建立的体验。像大多数其他消费者软件一样,有哪个“胜利者”是不可预测的!

电话通话是连接世界的 API——而 AI将此提升到了新的水平。

市场机会

每一层都有巨大的机会——基础设施参与者、消费者界面和企业代理。对于 B2C 和 B2B 语音代理,我们围绕最令人兴奋的新兴产品有一些假设:

如何构建语音助手?

像 GPT-4o 这样的新型多模态模型可能会通过一个模型同时“运行”其中几个层来改变堆栈的结构。这可能会减少延迟和成本,并为更自然的对话界面提供支持——因为许多座席无法通过下面的组合堆栈达到真正的类似人类的质量。

语音助手需要消化人类语音 (ASR),处理这个输入并返回一个输出,然后向人类回话(TTS)。

对于某些公司/方法,LLM或一系列LLMs处理对话流程和情感。在其他情况下,有独特的引擎来添加情感、管理中断等,“全栈”语音提供商在一个地方提供这一切。

消费者 (B2C) 和企业 (B2B) 应用位于此堆栈之上。即使使用第三方提供商,应用程序(通常)也会插入自定义 LLM - 通常也用作对话引擎。

全栈与自组装

语音助手创始人可以选择在全栈平台(例如 Retell、Vapi、Bland)上启动一个助手或自己组装堆栈。在做出此决定时,有几个关键因素:

这些是现在每个堆栈级别的一些领先参与者。这不是一张全面的市场地图,但代表了语音代理创始人最常提出的名字。我们预计,随着多模态模型的出现,这种堆栈将发生重大变化。

B2B代理:我们的看法

我们正在从 1.0 AI 语音(电话树)过渡到 2.0 的 AI 语音(基于LLM)转变。在过去 6 个月左右的时间里,出现了 2.0 公司。1.0 公司现在可能更准确,但从长远来看,2.0 方法应该更具可扩展性和准确性。

不太可能有一种水平模型或平台适用于所有类型的企业语音助手。垂直行业之间存在一些关键差异:(1) 呼叫类型、音调和结构;(2)集成和流程;(3)GTM和“杀手级特征”。

这可能意味着出现了大量的垂直代理人。他们在用户界面上有着强烈的个人色彩。这需要具有深厚领域专业知识或兴趣的创始团队。劳动力是许多企业的第一成本中心 - TAM对于“做对了”的公司来说很重要。

最近期的机会可能是那些靠电话预约生存和死亡、劳动力严重短缺和通话复杂度低的行业。随着座席变得越来越复杂,他们将能够处理更复杂的呼叫。

B2B 代理:进化

我们已经看到了B2B语音代理领域的三大技术浪潮:

许多语音代理公司正在针对特定行业(例如汽车服务)或特定类型的任务(例如约会安排)采用垂直特定的方法。这有几个原因:

执行难度。将呼叫委托给 AI 的质量门槛很高,而且对话流程(加上客户方面的后端工作流程)很快就会变得复杂/具体。在这些垂直领域中为“边缘案例”而构建的公司有更好的成功机会(例如,通用模型会误解的独特词汇)。法规和许可证。一些语音代理公司面临特殊限制、需要认证等。一个典型的例子是医疗保健(例如HIPAA合规性),尽管这也出现在销售等类别中,这些类别在国家层面上有人工智能冷门电话法规。集成。在某些类别中确定用户体验(对企业和消费者而言)可能需要一长串集成 - 或者除非您尝试为该特定用例提供服务,否则不值得构建的专用集成。楔入其他软件。语音是核心客户操作(如预订、续订、报价等)的自然入口。在某些情况下,对于这些企业来说,这将是一个楔入更广泛的垂直SaaS平台的楔子,特别是如果客户群仍然主要离线运营。B2B代理:我们看到机会的地方基于LLM - 但不一定从第一天起就 100% 自动化。

人工智能语音代理的“强形式”将是一个完全LLM驱动的对话,而不是交互式语音响应(IVR)或电话树方法。但是,由于LLMs并非始终 100% 可靠,因此对于更敏感/更大的交易,可能会有一些(临时的)“人为循环”。这也使得特定于垂直的工作流程变得尤为重要,因为它们可以最大限度地提高成功的可能性,同时以更少的边缘情况最大限度地减少人为干扰。

调整自定义模型与提示LLM方法。

B2B语音代理将需要导航专门的(或特定于垂直的)对话,而一般LLM对话可能不够。许多公司正在调整每个客户的模型(使用几百个或几千个数据点),并且可能会将其推断回公司范围的基本模型。对于企业客户端,自定义调整甚至可以继续进行。注意:一些公司可能会针对其特定用例调整“通用”模型(以跨客户端使用),然后根据每个客户进行提示。

具有领域专业知识的技术团队。

鉴于它们的复杂性,一些先前的人工智能背景将有助于(如果不是必要的话)启动和扩展高质量的B2B语音代理。然而,了解如何将产品打包并楔入垂直领域可能同样重要——需要领域专业知识或浓厚的兴趣。您不需要 AI 博士学位即可构建和启动企业语音代理!

关于集成 + 生态系统的尖锐 POV。

与上述类似,每个垂直领域的买家都有一些特定的功能或集成,他们通常希望在购买之前看到这些功能或集成。事实上,这可能是在他们的评估中将产品从“有用”提升到“神奇”的证明点。这也是为什么开始相当垂直化是有意义的另一个原因。

要么是“企业级”,要么是强劲的产品主导增长 (PLG) 运动。

对于收入高度集中在顶级公司/提供商的垂直行业,语音代理公司可能会从企业开始,并最终通过自助服务产品“涓滴”到中小企业。中小型企业客户迫切需要解决方案,并愿意测试各种选项,但可能无法提供允许初创公司将模型调整为企业级的数据规模/质量。

B2C代理:我们的看法

在 B2B 中,语音代理在很大程度上取代了现有的电话呼叫来完成特定任务。对于消费者代理来说,用户必须选择继续参与,这具有挑战性,因为语音并不总是方便交互。这意味着产品栏“更高”。

消费者语音代理的第一个也是最明显的应用是采用昂贵或难以访问的人类服务,并用人工智能取代供应商。这包括治疗、辅导、辅导等等——任何基于对话的、可以虚拟完成的。

然而,我们相信B2C语音代理的真正魔力可能还没有到来!我们正在寻找能够利用语音力量实现以前不存在的新型“对话”的产品。这可能会重塑现有服务的外形规格,或创建全新的服务。

对于能够实现用户体验的产品来说,语音代理提供了一个机会,以软件中前所未有的水平吸引消费者——真正模仿人与人之间的联系。这可能在代理中表现为产品,或语音表现为更广泛产品的模式。

B2C 代理:进化

到目前为止,占主导地位的消费者 AI 语音代理来自大公司,例如 ChatGPT Voice 和 Inflection 的 Piapp。消费者声音出现较慢有几个原因:

大公司在准确性、延迟等方面已经拥有消费者分布和一流的模型。大规模传送语音并不容易。鉴于最近推出的 GPT-4o,尤其如此。B2B 语音代理正在将 AI “插入”到现有流程中,而 B2C 语音代理则要求用户采用新行为。这可能会更慢/需要更神奇的产品。由于对Siri等产品的体验,消费者对语音AI产生了负面影响,因此不一定受到启发去尝试新的应用程序。基础广泛的产品通常能够提供语音 AI 的基本用例——辅导、陪伴等。B2C 语音初创公司刚刚开始处理 ChatGPT、Pi 等无法处理的用例或创造体验。B2C 代理:我们看到机会的地方关于为什么需要语音的强烈 POV。

我们对那些对语音如何为产品带来独特价值(而不仅仅是“为了语音而语音”)持主见的产品和创始人感到兴奋。在许多情况下,语音界面实际上是与文本界面相比的净负面界面,因为它更不方便消费和提取信息。

关于为什么需要实时语音的强烈 POV。

虽然语音很难使用,但实时语音甚至更难(与异步语音消息相比)。我们很兴奋地看到,创始人们对为什么他们的产品需要围绕实时对话来构建有自己的见解——也许是为了类似人类的陪伴、实践环境等。

非拟物化到前人工智能的“产品”。

我们怀疑,强格式的产品不会是以前人与人对话的直接翻译,其中人工智能语音代理只是为人类提供者插入。首先,要达到这个标准是很困难的,但更重要的是,有机会使用人工智能更好(更高效、更快乐地)提供相同的价值。

垂直化到模型质量不=赢家的程度

领先的通用消费类AI产品(ChatGPT、Pi、Claude)具有高质量的语音模式。他们可以有意义地参与多种类型的对话和互动。而且,他们可能会在短期内在延迟和对话流方面获胜,因为他们托管自己的模型和堆栈。

我们很高兴看到初创公司通过为特定类型的对话进行定制或调整,或者构建为语音代理体验提供更多上下文和价值的 UI(例如,跟踪一段时间内的进度,或以固执己见的方式引导对话/体验)取得成功。

0 阅读:0

架构即是人生

简介:感谢大家的关注