作者丨李霜霜
编辑丨海腰
Assembly AI由Dylan Fox在2017年底创立,致力于研究、训练和部署领先的语音AI模型,供开发人员和产品团队集成到他们的应用程序和服务中。与国内的“讯飞听见”类似,执行语音转录、内容审核、关键提取等任务。
12月3日,Assembly AI宣布获得5000万美元C轮融资,用以加速增强语音AI功能。此轮投资由Accel领投,参投者包含Nat Friedman、Daniel Gross、Salesforce前联合首席执行官Keith Block、Insight Partners和Y Combinator等知名投资方。
据睿兽分析数据,Assembly AI共计融资6轮,资金总额为1.581亿美元,Accel连投4轮,参与此前轮次的知名资方包括Stripe创始人John Collison、Smith Point、TechNexus Venture Collaborative等。
当前,Assembly AI称其付费客群相较去年增长了200%,增至4000个品牌,每日处理约2500万次API调用。
开发模型需要时间、金钱和算力,规模较小的公司难以跟进,便会寻求“人工智能即服务”的供应商的帮助,这些供应商负责处理创建模型的高难度工作,并通过API收取访问费用。Assembly AI就是这样一家公司,专门提供语音转录和文本分析服务,吃到了AI布局红利。
IDC预测显示,全球对“以人工智能为中心”的系统支出将在2023年达到1540亿美元,同比增长26.9%,到2026年将超过3000亿美元。
10月,《麻省理工科技评论》对600家公司的调查发现,将近一半公司表示来年在数据基础设施和人工智能方面的支出增加25%以上。
“白菜价”语音转录Assembly AI致力于让开发者利用他们的AI模型分析语音数据构建AI产品,其称当前有超过20万名开发人员在使用该平台。高级工程师Afiz在推特中表示,“在Assembly AI使用5行Python代码就可以为视频文件生成字幕。”在用户页中,用户可选择不同的编程语言通过官网简单的代码引用写法完成实时/异时语音转录、提炼亮点等功能。
据官网,Assembly AI的三大核心产品是语音转录、智能音频和LeMUR。
语音转录是Assembly的基础服务,其最新的自动语音识别AI模型为7月发布的Conformer-2。据称,该模型使用110万小时的英语音频数据进行训练。此处,Assembly AI采用了一段Formula One中解说者在嘈杂环境中对Verstappen弯道超车的评价音频,展示了模型相比上一代Conformer-1专有名词的错误率改进提升6.8%,字母数字识别提升31.7%,抗噪能力提升12%。
Assembly AI的语音转录包含异步转录、同步转录、说话人分类、自定义词汇、时间轴精确至单词、填充不流畅内容、脏话过滤等功能。目前,Assembly AI支持全球英语(包含带口音的英语)、西班牙、法语、中文等16国语言的ASR(自动语音识别)。
智能音频服务提供总结语音、检测恶意内容、识别主题、提取见解等服务。
用户在Assembly AI语音转录后,可以使用其总结、关键词、自动章节的功能对整体内容做关键提取。这其中用户能选择不同风格和语气的摘要,也能在1分钟内获得识别记录中的关键词和重要概念。其预测的主题标签遵循标准的IAB内容分类法,识别语音转录中的不同主题。
它在检测与分析方面结合了用户的数据安全需求。一方面,Assembly AI提供内容审核检测视频中涉及暴力、恶意言论、社会敏感话题等内容,还能检测每句话的人物情绪。另一方面,Assembly AI能自动识别语音中的个人与公司名称、住址、日期与位置。用户对此可启用PII编辑模型,将个人敏感信息如姓名、电话、邮件地址等用“###”替换,也可以创建经过PII编辑的音频,这其中将以蜂鸣声替代敏感信息。
其新框架LeMUR在Conformer-2的一周后发布。据介绍,用户通过API调用,可对100多个小时的音频进行会议总结、生成见解、回顾项目等操作。LeMUR对特定任务的高精度进行优化,从短时长的客户咨询通话音频到长时间的播客,用户可使用LeMUR进行提问并得到答案,也可以自行输入提示词生成输出内容。此外,LeMUR会按照用户给定格式回顾会议上的行动项目并分配给与会者。
目前,Assembly AI允许免费用户使用和探索,限制在每月5次异步转录与100M文件上传。超出则需要付费订阅语音转录约0.65美元/小时(约4.6元/小时),实时转录约0.74988美元/小时(约5.4元/小时),相较国内同类软件讯飞听见语音转写约19.8元/小时,Assembly AI几乎是“白菜价”。
智能音频服务按照不同模型从0.05美元/小时(约0.36元/小时)到0.3美元/小时(约2.14元/小时)不等。LeMUR按照输入与输出的口令数量计价,默认版输入约0.017美元/k tokens(1毛钱/k tokens),输出为0.049美元/k tokens(3毛钱/k tokens)。
2022年9月,Assembly AI推出企业版产品,最大用例涵盖电话、视频、虚拟会议和媒体四个方面。其主要客户包括华尔街日报、Spotify、Grain、BBC、NBC环球、Veeed.io、Dropbox、Runway等。
除知名报纸杂志、音频网站对语音转录的刚需,小型公司如流媒体Loop的广告内容检测、呼叫跟踪平台Call Rail的通话摘要、会议平台Fireflies.ai的自动会议记录、业务管理平台Clari的运营收入记录等都通过API调用LeMUR。
Assembly AI联合创始人兼首席执行官Dylan Fox在采访中表示:“要做到低成本、高利用是极具挑战的,调用Assembly AI的API的企业可以专注构建新的人工智能产品、应用和业务,而不需要关注大模型开发和训练。”
Dylan Fox
从1万小时到1000万小时Dylan Fox毕业于美国乔治华盛顿大学,从小喜欢电脑和电子游戏的他大学时和朋友创业时学习了软件知识,这也让将他引向了机器学习和NLP。
第一次创业失败后,2015年,他在思科担任高级软件工程师,专门研究协作产品的机器学习。亚马逊(Amazon)同年推出的语音助手Alexa席卷全球,将许多公司对将语音驱动整合到产品中产生浓厚兴趣,思科也不例外,开始寻找做语音识别技术服务的公司。自从能用语音口述命令机器时,Dylan就沉迷于语音识别这项技术。
Dylan开始研究ASR的API实例,过程中,Dylan发现需要运用语音识别的项目使用的人工智能技术体验糟糕且非常过时,这些供应商的技术要么使用过程复杂,要么没有API。Dylan用实例解释:“一家供应商寄给我一张光盘,拿到API的访问权限需要和一群销售员交谈。”
实际上此时用于语音识别的机器学习方法已在ASR实现了准确性突破,如微软Cortana2014年作为语音识别个人助理亮相,识别误差率约为6%,2016年3月百度开放语音搜索准确识别,谷歌的语音搜索则从2008年起也已迭代了多个版本。
有先进技术却无良好用例,Dylan注意到语音识别领域存在的大量市场空白。
2016年,美国云通讯服务商Twilio在纽交所上市,据财报,其毛利率自2015年开始持续维持在50%以上,主要服务方式以API形式提供,包含语音API、电子邮件API,即为开发者提供底层用于云通讯的技术模块。
这不由激发了Dylan的思考:“如果能使用最新的AI研究来建立一个Twilio风格的API公司,那会怎么样?”
2017年,Dylan一个人带着Assembly AI项目参加了夏季Y Combinator。在那里,他遇到了Daniel Gross,“他完全理解我的意思,因为他也看到了ASR的市场。”当时Daniel Gross还在苹果工作,后来成为Assembly AI的投资合伙人。此外,在Twilio工作9年的原内容生成器高级总监Matthew Makai也成为Assembly AI的VP。
Daniel Gross
初创时期,Dylan最常被问的问题是,“员工成千上万的大公司在和你做一样的项目,而你只有一个人,你会中止吗?”
起初,Assembly AI第一批模型训练数据约1万小时,作为一家AI公司迭代速度较慢。Dylan倾注心力建立口碑,寻找需使用API的潜在初创企业,参加黑客马拉松打响知名度。在Hacker News上,Dylan获得了对Assembly AI的API感兴趣的第一批用户。当前,最新模型Conformer-2的训练数据已超过100万小时,Dylan称还将发布1000万小时训练数据的模型。
Dylan坚信ASR有巨大的市场潜力,这是他前进的理由。“即使目前AI技术实际准确性还存在迷惑性和混乱,人类对它仍有巨大需求。所以,我相信语音识别一定会有市场。”
市场机会是Dylan的“东风”。2020年,受疫情影响,智能语音系统应用需求激增,大数据、多模式识别、云服务等技术触及行业核心需求。来自互联网的大数据、客户分享数据、客户非机密数据等投入Assembly AI训练。同年11月,Accel、Daniel Gross、John Collison、Nat Friedman等给Assembly AI的天使轮投了5000万美元。
有数百家初创公司正在使用Assembly AI的API,迅速扩大用户群,如Call Rail使用AI让人们询价,了解企业都能变得更高效,为全国数十万小企业提供AI对话平台。
有分析指出,Assembly AI于2022年9月发布公告向高端市场拓展,而截至目前,官网价目表中Assembly AI还未提供本地解决方案用以满足政府或医疗机构等敏感数据处理要求。