对话翼方健数张霖涛:为数据和算力织线造网,为大模型填充弹药

科技行者 2024-06-11 15:33:13

作者| 金旺

配图| 关珊

2010年,刚从微软研究院硅谷实验室转战微软亚洲研究院没多久的张霖涛博士搞起了人工智能。

当时人工智能还未闯入商用市场,张霖涛是在做搜索技术研究时发现:那时的搜索,大部分时间和计算量都花在了机器学习上,这让张霖涛对人工智能技术产生了兴趣。

那时的机器学习还是以传统的决策树,支持向量机和简单的神经网络为主,以深度神经网络为基础的人工智能技术浪潮还是后来的事儿。

张霖涛就这样在微软亚洲研究院一边做分布式系统、云计算,一边研究人工智能系统,一晃就是十年。

在这十年里,张霖涛看到了人工智能的技术变迁,以及人工智能创业浪潮的风起云涌,微软亚洲研究院也有不少专家选择了走出来创业,其中一些团队还成长成了国内第一批人工智能独角兽企业。

张霖涛在与这些前同事交流时越来越发现,数据正在成为人工智能产业落地的关键,尤其是在落地到实际场景过程中,数据流通、数据安全正在成为一个重要的社会议题,这让他与当时希望通过隐私计算和人工智能技术深挖数据价值的翼方健数有了交集。

张霖涛在2020年底走出微软亚洲研究院,加入翼方健数、成了翼方健数的首席科学家。

对于张霖涛来说,他的研究方向没有发生太大的变化,依然是研究分布式系统和人工智能技术,但彼时的他需要更多去考虑这些技术在产业中的应用问题。

对于翼方健数来说,作为当时国内隐私计算四小龙的他们,怀揣着构建并运营“数据和计算互联网(IoDC)”的愿景,正在闯入另一波技术大潮。

01 隐私计算的路线之争

加入翼方健数之前,张霖涛是微软亚洲研究院首席研究员和全球合伙人,领导着微软亚洲研究院智能云与端研究组从事系统与网络方面的研究,翼方健数则是由陈恂博士、罗震博士等人在2016年一手创办的专注于数据流通和人工智能的创业团队。

到2020年时,翼方健数已经小有名气,和蚂蚁集团、微众银行、华清交控并称国内隐私计算四小龙。

隐私计算概念在国内的兴起可以追溯到中科院李凤华等人在2016年发表的《隐私计算研究范畴及发展趋势》论文,翼方健数作为这项技术最早的倡导者和研究者,创业之初就将隐私计算相关技术应用到了数据流通中。

为什么会想到做数据流通这一看似抽象的工作?

这是因为翼方健数创始成员中不少人来自广告行业,他们自是知道数据流通和联合应用后能发挥的价值,也意识到个人隐私保护的发展趋势,为了让数据在其他行业中同样在保护个人隐私及数据资产安全的前提下释放价值,于是就有了后来的翼方健数。

彼时,其他隐私计算企业更为关注金融行业,而翼方健数以门槛更高的医疗领域作为切入点。

实际上,这两大领域都有大量的数据积累并且存在大量的潜在数据价值,而数据要在这两个领域发挥价值,又各有各的问题:

金融行业存在的问题是数据滥用严重,医疗行业存在的问题则是数据具有碎片化、非标准化、多模态的特征,且存在数据量巨大、敏感等问题。

流通难破壁,价值难释放也就成了医疗行业数据流通的难题。

2016年,国家卫计委健康医疗大数据应用及产业园建设国家试点工程启动推进会在北京召开,现场公布了国家健康医疗大数据试点城市,鼓励试点城市加快大数据中心建设,推进技术融合、业务融合、数据融合。

翼方健数有幸参与其中,并见证了其中成果。

医疗数据是极为敏感的数据,为了保证医疗体系和国民隐私安全,“数据不出院”一直以来都是医院的铁律,作为这一健康医疗数据应用开放平台的搭建者,翼方健数当时需要做的工作是通过技术手段,研发一套高效的数据脱敏、数据治理、数据授权体系,保证在平台上拿到授权的使用者在不下载数据的前提下可以对这些脱敏的医疗数据进行科学研究和价值挖掘。

这一健康医疗数据应用开发平台,实际上就是翼方健数2019年对外发布的翼数坊(XDP)的前身。

在这一项目中,为了保证数据安全,翼方健数用到的是可信计算中的沙箱计算技术。

不过,翼方健数研究的隐私计算技术并不只有沙箱计算,包括可信执行环境、多方安全计算、联邦学习在内的主流隐私计算技术,翼方健数都有研究,并于2022年正式开源联邦学习和多方安全计算技术。

实际上,就在张霖涛加入翼方健数的2020年,隐私计算领域还曾掀起过一场路线之争。

2020年,隐私计算领域主要分为三大流派,分别是多方安全计算阵营、联邦学习阵营和可信执行环境阵营,三大阵营在这一年展开了激烈的竞争。

据张霖涛向科技行者回忆,“翼方健数当时没有站边,我们当时由于整个平台从存储、计算、传输在内的各方面都需要做一些控制,并且要支持客户的各种应用,所以各种技术在平台上都有支持。有人觉得我们没有联邦学习和多方安全计算技术,实际上,我们在这些方面有很多年的积累。”

之所以选择“不站边”,是因为翼方健数团队观察到,这些技术单一来看很难解决所有问题。

例如,联邦学习是以机器学习为基础,更适合解决人工智能问题,如果仅仅是做一个查询,联邦学习就不再是最优解;

多方安全计算虽然有理论安全保证,但在实际应用中效率很低,只能应用于一些特殊场景,效率高又通用的可信执行环境需要硬件支持,在很多场合不能落地。

翼方健数的愿景是要构建一个数据和计算互联网,作为一个平台的建设者,就意味着他们对技术有着更强的包容性。

也是由于逐渐意识到了单一技术路线存在的问题,互为补充、协同发展后来也逐渐成了隐私计算领域的共识。

不过,对于翼方健数来说,张霖涛在这一年的加入,成了翼方健数加码人工智能技术的关键转折点。

02 用AI让数据流通

构建并运营“数据和计算互联网(IoDC)”,这是翼方健数在2016年成立之初就定下的企业愿景。

为什么会有IoDC这样一个概念?

这是因为,翼方健数团队的几位创始人观察到,数据和算力在未来一定会以网状结构呈现。

以医院的数据为例,每个医院一定不会允许自己的数据离开医院汇总到一个地方开放共享,医疗数据一定会分布在全国各地,为了将这些分散的医疗数据用起来,就需要构建一张网——数据互联网。

算力也是同样的逻辑。

于是,数据流通就成了一个超大规模的智能系统问题。

张霖涛早年间在微软亚洲研究院主要从事的有两方面研究工作,一方面是大规模分布式系统,另一方面是人工智能技术,这两方面刚好是当时翼方健数所需要的能力。

张霖涛告诉科技行者,“翼方健数过去做的并不是单一技术,而是要赋能一个新的应用场景。所以需要搭建一个涵盖存储、计算、网络传输一系列数据安全保护技术的数据流通平台,并要通过人工智能技术解决价值获取的问题。”

实际上,彼时的翼方健数在商业项目中已经接触到了不少“数据拥有者”,面对这些“数据拥有者”,翼方健数经常被问到的一个问题是:

“你们团队有没有人工智能技术,能否通过人工智能技术为我们解决实际的业务问题?”

翼方健数深知自身或者任何一家企业都无法组建一个这么庞大的团队去服务所有行业、所有客户、所有业务需要的人工智能场景,因此,他们希望能够找到并解决这之中的核心痛点,实现供需匹配与高效协作,衍生出活跃的人工智能生态。

这一痛点正是需求方企业在与人工智能技术公司合作时,存在一个“安全可信”的问题。

例如,翼方健数就曾遇到过一个生物医药领域的客户,这家公司拥有大量的生物分子信息,他们想知道这些生物分子有没有药效、是否可以被研制成药品,但又不愿意将这些生物分子信息直接交到人工智能企业手中,毕竟,如果其中有一个生物分子可以被做成药品,那将是拥有数十亿美元价值的信息;

与此同时,另外一家人工智能公司拥有一种专门判断生物分子是否有药效的AI模型,但他们也不愿意直接将他们的AI模型提供给医药企业,因为这家公司在这一垂类AI模型的训练、营销上已经花费了高昂的成本,如果这一模型被泄露、滥用,那将是无可挽回的损失。

于是,张霖涛带领的团队在2021年年中立项了一个人工智能新项目,这个项目的目标是构建一个可以帮助“数据拥有者”和人工智能技术方案厂商能够互相找到对方的平台,翼方健数团队要做的是通过包含隐私计算在内的全栈技术实现数据安全流通,释放更多数据和算法的价值。

这一人工智能项目研发的就是后来的揽睿星舟AI服务平台,这一平台最终在2022年10月正式对外发布。

巧合的是,2022年11月,OpenAI对外发布的ChatGPT为人工智能技术发展指明了一条新路径,新一轮人工智能技术革命就这样在所有人都毫无准备的情况下爆发。

由于提前一年加强人工智能技术研发,并发布了揽睿星舟AI服务平台,翼方健数与新一轮人工智能技术革命不期而遇,乘上了这阵东风。

03 向大模型借东风

2022年年底,生成式AI技术带来了新一波人工智能浪潮,而生成式AI实则是一种“暴力美学”,带来的是大数据、大算力、大模型的超高需求。

翼方健数很早就开始做数据流通,关注数据价值,但在生成式AI这波浪潮席卷全球后,不少大算力、大模型的需求也涌入到了揽睿星舟AI服务平台上。

尤其是在ChatGPT和StableDiffusion发布后,张霖涛能够真切地感受到,“很多用户来揽睿星舟平台上的目标就是寻求算力资源,来做文生图的应用。这样的需求每天都在发生。”

于是,翼方健数的“算力互联网”搭建和运营工作也从技术研发进入到产品化和商业化阶段。

在揽睿星舟AI服务平台发布后,翼方健数的团队又继续在算力和大模型两方面投入研发:

针对AI开发者和应用使用者推出一站式AI训推平台,提供有性价比的GPU算力,开箱即用的AI应用、工具、数据集、模型;

针对大模型应用开发者提供一站式大模型应用开发方法、算力与环境;

针对大模型企业或大模型需求方提供安全、灵活的流通解决方案;

针对算力设施运营方提供面向自有客户的算力管理与调度能力,提升运营运维效率的同时,最大化算力利用率。

和数据流通逻辑一样,大模型流通平台解决的同样是供需关系问题,以及借由隐私计算解决中间存在的安全和信任问题。

算力流通平台则是应需而生,解决碎片化算力需求供应问题的一个重要平台。而应用开发平台则是为满足应用开发者快速上手使用AI能力服务自己的应用而搭建的平台。

张霖涛告诉科技行者,“我们当时观察到,每个团队对算力需求有很大的不同,除了几家做基础大模型训练的厂商外,还有很多是高校团队要跑人工智能项目,或者是其他中小型团队在做人工智能应用,这些团队更需要的是低成本、高动态的算力。”

“我们一开始是和云厂商合作,从他们那里找合适的算力资源,后来我们发现国内很多视频厂商、高校,智算中心都会有闲置算力,我们通过在平台上注入异构计算、隐私计算、算力调度能力,将这些闲置算力连接成网,提供给真正需要的人。”

也是在做算力流通平台时,张霖涛再次认识到了 NVIDIA 在这波大模型浪潮中的推动作用。

早在做隐私计算时,由于翼方健数当时也在研究联邦学习,就已经开始接触 NVIDIA,“实际上,NVIDIA 是所有做人工智能的团队都绕不开的一家企业,后来到大模型时代,从我们自营平台的数据来看,目前 NVIDIA 的显卡依旧更受市场消费者青睐,尤其 NVIDIA 显卡背后还有着一个完善的生态。”

在大模型时代滚滚向前的车轮下,直到如今,在翼方健数的算力流通平台上,需求量最高的还是 NVIDIA 的显卡。

对于翼方健数来说,大模型时代的到来,验证了他们数据和计算互联网愿景的正确性,也让他们更坚定了做数据和计算互联网的决心。

就在去年8月,翼方健数联合华通智研院与包括青岛、包头、银川、成都、无锡、盐城在内的33个省市成立了“公共数据运营全国统一大市场”联盟,加强在公共数据运营上的投入。

无论是就数据、算力、算法三要素全域流通而言,还是就翼方健数的IoDC定位而言,公共数据运营都将至关重要。

就张霖涛而言,他是一个人工智能乐天派,他深信,“我们正在见证一个崭新的人工智能时代的到来。”

0 阅读:5

科技行者

简介:科技行者,一个只谈智能的信息服务平台。