大模型越多,对垂类应用越好|对话一览科技罗江春

深响 2023-04-17 13:33:09

作者 | 祖杨

一石激起千层浪。

受ChatGPT的热潮带动,近段时间大模型领域按下“狂飙”键。从互联网科技大厂到AI新秀,纷纷亮出了自己的大模型产品:百度率先发布的“文心一言”、阿里云旗下的大模型产品通义千问、华为也放出了盘古大模型,AI公司商汤和昆仑万维接连宣布了自己的大模型“日日新SenseNova”与“天工3.5”。此外如王慧文、王小川、李开复等科技大佬也亲自下场创业组局,俨然有了军备竞赛的意思。

大模型是大公司的游戏,更多应用层的机会成为创业公司的新蓝海。不管是文本、画画、还是视频生产、音乐制作,AIGC作为一种新的生产力方式进一步打开了内容创作的想象空间。

AI技术与影视行业本就融合紧密,当前有了不少实际应用案例。在海外,如奈飞的《犬与少年》、影视制作团队Corridor Crew打造的《剪刀、石头、布》均是AIGC生成;国内,AI技术也成了影视公司的新跳板,光线传媒、华策影视、爱奇艺、百纳千成等先后接入百度文心一言,其中光线新动画电影《去你的岛》将由AI深度参与其中。而且受AI热的影响,影视传媒板块股价一度涨停。

不可否认,AIGC正在改变传统的影视生产方式,在垂直应用领域,行业也涌现了第一批“吃螃蟹的人”,推出各种AI新产品工具为创作者所用。

创业公司一览科技就是其中的代表,3月27日,一站式视频解决方案提供商一览科技推出业界首个基于GPT大模型的“文本+图片+虚拟人”视频AIGC全域工作流,搭载旗下视频存储管理工具“一览运营宝”,为影视行业、短视频行业人群提供脚本创作、AI绘图、素材管理等服务。当前专注文本的AI编剧已上线,并在之后应用到影视项目的实际生产中。

一览科技创始人罗江春曾是国内长视频产业的开路人之一,2005年创立风行视频。此后长视频行业经历了十几年的起起伏伏,但在罗江春看来长视频的价值不只娱乐,视频将会走向商用、像水和电一样成为基础设施。带着这样的目的,2017年二次创业成立一览科技,将VaaS(Video-as-a-Service)作为主要业务,做视频离不开内容,内容的创作主体除了PGC、UGC,也会有RGC(Robotics Generated Content)、AIGC,因此如何把AI技术应用到视频生产也是一览科技的研究课题。

2018年乌镇互联网世界大会上,罗江春曾预测未来五年RGC会成为主流。他认为,AIGC的爆发热潮特别像1995年,雅虎、3W、http开启了一个互联网时代,GPT也将会开启人工智能应用创新时代。但大模型的红利真的来了吗?AIGC的浪潮怎么抓?我们和罗江春详细聊了聊。

一览科技创始人罗江春

以下为「真探」整理后的部分访谈实录:

Q=真探

A=一览科技创始人罗江春

AIGC产品化的基础与准备

Q:2018年您就提出了RGC/AIGC的概念,能否回忆下当时是怎么洞察到的、又为什么决定去做?

A:2017年创立一览科技的时候就在做这件事。我在美国学的是AI与机器人专业,心里本就有AI的情结,2005年创立风行视频时也在思考视频内容和AI如何结合这件事,比如张一鸣利用AI做信息流。当时我们关注到的另一件事是,视频行业很特殊,其生产成本极高,阅读成本极低,也就是说拍起来、做起来很难,但看起来、理解起来很容易。但视频里讲了什么,人很容易理解,机器是难以理解的,所以我当时就想用AI让机器人看清楚视频里有什么人、有怎样的场景。我希望机器能够理解。

一览科技的核心是“一览无余”的意思,想看清楚视频里面有什么,希望构建一棵结构化的视频树,既能做视频搜索、也能做视频生产,这都是一个脉络想下来的事情。2018年的时候我们都知道PGC、UGC很火,但我还是认为会有RGC,那机器生产需要什么呢?AI技术、标注、数据,技术肯定会实现的,所以就一直沿着这条路做事情。

Q:一览科技的发展过程是怎样的?AI在其中起到了什么作用?

A:我们有个很伟大的梦,想做RGC,也就是现在的AIGC。当然你回过头看五年前,做AIGC属于纯投入,这不是短期就能见到钱的一件事,而且作为创业公司,尤其在外部环境不确定的那几年,我们要思考的是怎么能在赚钱的情况下追求梦想,所以在公司发展过程中就想到把视频做成解决方案。

每个公司都会越来越需要视频服务,无论厂商、银行还是本地生活App,都在向着内容化靠拢,还有些非主流化的公司/App,没有建系统,直接用云、用SaaS,所以在洞察到这个机会后我们做了另外一种服务叫VaaS。

VaaS的核心与AIGC不冲突。VaaS是我来搭一个平台,提供不同的服务,内容是其中的一部分,包括PGC、UGC、AIGC等不同的生产形式,在内容之外,还有视频系统的点播云、视频托管、营销服务、数据服务等等一系列服务,那这些是可以商业化的,能为客户提供解决方案。

那么我们做VaaS,可以简单理解成我们是一个视频版的声网,签下不同的作者和内容,用AI技术或者人工来处理、分析、整理视频内容,完成标签分类放到云端,客户便可以直接应用。那这个过程就涉及到源源不断的内容资源,AI便是能不断提供更多内容的底层技术。

Q:我印象里五六年前的AI领域有Video++、影谱科技,跟这两家相比一览的思路有何不同?

A:我们属于内容生产,他们属于内容替换。他们做的是比较具体的一件事,比如把视频素材里的广告提取出来安上品牌logo,比较偏向广告;那么我们生产一些像美食视频、手工视频等机器人能容易制造出来的内容,比较偏向实际生产。

大模型与垂直应用的关系

Q:前段时间您在接受采访时说“创业团队不应该再去做底层通用大模型,而是应该在大模型的基础上做垂直的AIGC应用”。一览科技的底层技术主要是什么样子的?

A:因为做大模型需要耗费很多的资源、人力、算力,是一场持久战,站在创业者的角度,肯定还是基于大模型做应用、做内容能有更多的机会。目前我们在接多家大模型。包括百度的文心一言,一些新创业的国内大模型公司也在接触,当然肯定最成熟的还是GPT。如今阿里巴巴、腾讯、华为等等都做了大模型,我们也很乐意去尝试。

Q:关于大模型和垂直应用的关系是不是可以类比为安卓/iOS是底层的大模型,App就是垂直应用?对做垂直应用的公司来说是否面临着到底选哪家大模型深耕的问题?

A:我觉得类比还可以再往前,手机App出来的时候行业里有了PC互联网做参照,大家已经知道怎么玩了,而现在AI的大模型和垂直应用其实更像是1995年、1996年Yahoo的时代,有了3W、http、Mozilla之后如何建网站的问题。

无论哪一家大模型,对我们来说是一样的,只是说返回的结构上有差别。做垂直应用相当于是在用户与大模型之间做了一个Gateway(网关)产品,因为用户无法直接对大模型,比如说用户直接问AI编剧很难,但如果把它产品化,那用户就可以直接跟产品去交流,至于后面我接的是文心一言还是GPT都不影响,同一个请求发过去,如果几个大模型都返回,我们还可以优中再选优。大模型越多,对做垂直应用的人是越好的。

Q:一览科技是从什么时候开始用的GPT大模型?从成立到现在跟进过几个大模型?

A:严格意义上说,像pre training的AGI大模型,GPT是唯一把这条路走通了的代表,像Google、Meta、国内百度的大模型,又是走的不同的路。我们也一直在关注GPT,只不过1和2还不算成熟,到了3就很像样,但当时国内没有炒起来。

此外我们关注的还有Google的Tensorflow,百度的PaddlePaddle,但这都不是大模型,属于AI框架,这些框架里有一些开源模型,我们也会用。在图片方面我们用的是Stable Diffusion。

Q:那大模型的变化会多大程度影响到垂直应用的进展?

A:现在我觉得已经到了一个拐点,之前全靠我们自己做,确实很难,比如我们要做NLP,那必须在Tensorflow的开源模型上自己去调优,无论是对算力还是标注人员,消耗都比较大。现在会好很多,ChatGPT的火爆也印证了大模型发展到了新的阶段,跟ChatGPT对话时你会感觉在和一个人、甚至是一个神在对话。

Q:现在大家的态度各有不同,大佬们联名抵制,自由市场呼唤发展,这种冲突会对我们造成影响吗?

A:我觉得还好,总得有不同的声音,AI突破拐点后,确实也有会失控的可能。在GPT之前,Google推出了一个叫LaMDA(对话应用程序的语言模型)的模型,有测试工程师给过报告说这个模型是有情绪、是有意识的,后来Google非常低调地处理了这件事。其实这件事很复杂,涉及到伦理、涉及到人类的安全,所以大家有这种担心是合理的,但我觉得不会影响垂直应用的开发。

Q:垂直应用开发的边界在哪里?

A:AI确实会牵扯到伦理道德、地缘政治、包括情色等问题,但我觉得AI技术拍视频、画图片、写脚本这件事情本身是无害的,关键还是在于如何使用。我们自己也在强化内容审查。目前的监管规范也和互联网内容监管规范一致,也可以这么理解我们人生产出来的内容和机器生产内容在审查方面,流程是一模一样的。

AI编剧的价值与空间

Q:前段时间一览科技推出了基于GPT大模型的“文本+图片+虚拟人”视频AIGC全域工作流,AI编剧最先上线,为什么把编剧作为第一个切入口?

A:做视频我们自己总结了三个很重要的要素。第一是脚本,包含了创意、故事情节;第二是图像素材,可以是实际拍摄的、也可以是硬盘上拷贝的;第三是声音素材,包括配音、音乐、音效等等。

从文本到视频,脚本是最核心的,就拿电影、电视剧来说,好看的前提是有优秀的剧本,所以我们先从剧本切入。当然我们的剧本不只局限于15秒的短视频,网剧、网大、电影、电视剧、短剧等情节类的内容都能用到AI编剧,还有就是垂直电商和广告创意,也可以用AI编剧去想创意、想点子。

剧本是视频的源头,那第一步解决好之后,第二步就是素材,创作者除了自己拍之外,也可以用 AI生成想要的图片,或者想要的形象,我们还标注了大量的视频数据,在后续也会慢慢开放出来供大家使用。

Q:AI编剧的工作原理是怎样的?跟市面上已有的同类型的AI编剧工具,一览的特点是什么?

A:每个人对编剧产品的理解是不一样的,我们的AI编剧实际上是基于影视生产、视频制作的逻辑来应用的。

在AI编剧页面,用三个步骤就能得到一个相对比较完整的剧本,第一步是创意,有了一个什么样的创意点子,在上面输入;第二步是生成情节,可以添加爱情、喜剧、恐怖等不同的元素详细描述,根据这些描述工具会“返回”三种不同的情节故事,用户选择其中一个情节故事后进入到下一步脚本生成,这一环节AI编剧直接给到的是分镜脚本。此外我们还推出了智能改稿,用户能随意去更改情节、结尾,直到改到满意为止。

我们做AI编剧也是在还原编剧的创作过程,整体符合编剧的工作习惯,我们也找了很多编剧在用,目前从编剧得到反馈来说还是比较正向的。

Q:现在编剧的集中反馈是什么?

A:基本都觉得能提升效率、节约时间,提供的创意点子也有参考价值。当然也有待提升之处,一个是内容太短了,“短”其实是因为GPT大模型有token的限制,但这部分我们也在解决;再一个是AI生产出的内容如何与编剧的风格保持一致,现在AI编剧还是比较发散式的生成内容,所以这个产品后续也会持续打磨,比如编剧多提供一些语料或者之前写过的剧本,AI再进行分析理解,就能生成更靠近编剧风格的内容。

之后我们也会把AI编剧应用到具体的影视项目里,和欢雀影业合作撰写的影视剧项目已经在筹备中,月内就会官宣。

Q:所以我们现在这个产品的定位还是去辅助编剧。

A:目前是这样的,我们做东西并不是要取代编剧的工作,这是很重要的一个观点。未来我认为内容行业里的编剧可能就分为两类,一类是用AI的,一类是不用AI的。

Q:如何训练AI编剧?训练出一个还算合格的工具所需要的时间成本,换句话说比如现在有个创业公司也要做同样的事情,那一览拉开的差距可以保持多久?

A:就像我刚才列举1995年建网站的例子,雅虎是一个黄页,再建个黄页其实很容易,但是想保持持续的迭代更新就比较难。放在AI领域也是,想打造一个AI 编剧,如果看市面上的产品,看到别人的工作流挺好,想要抄下来,但只能抄表皮,抄不了核心。我怎么问GPT、怎么问文心一言,外面是看不见的,这些底层的东西别人都不知道,就只能看到冰山一角。

Q:我之前也接触过一些“剧本医生”在诊断时就会有固定的模板和节奏,比如前三分钟要有反转,前三集要有矛盾,那一览会用一系列框架去规范AI吗?产出的剧本会雷同吗?

A:至少是有一定的逻辑和框架在后面做支持的,但剧本不会雷同。人设、故事进度、矛盾冲突这些内容要素AI是可以做不同组合的,比如主角人设,在心理学中人的性格至少有45种,那不同性格随意组合得出的结果是足够多的,相应的产出剧本的雷同度也会低。

成本与商业化

Q:之前小冰CEO李笛透露了一组数据,按小冰框架当前对话的交互量,如果用GPT的方法,每天成本将高达3亿元,一年超过1000亿。对于产品化而言即使再将成本下降10倍,这个商业模式也是无法成立的。所以一览的AI编剧的成本主要是哪些?

A:成本大致有两部分,产研是一部分,包括产品经理、研发工程师、服务器等等,另一部分是调大模型的费用,大模型的费用现在还是比较少的。

Q:对商业回报有何预期?感觉做垂直应用的变现逻辑和SaaS比较像,ToC是付费订阅,ToB就是定制化的一套解决方案,还有其他的变现路径吗?

A:我觉得不用禁锢AIGC的商业模式,技术本身还在快速迭代,所以我认为商业化不是我们现在要考虑的问题,而首先关注的是我们的AI编剧能不能做出爆款项目、能不能做出像样的好内容,等到真的出了这样的标志性事件,那就意味着AIGC的路径成功跑通了,到时候商业化变现的问题也就迎刃而解了。

这样来看,在C端付费和定制化方案之外,分润的模式还挺值得期待的。如果AI编剧参与的影视项目成为了爆款,卡司、导演、制片、编剧按照利润比例分成,AI编剧获得的回报也不会低;而且爆款项目也能带来更多的溢价,广告主、电商公司也会提出需求主动合作,AIGC的商业化空间也就进一步打开。

未来愿景:视频成为基础设施

Q:对一览现在所处的阶段、未来想取得怎样的结果有没有一个预期?

A:当然,我希望有一个标志性的事件。比如说我们的AI 编剧能够打造出来爆款,不管是自己做的,还是用户用我们的产品做出来爆款,这会让整个行业对AIGC有重新的认知。未来有一天抖音上某一个内容特别火,你别奇怪,可能是AI写出来的。我觉得这种事情可能快的话,今年应该会发生。

Q:刚刚聊了这么多,我们想返回到公司的初心,一览是想成为一家什么样的公司?

A:如今我们的库里面已经标注了大量的视频和数据,也有很多海量的素材资源。因为技术始终在快速迭代,我们最近观察的一个新技术叫多模态,它能帮助去检索视频、比较视频相似度、抽取镜头,未来也会有更多新技术出现,我们都会积极尝试。

借助各种新技术的加持,我们的愿景是希望以后只要有屏幕的地方都有一览的视频服务,不管是在电视上还是在手机上,或者是汽车屏、冰箱屏,以及户外的大屏,都在用我们的视频服务,这个服务包含了内容、技术、系统、数据,这其中内容是一个很重要的载体,这可能是专业机构拍出来的、有可能是用户做出来的,也有可能是机器做出来的,能满足大家的需求,无论是娱乐、商用、还是私域、营销的需求。

我们其实不是再做一个抖音或者快手,我们想成为在后面“赋能”的人,把视频能力做成像水和电一样的基础设施。想要云我们就提供云、想要数据就提供数据、想要营销就给营销,我们会把这些服务灵活地挂在App、网站、电视端、小程序,大家只要拧个开关就可以得到想要的内容。

那么对于创作者来说,想要创作脚本,一览有AI编剧,想要图片美化,我们也有AI图片,后面还会推出AI虚拟人、AI音频等等工具,只要是创作相关的,我都能提供。所以我说未来的内容有可能是专业机构做出来的,也有可能用户做出来,但也有可能是AI做出来的。

0 阅读:1

深响

简介:全球视野,价值视角。