两个版本都诚意满满,Ultra有升级,价格不变,标准版更有诚意。
未确定中间的Pro如何定义,希望更多用户体验产品。
4K到6K是主力价位段,用户在增长,希望在这一块做得更扎实。
不认为两者对销量有影响,未来销量可能更大。
这是搭载于OPPO Find X7 Ultra上的安第斯大模型,针对本次采访中部分对话给出的总结。1月8日,集双潜望长焦、最新旗舰芯片,以及oppo自主训练的多模态人工智能大模型于一身的Find X7系列,在深圳正式与公众见面。
作为在移动影像、大模型交互落地等诸多方面均颇有看点的产品,相信不少人和我一样,对它会有非常多的疑问和好奇。发布会后我们也有幸访问到了OPPO 首席产品官刘作虎、影像产品总监张璇、以及软件创新中心总经理张峻。围绕这次的产品定位、OPPO的影像主张,以及AIGC的现况和未来,进行了深入的交流。
以下是部分访谈内容。
· 关于产品:先做好两个极端,标准版已是「超Pro」Q:这次Find X7两款机型,价格差距拉得比较大,这中间怎么填?
刘作虎:你应该感觉得到,我们两个版本都是诚意满满,我们的Ultra有升级,但价格和之前没有什么变化,标准版反而比之前更有诚意,我们的确也没有想好这中间的Pro怎么做,大家也知道在X6时把X6 Pro定义成当时的影像旗舰,在X7时,我们依然是这样的定位,不停地往上加,加上去以后发现Ultra的定义就是代表最巅峰的旗舰。
下面还是有一个目的,希望能让更多用户体验到,不然做了这么多好功能,结果就几百万人使用,未来有没有上千万人使用这个产品?我们发现4K到6K的价位是一个非常主力的价位段,这一段的用户是在增长的,所以我们希望在这一块可以做得更扎实,让更多人能够用到,所以这次就把诚意做足,至于未来中间的怎么填,等我们想好产品怎么定义的时候再来填,反正一个是做到最好,一个是让更多人体验,先把两个极端做好再说。实际上,我不认为这两者对销量有什么影响,说不定比以前卖的量更大。
Q:Pete你能不能解释一下,为什么还没有想好Pro版怎么做?因为这一代标准版基本上和上一代的Pro很近。
刘作虎:当然和别人的Pro比,别人的Pro还不如我们的标准版,所以要超越Pro,我是用Pro的产品,但是定义了标准版的价格,无非就是想让更多人使用。这的确会导致中间的Pro定义的难度变得更大,因为我已经把Pro给到大家了。
Q:从需求的配置来看,这次标准版在屏幕、音频、影像几个地方存在一些差异,这样的安排会不会让这两个产品体验差异落差更大?会不会是在刻意给Pro留位置?
刘作虎:没有刻意,超级标准版已经是超Pro了。
Q:关于今天Find X7系列软件的进步,在将来会不会下放给老机型?
张璇:我们已经在做这方面的工作了,这里面有一些下沉的部分,稍后会推出计划给各位,我们要把这一套框架做得相对稳定,然后再往下做一些对于老平台和硬件的适配,会更容易一些。
· 关于影像:抓住摄影本质,视频「做iPhone的学徒」Q:Find 影像这两代很强调影调和审美的工作,但有一些普通的用户可能无法欣赏这个东西,包括有一些个别场景影调也不是那么万能。在正确的审美和大众认知之间,OPPO怎么考虑这个事情?
张璇:这个事情真的没有那么复杂,我们从来没有想教育大众,影调不是我们发明的,这两年在传播中有一点被异化了,影调好像成了某种风格,影调等于高对比度、高明度。影调这两个字可能伴随着摄影,我们把影调看成光影,把色彩去掉以后,整个画面明暗的分布,它本质上并不是一种风格化,影调是摄影相对比较本质的地方。
我们做影调,并不是我们强调影调,而且我们做摄影中必须要抓到摄影本质是什么,这个本质是指当我们掌握一些本质的能力,我们可以帮助用户更好地创作,所以影调才会被提起来,对大众而言,的确不需要了解影调这两个字是什么,或者中间调是什么,大众拍到手最直观的感觉。
我举一个真实的例子,昨天请几个朋友吃饭,他们问我干什么,我说这两天发新品,他们问相比以前有的产品什么不一样的地方?这很难讲,也不可能讲影调、中间调,我说就拍几张人像,拍完以后给他们看,他们看完以后第一反应是「你给我修图了吗?」,我觉得这就是普通人认为好照片做的好的地方。
我们在做影调和相关部分的背后是在践行OPPO的理念“轻松捕捉生活之美”,什么是轻松捕捉?用户点快门就好了。生活之美是用户日常中所拍的场景,用户不需要思考它应该是什么样。拍出来的东西,用户觉得“给我修过了吗”?它是一种非常高级的审美,但是这种高级的审美严格意义上不是区分低级的,我相信用户看到之后还是觉得它很好。如果我们真的要做一个东西需要教育用户很好,那有可能是我们错了,我觉得这是很核心的地方。我相信那张照片,我们要相信大众的眼光和变化。
上个月,我们在内部也在分享,比如以前我们说韩剧的光影很好,电视剧打光很强,但奈飞进入了韩国以后,韩剧进入了另外一个阶段,比如我们看《黑暗荣耀》,我们看十几年前的《浪漫满屋》,影调、色彩,奈飞的电视剧很像电影,很大一部分是影调整体的进步和理解的变化,我们要相信公众的审美,只是我们把公众想要的东西通过我们的技术手段来实现出来而已,我觉得影调不是风格化。
Q:2021年OPPO就发布了连续光变技术,为什么这次Find X7 Ultra选择双潜望的方式,而没有用连续光变?
张璇:很简单,连续光变底的尺寸会做得非常小,当时做底的是接近1/4左右的底,但是做连续光变的时候,连续光变的本质是要保证中间焦段画质的部分,但尺寸非常大,甚至连续光变的尺寸比现在用的1/1.56中焦潜望尺寸更大。连续光变是一种技术方式,用户最终买的不是技术,用户买的是解决问题的方案,最终比较时逻辑很简单,在尺寸供应链的可靠性、算法和最终效果角度上,哪一个方案更可以覆盖用户常用焦段的画质,这是一个先决条件。
其次是连续光变看起来缩成一个模组,但有一个问题,比如这次看6X人像表现力很好,本质上是我们有一颗最厉害的中焦作为景深和虚化裁切,如果没有中焦两个摄像头配合,6X人像的抓拍、虚化不会做得太好,因为做景深需要算,如果做成连续光变,它强化了光学特性,但有可能从画质和基于算法的链路来看,它并不是最合理的。
这也是很多媒体之前问的为什么不做成光学,不是不能做成光学,而是现在的手机影像是计算影像时、移动影像时,是平台算力、算法和模组之间的组合,不太容易退回到原有相机的逻辑,否则就会出现在手机里有很多功能和使用上,从体验的维度上未必像大家想的那么好。
Q:从供应链的消息,友商跟进双潜望的方案,可能要等到明年,对OPPO来说,这也是一个非常不错的时间窗口,我想问问在双潜望的配置上,你们觉得在后续一年时间里,你们还有哪些可以领跑的方向?或者能不能作一些预告,后续准备做哪些东西?
张璇:我最大的经验是不能作预告,能把很多信息给到各位是很重要的点,整体来说,我们在做双潜望的时候,之前有人问双潜望有什么难的,不就是把两个潜望放进去,单个潜望的确不难,甚至是去年做的中焦潜望,好像有一些友商用了我们的方案,但绝对不是我们代工的。
我们说影像是系统级方案,从X6、N3到X7,OPPO影像内部最大的变化是我们会系统性考虑问题,它是完整的方案,涉及到什么链条,在什么情况以什么样的产品形式露出,且露出的那一瞬间,用户觉得产品的满足度是够的,而不是变成技术的宣泄,如果只是在PPT展示的技术不能反哺给产业链,这也是一种浪费。
双潜望的技术难度非常大,我们做了中焦大底以后,虽然X6上市以后,大家说中焦为什么做潜望?估计接下来的超大杯,行业估计中焦都是大底。一个技术是否领先不是绝对意义的技术指标,首先是看市场的反馈怎么样,其次是友商是否跟,什么时候跟,如果一个东西很厉害,友商都不跟,大体也没有那么厉害。
我们在衡量时,用户价值是一个,另外从技术领先的角度,还是看多长时间,友商可以做到类似的表现力,在双潜望的角度,友商是不是要跟上来了,我们在整个系统框架里,再次思考影像应该是什么样,用户要的东西是什么,究竟友商是否跟进,其实我们自己认为不是那么关键,如果友商明年出双潜望,我相信那个时候的技术会比今年更进一步。
Q:我们的手机既然特意强调了摄像,那和iPhone比大概能到多少分?
张璇:我不知道上次海口的媒体会你在不在,当时我在PPT上写了,我们是iPhone视频的学徒,这个也不是谦虚,事实上,我们做完视频就发现和iPhone的差距是非常大的,我相信你们在座的一定也是同样的这个问题。
刘作虎:所以如果行业有人说他的视频跟iPhone水平一样,那你就知道他是吹牛的,不靠谱。
张璇:所以我们这一代在做芯片的时候,尤其MTK在合作,包括我们做芯片,把它打开来讲,其实视频很大程度上对于你软硬芯算尤其是功耗的能力是要求非常高的,你拆开苹果看就会发现,苹果的功耗非常可怕,可怕到苹果以最高的指标来跑,比如4K60帧HDR的时候,可能比厂商不跑4K60的功耗还低,这个根本就没法玩对吧?
你拆完以后就会发现,这个差距别想那些有的没的,我们当时说,要不要拿出一些功能?虽然我们在发布会上好像拿苹果做PK,但我们心里非常清楚,在视频的相当长时间内,它一定还是一个学习的过程,所以我们今年在做视频的时候,当时我们做产品规划,我定了几个月,我说我们也不用做什么奇奇怪怪的视频功能,你把视频里面你们要的第一个问题是视频可不可以让我非常稳定地连续进行拍摄?
这一个点先把它展开来看,所以我们今年的视频发布会没有讲任何新功能,这个有点像我们去年做相机的时候的第一年一样,也不做任何的新功能,就把老功能新做,所以今年的视频我希望得到你们的评测。我们自己认为,如果你把苹果的视频看成100分,我觉得我们今年做完之后差不多也就是在80-82分之间,我觉得应该是这样的。
刘作虎:我补充一下,视频这一块,我自认为我们的方向目前应该理解还是对的,刚刚张璇也说,我们跟iPhone比,我觉得整个安卓跟iPhone比,不是一个点差距的问题,而是一个系统性的问题。所以我们还是回到系统性的去解决,而不是要说我今天这个点好像在某一个特定场景很牛。
所以视频这个方向,我觉得过去很多年安卓的厂商理解都是错的,我觉得我们现在至少在一个正确的方向上,但是这条路还比较长,就是你首先怎么把它做到稳定拍摄,这个已经是很不容易了,并且它很多的算法跟我们现在在拍照上面不断地去加一些算法,让局部场景要做好,这个思路是完全不一样的。
张璇:对。我们今年的视频目标就是让大家在拍的时候觉得和iPhone很像,但是你仔细放到一些极端场景,可能你依旧能抓到我们不如iPhone的地方,我觉得这个可以得到你们这一块的反馈,对我们改进很重要。
刘作虎:今年是我们全焦段支持4K HDR,iPhone可能什么时候就已经有了?但其实你就算做到,这种(多摄)一致性,我觉得也是很挑战的,但这是一个长期的过程,比如说今天iPhone视频是100分,我们现在做到70分,明天做到80分,后天85分,我觉得这个已经不错了,但是我拍照的确还是挺牛逼的,对不对?
Q:发丝抠图效果感觉非常好,不知道能不能透露算法逻辑是怎么样的?从观感上来讲,不像是一根头发一根头发抠出来的,更像是AI还原了一部分发丝。
张璇:我们其实还没有做AIGC的部分,但的确可以用AIGC的方式来做某些场景可以达到更好的效果,对于我们的算法而言,这个事情已经搞定了。但这两条线的逻辑我们都在做。老师您此刻拿到的发丝级的虚化,它的确是基于我们的 AI depth mask 这样的方式来做的,我们用更多的计算来处理,但AIGC以后能不能生成一些方式,试图让它看起来更真,可控性问题还需要斟酌一下。
今年在我们的项目里,景深的深度信息会算得更准。对于主体的识别部分,对于某些特征,比如绒毛状物体边缘,尤其是大模型之后,相机在本地端的算法,能产生非常积极的效果。你们反馈以后,目前这个方案还需要精进,还没有做到100%的、每次都可以达到最好的状态,但这个方向会继续往下迭代。
行业里有一些是用类似的方式做,在一些场景里可以达到不错的效果,这也是很好的技术方向。但我们在和AIGC讨论时,在今年和明年的产品里定了一个基本原则,在相机拍摄时,我们要捕捉生活之美,要以用户的实际信息作为条件。当然,当用户在相册里进行编辑时,是不是可以把它的整个生成或者范围变得更大,让客户可以自由选择地对其照片的部分。但目前还没有在相机端引入这些有可能篡改一部分信息,导致用户觉得拍出来的照片信息和预想的信息有问题的地方。
在一些准确的地方,比如拍文字,一定要把文字拍得很清楚,不用猜文字。如果墙上没有字,生成一段文字,这还是要比较谨慎的。所以我们宁可把它放在后端作为功能的添加项,比如擦除、模糊等处理功能可以基于原图进行处理。随着技术的发展,相信相机的特性会得到反哺和提升。
张峻:我在璇工的基础上稍微补充一下。现在抠图的功能并没有用生成式的能力。那为什么发丝抠的那么好?还是基于我们在人像和动物上积累了三年的数据训练。大家看到的AIGC消除那个功能的背景补充生成部分,那个是用了生成式能力做的。
· 关于大模型:端侧部署私密准确,做负责任的AIGCQ:关于AIGC消除的部分,随着AI的发展,算力的提升,AI效果前置是迟早的事情,OPPO会怎么处理这个问题?
张璇:我们在一周前,在技术内部发生了一次讨论,我们叫原产地保护,大家开始争议这个过程中,工程师发起的,大家发现算法进入边界以后,对于相机拍照的信息是不是真的,比如拍月亮,只要帮助用户拍出想象的照片,真实性从何而来?需不需要对原始图象作一个备份?就是原产地保护的逻辑,这是一个很好的输入,我们回去以后基于整个公司的图象AIGC,包括我们公司有伦理的部分,会受到统一的管控。
张峻:我接着璇工的这个讲。对,我们的思路是一样的,从AI的角度来说,这是一个很有趣的话题,AI本身在生成式有大量的能力可以替代,在一段时间以内,我们内部讨论了很久,我们更希望把这种AI的能力作为用户的工具,帮助他、辅助,把意愿留给用户本身,所以在一段时间内,我们不希望直接作替代这个事情,从人性的角度来说,也许不一定是用户真正想要的,当然从大数据的角度技术上是可行的,但从伦理角度、体验角度,我们都希望在一段时间内定位成是一个AI辅助帮助的工具。
Q:今天大模型的demo非常精彩,我比较关心它总结、生成内容的准确性如何?有没有一些具体数据,包括模型幻觉的情况来分享?
张峻:我们一般评估大模型的效果时有几方面:一是准确性,二是完善度,特别是对摘要这样的功能,后面还有对于信息细节的反映,以及有一些负向指标,这可能是全量评估摘要模型。
在这个模型上,我们对于通话摘要这个功能做了很多竞品对比综合测评,可以很负责任地讲,我们在所有的综合评分里是最好的。另外一方面,经常有人问我们,比如通话摘要实现了70亿大模型端侧化做的,很多人问为什么选择70亿,为什么不用10亿?其实我们在上次的产品技术沟通会里专门有展示过对比,我们每一个场景都会选择最恰到好处的参数规模,它代表了这个模型在这个场景的聪明程度,我们也会选择最恰当聪明程度的模型来做最恰当的场景。事实证明,在新模型上,在通话摘要功能的设想,包括摘要的准确度、关键信息的提取完善度、细节提取的精准度上面,我们和竞品对比都是比较好的。
Q:这次在一个产品线里面,同时用了天玑和高通,而且大量的功能在两台产品上都有上线。这在技术方面有没有遇到什么困难?或者有什么感受?尤其在AI这个方面对NPU的要求还比较高的一个场景。
刘作虎:唯一的就是要加大资源,的确,你说得是很对的,同时做两个平台挑战非常大,这个就只能加人了。
Q:AI有考虑过本地化部署的问题吗?
张峻:有,这次的X7本身就会端侧化部署70亿参数的大语言模型,视觉模型也会端侧化部署,它会跟着我们的OTA后面上线。我们也看到真正把70亿参数大模型同时在两个芯片平台上端侧化部署的,可能OPPO也是第一家,真正应用起来的。
· 关于芯片:不追求跑分最高,体验流畅才是最终目的Q:我想问一个关于潮汐架构的问题,今天潮汐架构在整体的效率表现上确实很不错,它和硬件有没有强绑定关系?比如已经发布的Find X6后期能不能用上?或者今后上市的非旗舰产品或者中高端平台会不会用上?
刘作虎:我的回答不一定准确,这一代推出的潮汐架构是和平台商深度定制的,肯定不是随便可以移植到其他的产品上,这是我们做的一套潮汐架构,未来如果要在哪个平台做这个事情,用类似的方法可以做,但不是今天把这套算法直接OTA搞定,我理解应该是这样的,我不专业,别弄错了。
Q:这次潮汐架构会很明显地主动让CPU各个核心尽可能保持在高能效状态,在一些主流的测试软件,特别是在纯CPU测试里,对成绩有一些负面影响,不会跑得看起来那么高,但相比之下,比如realme和其他品牌定位在影像旗舰的机子上,今年在性能上拉得比较激进,OPPO如何说服消费者潮汐架构在性能上有很大的提升?
刘作虎:虽然我们今天发布会讲到了很多榜单,这只是一个背书,让你知道我还是有实力的,不管怎么做,还是针对给用户的体验是什么,可能在一些跑分里不是很高,这不是第一位,还是看你究竟想要什么。
我觉得这一代的流畅性是非常好的,为什么出这个问题?之前软件团队工作没有做到位,还有很多bug就放出去了,量很大,结果被骂到天上去了,搞得口碑没法翻盘。事实上,我自己用了这一代,流畅性是非常好的,比以前的进步很大,包括肯定还有一些需要优化的东西,我觉得整个进步是非常明显的。我为什么讲这个例子?虽然说潮汐架构是一个技术,但最终在不断地给研发团队要求怎么让它更流畅,让它更无负担地体验,这是我们所追求的,我不知道你说的是什么榜单跑分低。针对你的用户的定位,你具体的体验是什么,各家会有一些不一样的选择,我只能这样讲。