博简科学：机器如何“看“世界？计算机视觉让AI插上想象力翅膀

专家在探讨:人工智能会在10年内代替人类。

电影界传言:人工智能正在密谋接管世界。

现实中的人工智能（AI）: 指猫为狗；指狗为猫；一条鱼在问:老子是猫还是菠萝.......白色全等于雪景、黑+白就是熊......

种种场景，使人工智能变智障，但智障情景还有很多：‌

‌原本设计为模仿一个十几岁的青少年女孩，‌但在与用户开放对话后不到一天的时间里，‌就变成了一个“热爱希特勒、‌讥讽女权主义、‌带有种族歧视、‌性别歧视、‌同性恋歧视”的喷子，‌不得不被微软从社交网络中撤销；‌‌

误把裁判的秃头认成足球、‌‌对于不能被标准化的任务如采茶工作，‌难以准确表达或错误百出.....‌

这些例子展示了人工智能在处理复杂任务时遇到的挑战和限制，提示了在人工智能技术的发展带给我们许多便利的同时，实现与我们的生活工作融合的理想依旧任重道远。

“偏爱”纹理的AI

计算机视觉，是人工智能的核心方向之一，‌它是研究如何使机器能够“看”并理解现实世界的关键钥匙。

对于人类而言，“看”几乎是与生俱来的能力——出生几个月的婴儿看到父母的脸会露出笑容，暗淡的灯光下我们仍能认出几十米之外的朋友。人类的眼镜具有凭极少的细节就能认出彼此的能力，然而这项极度“轻浅”的能力，对计算机而言则“望尘莫及”。

因为我们的大脑有超过40亿以上的神经元处理视觉信息，因为视觉占据着人对外界70%的感知能力，当你看见一张狗的图片，你能轻松地知道这只狗的毛发、品种，甚至能大概知道它的身高体重——无论这张图片是否模糊、有噪点或者条纹。因为人看的是相对高层的语义信息，比如形状；而AI面对这些会“犯傻”的原因，是因为计算机看的则是相对底层的细节信息，比如纹理。也就是说，一只“披着羊皮的狼”，人类看到的是狼，而AI则看到的是羊。

一小部分的噪点，机器就完全无法识别，答案就是纹理。因为在图像中加入噪点，图中对象的形状不会受到影响，但是纹理的识别却只针对表象。研究人员曾将一头大象的皮披在一只猪的轮廓上和将铁罐制作成一只小猫。即便分别给它们贴上“猪”、“猫咪”的标签，然后用不同的算法进行测试。系统给出的答案依旧是：大象、铁罐。由此更证明，计算机确实关注的只是纹理。

但AI的神经网络架构也是根据人的视觉系统开发的，这使得图片像素进行“干扰处理”后，系统对像素进行修复的能力比人的能力更高，但如果图像扭曲的方式稍有不同，算法就完全无能为力了。

“偏爱”纹理，是因为AI还不具备人类一样的理解能力。如果说人类通过“智慧的大脑”来认识世界的话，那么算法模型，就是AI的“大脑”。

AI目标是创造设计出具有高级智能的机器，所以算法和技术最直接的借鉴，就是利用当下科学界对人脑的研究成果。

AI脑的“智慧”难题

当下流行的AI系统使用的人工神经网络，就是模拟人脑神经网络建立的简单模型，是按照不同的连接方式组成的网络。这些网络虽然跟人脑一样可以学习，比如简单的模式识别、翻译语言、逻辑推理、甚至创建图像或者形成新设计。但是，视觉计算要充分挖掘视觉数据中多元信息间的关联，也就是要挖掘不同拍摄视角、模态特征、视觉语义之间的关系，发现并利用这些关联线索提升视觉计算性能。由于旧的方法往往忽略对关联的建模，无法取得理想的结果，导致ai生成的视频中，沙滩上的椅子会飘在空中等，这些怪异图景都是忽视了真实世界的自然、物理规律关联导致的结果。

“尽管最近十几年来视觉计算取得了较大的进展，复杂动态视觉数据的理解这块硬骨头还没有被完全啃下。”以“多元协同的视觉计算理论与方法”获国家自然科学奖二等奖的复旦大学教授姜育刚解释说，“拿视频数据举例，不同于静态图像，因为有了时间这个维度，视频蕴含非常丰富的时序、声音、文本等多模态信息交织在一起，给动态视频数据的理解带来极大挑战，这也是当前视觉计算领域亟待解决的难题。”

人脑与计算机的区别在于：人类的“识别”依赖于自身以往的经验和知识，一旦面对数以万计的陌生面孔，就很难进行识别了。而AI的“杀手锏”就是处理海量数据，但这些神经网络却与处于“理解”角度上的“分离割裂”状态。

“我们的想法就是首先将多元信息解耦，然后在高维空间中施加约束，从而充分挖掘并利用多元信息间的关联关系，这对于复杂视觉数据的理解特别重要”，姜育刚说。

虽然现在计算机视觉的应用场景已经很广泛，作为消费者，我们已经能够看到AR/VR、机器人、无人驾驶、自动驾驶汽车等场景，而在企业市场，也有医疗图像分析、视频监控、房地产开发优化、广告插入等的应用。但这些已经落地的应用案例中，很多项目还处于小范围的试用阶段。由于相关理论的不完善，这些先行者与创新者实际上遇到不少困难。其中最大的问题是缺少可用于AI模型训练的大规模数据集，以及动态图像识别、实时视频分析等技术瓶颈等。

多元协同的视觉计算——复旦大学的贡献

2023年度6月24日国家科学技术奖揭晓，复旦大学计算机科学技术学院姜育刚教授等共同完成的项目“多元协同的视觉计算理论与方法”获国家自然科学奖二等奖。这一成果解决的就是让机器更好地理解和处理动态视觉数据的问题，‌特别是在提高人工智能在“看”和“理解”图片或视频动态视觉数据的能力方面取得了显著进展。‌这一理论和方法的应用，‌不仅提升了视觉计算的性能，‌还使得机器人能够更好地感知环境，‌实现了“具身智能”的核心技术。‌此外，‌它还促进了自动生成的图像和视频内容质量的提升，‌为设计师提供了更多的创作灵感。它的关键技术成果是——揭示了视觉数据在数据层、特征层、语义层不同形式的耦合模式，提出了适应各层特性并逐层解耦的关联建模方法，形成了多元协同的视觉计算理论体系，在多项视觉计算任务上取得了性能突破。

通过提高人工智能在处理视觉数据方面的能力，‌机器能够更好地理解和分析图像和视频中的信息，‌从而在各种应用场景中表现出更高的效率和准确性。‌例如，‌在面对大规模数据集时，‌能够有效地提取和利用关键信息，‌更准确地识别和分类图像中的对象。‌

同时，‌这项技术还强调了大规模数据集的开放共享，‌通过与全球研究团队合作构建的数据集，‌进行视觉计算领域的基准测试和性能比较，‌从而推动了全行业的技术进步和发展。

人工智能的发展历程大致可以分为三个阶段：‌符号主义阶段、‌专家系统阶段和深度学习阶段。‌深度学习阶段，‌需要有效整合算法、‌算力和数据，推动“制造”智能转移到“习得”智能。‌这一阶段的进步，‌以使机器能够理解视觉信息，‌实现机器视觉的重大突破。

因此，大规模数据集不仅是视觉计算至关重要的组成部分，对于模型的训练和性能提升还起着关键作用。相比于大量的图像数据集，动态视频数据集更少，其构建更有挑战性。一方面视频数据的收集、存储更为困难，另一方面是给视频数据进行标注非常耗时耗力。尽管耗时长、成本高，姜育刚带领团队还是构建了多个高质量、大规模视频数据集，涵盖视频识别、视觉匹配、动作定位等多个视觉计算任务，秉持着“开源开放是推动技术发展的重要方式”这一理念，长期致力于数据集、工具集的开放共享，被斯坦福大学、加州大学伯克利分校、微软等千余家机构使用。

‌中国在人工智能领域的发展中，‌拥有广阔的市场和海量的数据资源，‌这为计算机视觉等应用提供了丰富的训练数据。‌中国在人工智能专利数量上也处于遥遥领先的地位，‌这为视觉人工智能的发展提供了强大的技术支撑。

“多元协同的视觉计算理论与方法”项目不畏复杂动态视觉数据之交织莫测，赋予机器“慧眼”，“机器能识别出沙滩、椅子，也能懂得椅子在沙滩上的自然规律，并基于多元信息间的关联关系，进一步施展拳脚、发挥作用。”姜育刚说。

道路总是被那些披星戴月风雨兼程的人踩出，早在十七年前ai并不那么受关注、甚至有些“冷门”时，姜育刚就进入视觉计算领域。回望来路，姜育刚说，“我们不是‘预见’，只是感兴趣，愿意迎难而上。”

Ai赋予的机器“慧眼”，如何破解视觉数据“万花筒”

相较于机器视觉侧重于量的分析，计算机视觉主要是对质的分析，比如分类识别，这是一个香蕉那是一条鱼；或者做身份确认，比如人脸识别、车牌识别；或者做行为分析，比如人员入侵、跳伞、聚集等。

计算机视觉并不仅停留在浅层的感知层面，同时有大量高级智能参与，因此，计算机视觉本身蕴含更深远的通用智能的应用。

神经网络是图像处理的“得力助手”。这是计算机视觉核心技术，也是最早和最简单的技术。深度学习的许多研究成果，都离不开对大脑认知原理的研究，尤其是视觉原理的研究。

人类视觉皮层结构是分级的。比如，人在看一只气球时，大脑的运作过程是：“飞机”进入视线（信号摄入）——大脑皮层某些细胞发现“飞机”的边缘和方向（初步处理）——判定“飞机”是几何形状（抽象）——确定该物体是“飞机”（进一步抽象）。

由此，利用人类大脑的这个特点，构建一个类似的多层神经网络，由若干底层特征组成更上一层特征，最终通过多个层级的组合，作出顶层的分类和识别。

这就是深度学习系统中最重要的一个算法——卷积神经网络（CNN）的灵感来源。

AI究竟是怎么去“看”世界的？CNN的算法模型就是AI的“大脑”。

CNN具有输入层、输出层和各种隐藏层。它将结果经过分析，再传递给连续的层。

为了更好地训练AI，就需要大量的被标记的图像数据。神经网络会学习将每个图像与标签对应、联系起来，还可以将之前未见过的图像与标签进行配对。这样，AI系统就能够梳理各种图像、识别图像中的元素，不再需要人工标记输入，让神经网络自我学习。这就又涉及到神经网络的学习能力的深度应用——GAN算法的深入进行。

GAN算法赋予AI“想象力”，目前的主要应用之一就是我们在网络上看到的AI对老旧、破损图像的修复,比如从古代武则天、朱元璋等皇帝的模糊的人像构架中，逐渐显示出来的活灵活现的“真脸”动作。

对于一些经典的、年代久远的老电影时，用传统的方式对那些“高糊画质”进行修复速度慢不说，如果遇到图像缺失部分很大的情况，更是无力回天。但是AI的效率就高了，能够通过机器学习和模型训练来填充细节，提高画质，再利用神经网络上色，最后进行转录和人脸识别，半天就完成了。对于原图像缺失的部分，AI还能“开动大脑”，发挥自己的“想象力”，对缺失部分进行补充。

GAN是基于CNN的一种模型，其特点在于它的训练处于一种对抗博弈的状态中。

行业内常用“球员与裁判”的比喻来解释GAN的基本原理：球员“假摔”来迷惑裁判，使自己的进攻或者防守动作看上去是合规的，但裁判要找出这些“假摔”的球员的犯规动作做出惩罚。在二者的不断对抗中，球员“假摔”水平越来越高，裁判识别“假摔”的水平也越来越高。球员“假摔”的水平“炉火纯青”，裁判已经无法识别出该球员是“假摔”还是“真摔”时，该球员就实现了以假乱真，这就是GAN的基本原理。

GAN的结构包括一个生成器（G）和一个判别器（D），球员=生成器，裁判=判别器。生成器是任意可以输出图片的模型。判别器与生成器一样，是任意的判别器模型。

以图片生成为例，G随机生成一张图片，需要D来判别是不是真实的图片，D代表真实该图片的概率，如果D为1，表示100%为真实，如果D为0，则表示为假图。在理想状态下，D无法判别G生成的图片是否为真实的，D为0.5时，当前的目的就达到了：得到了生成式模型G，就可以用它来生成图片。

在训练过程中，G的目的就是尽量生成真实的图片去欺骗D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这就是一个“博弈”的过程。相较于CNN，GAN采用的是一种无监督的学习方式训练。

GAN的作用广泛，不仅仅是图像处理和生成，更在于对于各种噪点的识别，同时可实x现各种涉及图像风格转换的任务，如自动生成动漫角色并上色、让马变成斑马、生成人脸、作曲等。

计算机视觉的世界，有巨量的市场在助推

AI席卷百业，作为AI时代的主要入口之一，计算机视觉正成为AI落地规模最大、应用最广的领域。官方数据显示，2016年，我国计算机视觉市场规模仅11.4亿元，到2019年，市场规模增长至219.6亿元。全球范围内，到2025年，计算机视觉市场规模将从2016年的11亿美元增长到262亿美元。

作为是人工智能领域的一个重要分支，计算机视觉实时地对环境进行感知和理解的应用于广泛的领域：‌

手机拍照，身后有路人入镜，对背景不满意怎么办？最近流行的ai拍照“消除功能”，只需手指一滑，便可轻松消除。这一华为手机应用，正来源于姜育刚团队的视觉计算研究。

不仅仅是消费环节，生产领域也一样。铁路的基础设施包括轨道扣件、电务线缆等，传统检测方式是人工巡检，效率特别低，经常出现漏检的情况，姜育刚团队基于视觉计算的理论成果，可以成功解决轨道扣件等高铁设施的故障检测难题，已经成功发现并排除了若干重大安全隐患。

而针对大众的计算机视觉技术的应用，‌包括且不限于——‌

人脸识别：‌通过捕捉和分析人脸特征，‌用于身份验证、‌安全监控等。‌

物体识别：‌识别图‌这在自动驾驶、‌智能监控等领域尤为重要。‌

场景理解：‌‌理解图像中的场景和背景，‌对于智能助手、‌智能家居等应用非常关键。

预测诊断：‌在医疗领域，‌视觉AI通过多种数据分析，帮助医生提高疾病的预测、‌诊断和治疗效率；‌

而实现这些功能，就在于‌计算机视觉技术具备这些关键能力——‌

特征提取：‌从图像中提取出有用的特征信息，‌如边缘、‌纹理、‌颜色等。‌

模式识别：‌通过机器学习和深度学习算法，‌对提取的特征进行分类和识别。‌

图像处理：‌对图像进行预处理，‌如增强、‌滤波等，‌以提高识别的准确性。‌

此外，‌人工智能的“看”的能力不断提升，在越来越“了解”这个丰富多彩的世界的同时，‌帮助人类更高效、‌智能地完成更多工作，可以说，计算机视觉必将成为人类生活不可或缺的强大助手，与人类共同创建一个更加美好和智慧的新世界。

难以想象的可能性，让你看不懂世界

走进一家科技展馆，AI导览机器人向你行“注目礼”；肚子饿了走进无人超市，AI售货员亲切地提醒你是否需要购物袋；不想开车了，叫一辆无人车，让“老司机”载你出行……AI正在为我们打开一个新“视”界。随着算法的改进、硬件的升级、以及5G与物联网技术带来的高速网络与海量数据，计算机视觉技术似乎也有着无穷的想象空间。

AI的未来将是什么模样？从美国《福布斯》双周刊网站的报道中，我们可以看到IA当前发展的几个趋势——

生成式AI开辟新天地

AI系统将能撰写复杂的叙事文章，编排交响乐，并有可能与人合著畅销书。该领域一个关键性的技术是多模态生成式AI，此类系统能处理文本、声音、旋律和视觉信号等各种输入信息，并将其融合起来进行综合理解。

想象一下，AI一听到描述性语音，就能迅速起草一篇内容丰富而全面的文章，画出一幅画，为其配上合适的背景音乐，并能用多种口音和语言讲述出来。人类技术结晶与AI作品之间的界限变得模糊起来。

正式成为人类“左膀右臂”

外科医生在AI诊断结果的辅助下进行手术；律师在庭审过程中可得到AI提供的参考案例；软件开发人员在写代码时得到AI的同步帮助；随着远程办公和在线教育激增，AI将彻底改变课程设计并优化虚拟教育团队.....我们已经看到，人类正在迈入与AI协同发挥作用的时代。

AI道德将被优先考量

AI前所未有的发展态势和在各个领域的长驱直入，不仅令科技爱好者痴迷，也引发全球决策者的密切关注。因为的AI“野蛮生长”，必然将对民众造成影响。因而 AI研发领域的道德考量将被置于优先位置。这方面，包括欧美在内的主要经济体已经开始设法制定比较全面的AI政策。例如，欧洲议会打算在2024年就欧盟的《AI法案》文本达成协议。2023年10月30日，美国总统拜登签署了美国首份关于AI的行政命令。这些政策将就全球制定AI基准和规范展开合作的愿望得以实现。

量子计算为AI插上翅膀

量子计算已经来到AI研究的前沿。利用量子计算机的特殊性质，如量子叠加和量子纠缠，AI加速机器学习和优化算法，以实现更高效、更准确的AI应用。这将成为AI领域的未来发展的重要方向。

曾经,人类用眼睛“记录”了波澜壮阔的历史，未来，AI真的能够能够像人类一样去“观察”世界吗？

从目前来看，即便人类已经创造了许多在单个项目上超越自身的高级AI，但是机器仍然能力有限，还无法成为人类的替代品，无法像人一样去观察与思考，有自我意识的AI还不会很快出现，目前看来，AI很难真正像人一样去“看”世界万物。‌

但是人工智能视觉却能够超越人眼的功能，难以想象的可能性让未来变得不可预测，比如——‌

‌人工视网膜等仿生眼技术，其部分性能，‌如极限视觉距离、‌显微视觉能力、‌红外观测能力等，‌甚至可以远远超过人眼；‌

复刻人类视网膜的人工智能设备，‌能够感知的波长范围更广，可‌提供更精确的视觉识别能力；‌

‌机器视觉的处理速度可以超过人眼，如果在智能和感知能力上取得进一步的突破，AI之眼的能力将大大超过人类。

机器与人，人眼与计算机视觉，鸡生蛋后蛋化鸡，灿烂与迷途，都必将展现！

原创稿件由博简科学融媒平台发布

博简科学是一家广泛链接科研机构、应用产业、创新基地的集成式研究机构，融媒平台专注于科学研究和技术应用发展的纵横梳理与深度挖掘，致力于探索科学发展的前沿动态和产业场景。研究方向包括新能源、人工智能、量子计算、生物工程、环境工程等多业态现状及前瞻，并提供新质生产力创新主体的多维度专家解决方案。

博简科学融媒平台竭诚与科研机构、创新平台、专家学者、新质生产力企业主体精诚合作，共同绘就21世纪创新中国的宏伟蓝图。欢迎提供线索、研生话题、资源嵌入、网联博简。关注“博简科学”公众号，即通专员。

玩酷网

博简科学：机器如何“看“世界？计算机视觉让AI插上想象力翅膀

博简科学