
1. 计算机视觉1.1. 在人的六感之中,视觉是最重要的1.1.1. 人类只要看上一眼视频,就能瞬间在脑海中抓取并消化内容和信息1.1.2. 人类能够对事物进行广义的理解和抽象的认知,即使同一物体在不同的角度、光线、距离下存在视觉上的差异,甚至有时会被其他物体遮挡住,人类也能通过推理产生相应的视觉认知1.1.3. 在“看”的时候,调用了许多过去积累的有关这个世界的知识,包括透视现象、几何学、常识,以及之前看过、学过的所有东西1.2. Computer Vision,CV1.2.1. 目前的计算机视觉技术已经具备了实时处理能力1.3. 计算机视觉是AI的一个主要分支,它的目标是教会电脑“看懂”世界1.3.1. 主要研究如何让计算机拥有“看”的能力1.3.2. “看”不仅意味着看到并捕捉一段视频或图片,而且意味着能够分析并理解图像序列的内容和含义1.4. 自深度学习发明以来,我们在计算机视觉领域所取得的种种突破,一方面使得AI感知技术达到了空前的水平,另一方面也引起了世人对AI的重视1.5. 避免走入所有视觉影像都真假难分的死胡同1.5.1. 真理与早晨随着时间的流逝变得光明1.5.1.1. 非洲谚语1.6. 功能1.6.1. 图像采集和处理1.6.1.1. 使用摄像头及其他类型的传感器采集真实世界中的三维场景,将其转化为视频1.6.1.2. 每段视频就是一系列的图像,而每个图像都是一个二维矩阵,矩阵里的每个点都代表人所能看到的颜色1.6.1.3. 点也就是所谓的“像素”1.6.2. 目标检测和图像分割1.6.2.1. 把图像划分为若干个不同区域和物体1.6.3. 目标识别1.6.3.1. 对物体进行识别,并在此基础上掌握更多的细节特征1.6.4. 目标追踪1.6.4.1. 在视频中定位和跟踪物体1.6.5. 动作识别1.6.5.1. 对动作和手势进行识别1.6.6. 场景理解1.6.6.1. 对一个完整的场景进行分析并理解,掌握其中复杂而微妙的关系1.7. 应用1.7.1. 化身汽车上的“助理驾驶员”,监测人类驾驶员是否疲劳驾驶1.7.2. 进驻无人超市(如天猫无人超市),通过摄像头自动识别顾客把商品放进购物车的过程1.7.3. 为机场提供安全保障,用于清点人数,识别是否有恐怖分子出没1.7.4. 姿态识别,开发Xbox舞蹈游戏,为用户的动作打分1.7.5. 人脸识别,让用户“刷脸”解锁手机1.7.6. 智能相机,iPhone的人像模式可以识别并提取前景中的人物,巧妙地让背景虚化,效果堪比单反相机1.7.7. 应用于军事领域,将敌方士兵与平民区分开,或打造无人机和自动驾驶汽车1.7.8. 对照片和视频进行智能编辑,在计算机视觉技术的支持下,可以实现优化抠图、去红眼、美化自拍等功能1.7.9. 医学图像分析,比如检查判断肺部CT中是否有恶性肿瘤1.7.10. ⑩内容过滤,监测社交媒体上是否出现色情、暴力等内容1.7.11. ⑾根据一段视频内容搭配相关广告1.7.12. ⑿实现智能图像搜索,根据关键字或图像线索查找目标图像1.7.13. ⒀实现换脸术,把原视频中A的脸替换为B的脸2. 卷积神经网络2.1. CNN2.2. 在20世纪80年代首次提出了“卷积神经网络”这个概念2.2.1. 当时并没有足够的数据和算力让卷积神经网络发挥应有的作用2.3. 直到2012年前后,人们才清楚地意识到这项技术有潜力击败所有传统的计算机视觉技术2.3.1. 在2012年前后,人们用开始流行起来的智能手机拍摄了海量的图像及视频,然后把它们分享到社交网络上,深度神经网络的训练才有了充足的数据2.3.2. 高速计算机和大容量存储设备的价格大幅下降,为计算机视觉技术提供了算力支持2.3.3. 这些要素汇合到一起,共同促进了计算机视觉技术的发展和成熟2.4. 基于标准神经网络的深度学习并非易事2.4.1. 卷积神经网络是为计算机视觉而生的一种改良版深度学习模型架构,而且有不同版本的变体,适用于处理不同类型的图像和视频2.5. 卷积神经网络(CNN)就是受人类视觉工作机制的启发而产生的2.5.1. 每个卷积神经网络中都有大量类似于人脑感受野的滤波器2.5.2. 每个滤波器的输出,都是它所检测的特征的置信度2.6. 深度学习的原理,就是通过不断向模型“投喂”大量的图像实现模型的优化,在这个过程中,卷积神经网络的所有滤波器都将自主学会应该提取哪一个特征2.7. 在实际训练中,卷积神经网络将以最大化目标函数为前提,自主决策每一层滤波器会提取哪些特征,也许是条纹、耳朵,但更可能是一些超出人类理解范畴的特征3. 生成式对抗网络3.1. 第一篇有关GAN的论文发表于2014年3.1.1. GAN技术已经被应用于视频、演讲和许多其他形式的内容之中3.2. GAN3.2.1. GAN是由一对互相对抗(博弈)的网络组成的深度学习神经网络3.2.1.1. 经过数百万次这样的“对抗”之后,生成式网络和判别式网络的能力会不断提升,直至最终达到平衡3.2.2. 其中的一个网络名为生成式网络,负责尝试生成一些看起来很真实的东西,例如基于数百万张狗的图片,合成一张虚构的狗的图片3.2.2.1. 生成式网络会根据判别式网络的反馈,重新进行自我训练,努力让损失函数最小化,即缩小真实图片与合成图片之间的差异,朝着下一次能够成功愚弄判别式网络的目标迈进3.2.3. 另一个网络名为判别式网络,它会把生成式网络所合成的狗的图片与真实的狗的图片进行比较,确定生成式网络的输出是真是假3.2.3.1. 判别式网络也会重新进行自我调整,努力让损失函数最大化,希望练就火眼金睛,不被生成式网络蒙骗3.3. 超对抗性生成网络3.3.1. Hyper-Generative Adversarial Network,H-GAN3.4. 更有建设性的工作3.4.1. 让照片中的人物变年轻或者变老3.4.2. 为黑白电影及照片上色3.4.3. 让静态的画作(如《蒙娜丽莎》)动起来3.4.4. 提高分辨率3.4.5. 检测青光眼3.4.6. 预测气候变化带来的影响3.4.7. 发现新药3.5. 不能把GAN和Deepfake画上等号,因为这项技术的积极影响将远远超过其负面影响,绝大多数新出现的突破性技术也都是如此4. Deepfake4.1. 一切都关乎成本,无论是造假还是打假4.1.1. 如果不考虑所耗费的时间与算力资源,理论上,任何人都可以伪造出完美的图像或视频,可以骗过所有的防伪检测器,直到对方训练出下一个更强大的版本4.1.2. 这是一场永无休止的矛与盾之战,因此聪明的策略就变得尤其重要4.2. 深度伪造4.2.1. 难题是,如何让假的变得更假4.3. 深度伪造(Deepfake)攻守双方的拉锯战就将演变成一场军备竞赛——拥有更多算力的一方会获得最终的胜利4.3.1. 发达国家在大约10年内就能部署昂贵的计算机来防御Deepfake,也有足够好的复杂工具和AI专家来进行防御,进而率先实施相关的反Deepfake法案4.4. 伪造者和鉴别者之间高精尖版“猫抓老鼠”的博弈史无前例地上演着4.4.1. 利用技术手段欺骗人类视觉4.4.2. 如果AI不仅可以看见、识别物体,还能对其加以理解及合成,那么就可以巧妙利用这些能力,创造出让人们无法分辨真伪的图像和视频4.4.3. 人们再也无法单纯依靠肉眼来辨别一段视频究竟是实地拍摄的,还是利用技术手段伪造的4.4.4. 一旦知道了渔网是如何织成的,也就知道了如何利用纵横交错的网线中间的空隙4.4.4.1. 无论空间多么狭小,漏网之鱼都能找到机会4.5. DeepMask模型4.5.1. 算法“面具”应用在任何以阿玛卡或那位富家小姐为主角的视频上,便可以实现肉眼无法分辨的换脸效果4.5.2. 如果网速足够快,还可以实时换脸,乐趣更多,但也需要付出更多的额外劳动4.5.3. 用TransVoice和Lipsync开源工具包合成语音和与之相匹配的嘴唇动作,替换视频中相应的部分4.6. 用在有益的方面4.6.1. 给医疗AI的训练数据集换脸以保护隐私,同时保留患者的面部病征4.6.2. 给老旧的黑白影片上色、提高分辨率,甚至修改演员嘴形以配合不同的语言4.6.3. 通过图像快速评估水果和农产品质量4.6.4. 拍一部真正的电影4.7. 在我们的世界里,未来的所有数字信息都有被伪造的可能4.7.1. 通过制造谎言来消除谎言4.7.2. 无论是线上的视频、录音,还是安保摄像头拍摄的画面,甚至法庭上的视频证据,都有可能是假的4.7.3. 除了伪造传播性极广的谣言或假新闻,Deepfake还可能被有心之人用于伪造证据、敲诈勒索、骚扰、诽谤,更严重的还会操纵选举4.8. 目前大多数Deepfake视频都可以被算法检测到,有时甚至用人眼就可以辨别出来,原因在于,这些视频在制作时使用的算法还不够完善,而且没有足够的算力做支撑4.8.1. 为了以AI制AI,Facebook和谷歌都曾发起过Deepfake视频鉴别挑战赛4.8.2. 严苛的防伪检测器消耗的算力非常大,如果一个网站每天都会收到数百万段用户上传的视频,那么防伪检测器的有效性就将大打折扣4.8.3. 长远来看,阻止Deepfake的最大难点其实在于GAN的内在机制——生成式网络和判别式网络会在一次次“博弈”之后携手升级4.9. 针对Deepfake视频的防伪软件将成为类似于杀毒软件的存在5. 防伪检测5.1. 过于严苛的防伪检测器设置会消耗大量算力成本,同时让视频加载速度变得缓慢,影响用户体验5.2. 政府网站和官方新闻网站数据流量有限,其防伪检测器会采用最高级别的设置5.2.1. 会设置强度最高的防伪检测器,以甄别网站上是否有由强大算力训练而成的GAN生成的高质量伪造视频5.3. 一般的社交网站和视频平台,则会针对当下最流行的伪造算法进行精确打击,其防伪级别会根据内容传播的数据量动态调整,数据量越大,检测越严苛5.4. 防伪检测器的所有检测,包括色彩失真、噪点模式、压缩率变化、眨眼频率、生物信号等5.5. VIP检测器5.5.1. 针对的正是那些流量最大的意见领袖5.5.1.1. 政要、官员、明星、运动员、知名作家等5.5.2. 为了防止这些赛博空间里的超级节点遭到仿冒,对现实秩序造成巨大破坏,网站不得不采用融合了多种信号的检测器算法5.5.3. 算法包括但不局限于超高分辨率的面部识别,结合传感器和人体工程学的步态识别、手/指几何学识别和体态识别,涉及语音、语义及情感计算的说者识别,从真实视频中采集生物信号进行脉搏识别,等等5.5.4. 所有这些数据均来自真实的名人,交给H-GAN进行深度学习,在不断与伪造者升级对抗后得到近乎完美的模型,再融入一个更大的监测系统以发挥作用5.5.5. VIP检测器甚至会将一个人的病史档案作为数据参照,前提是这个人足够重要5.6. 检测准确率能够达到100%的防伪检测器5.6.1. 这在未来并非无法实现,只不过可能需要采用一种完全不同的检测方法5.6.1.1. 每台设备在捕捉视频或照片时,就对每段视频和每张照片进行认证,用区块链保证它是原版的,绝对没有经过篡改5.6.1.2. 每个网站在用户上传内容时,只要确认该内容是原版的,就不存在伪造的可能了5.6.1.3. 这种方法落地的前提之一是,让所有电子设备都部署上区块链技术(就像如今的AV播放器全部带有杜比音效)5.7. 需要出台相应的法律,对恶意制造Deepfake的人采取严厉的处罚措施,以威慑潜在的犯罪者6. 三维建模6.1. 这种方法与3D动画片《玩具总动员》的制作过程类似6.2. 属于计算机科学分支之一——计算机图形学的研究范畴,这是一门使用数学算法对一切事物进行建模的学科,哪怕是像头发、微风、阳光、阴影一样细微的事物,也要有相应的数学模型6.3. 三维建模方法的优点在于,人们的创作自由度较高,可以随心所欲地创建各种物体,并操纵这个物体去做各种事情6.4. 这种方法的缺点是计算复杂程度更高,对算力的要求也更大7. 生物特征识别7.1. 主要用于实时的身份鉴定7.2. 实时的身份鉴定可以更精确,因为可以用到摄像头之外的传感器,比如可以实时捕捉虹膜和指纹的传感器7.2.1. 这两种数据都是独一无二的,非常适合用于身份鉴定7.2.2. 虹膜识别是被大众认可的最为精准的生物特征识别方法7.2.2.1. 虹膜识别是在红外线的照射下捕捉并记录一个人的虹膜信息,然后将其与预先存储的虹膜特征进行比对7.2.3. 指纹识别的准确率也非常高7.2.4. 虹膜识别和指纹识别都离不开特定的近场传感器装置的辅助与配合7.3. 在识别及鉴定任何单一维度的生物特征(例如人脸识别或语者声音识别)方面,AI的准确率已经超过了人类的平均水平7.4. 在综合考量多维度生物特征的情况下,AI的识别准确度已经趋于完美7.5. 智能生物特征识别技术将更广泛地应用于刑事调查和取证,可以解决更多的犯罪问题,甚至有助于降低人类的犯罪率8. AI安全8.1. 随着技术的不断进步,任何计算平台都可能出现漏洞及安全隐患8.2. 随着AI的普及,AI本身也将暴露出各种漏洞并遭到各方的攻击,Deepfake反映出的只是其中的一个漏洞而已8.3. 专门设计的对抗性输入是针对AI系统的攻击方法之一8.3.1. 设计了一副新款太阳镜,让AI系统把戴上眼镜的他错认成了女演员米拉·乔沃维奇8.3.2. 在路面上贴了一些贴纸,成功愚弄了特斯拉Model S型车上的自动驾驶系统,让其决定转换车道,直接开向迎面驶来的车辆8.4. 一种攻击AI系统的方法是对数据“下毒”8.4.1. 攻击者通过“污染”训练数据、训练模型或训练过程,来破坏AI系统的学习过程8.4.2. 这可能导致整个AI系统彻底崩溃,或者被犯罪者控制8.4.3. 对数据“下毒”的攻击手段更难被人类察觉8.4.3.1. 模型中的复杂运算全部在成千上万层的神经网络中自主进行,而不是按照确切代码的指引进行的,所以AI系统先天就具有不可解释性,也不容易被“调试”8.5. 加强模型训练及执行环境的安全性,创建自动检查“中毒”迹象的工具,以及开发专门用于防止篡改数据或与其类似的规避手段的技术8.6. 过去通过技术创新攻克了垃圾邮件、电脑病毒等一道道关卡一样8.6.1. 技术创新也能大大提高未来AI技术的安全性,尽量减少给人类带来的困扰8.6.2. 技术创新所带来的问题,最终还是要依靠新的技术创新来进行改善或彻底解决