谷歌最新量子芯片突破,比特币要危险了,这项技术即将蝶变!

董希水 2024-12-11 21:30:40

作者:姚远刚 潘晓俊

12月10日,谷歌在官网发布了量子计算的最新进展,其最新量子芯片Willow在不到5分钟内就完成了一个基准测试任务,而即使是如今最快的超级计算机,也需要花费“10的25次方”年的时间才能完成这项计算,这个数字远超宇宙年龄。谷歌CEO桑达尔·皮查伊(Sundar Pichai)把量子计算的突破比作“莱特兄弟的首飞”。

传统计算机每个晶体管只能处于0或1两种状态,但作为量子计算机中的计算单位,一个量子比特可存在多种状态,这可以加速某些类型的计算应用。量子计算在人工智能、物流规划、化学模拟和加密等应用领域有望改变“游戏规则”。

任何新技术的产生都是人类文明的重大突破,但是对于俗人来说最关心的就是钱,目前新技术代表的巨大财富就是虚拟货币,直接一点说就是比特币为首的虚拟货币(现在比特币都10万美金一枚了!),量子计算机能不能破解经典比特币哈希函数SHA-256算法是比起马斯克政府星辰大海打造银河系星舰战队让人更直接、更兴奋的话题,我这里用技术的来分析一下,另外给大家介绍一下近期研究的音频驱动嘴型的视频生成这一最常见的技术的底层数学模型。科技除了星辰大海、还有家财万贯,更有生活中AI虚拟技术技术更新的点点滴滴。

比特币的大危机

破解比特币网络的256位椭圆曲线加密算法,需要量子计算机至少拥有3.17亿个量子位,而当今最先进的IBM的超导量子计算机,也仅仅只有127个量子位。即使量子计算机的量子位数或性能以摩尔定律增长,十年内也难以撼动比特币。此次新量子芯片Willow拥有105个“量子比特”的重大技术突破是可以成倍减少错误,量子比特运行速度虽快,却也容易出错,即使是来自外层空间事件的微小次原子粒子,都有可能干扰其运作。当越来越多的量子比特被封装到芯片上时,错误累积起来就会使芯片的性能远逊于传统计算机芯片。所以目前的100多距离理论上的3.17亿有着10年的差距。但是如果没有量子计算机,这个破解时间在原来的计算机世界里时间代表着无穷大!10年和无穷大的对比,结果显而易见,更核心的是量子计算机是不是还会遵循摩尔定律发展?还是一旦稳定破解第一个应用后不再按照经典的摩尔定律发展,可能这个10年就会有一次无限量的减少!即使不能破解,量子计算机一旦成熟商业化后,第一个商业应用可以就是比特币的挖矿,目前的显卡算力在量子计算机面前就是小鸡和恐龙的差距,可能还不止。

比特币用量子还可以挖矿,当传统矿工们竞相成为第一个找到标记项目的人的时候,速度就能赢得比赛,因为每个添加的区块只有一个获胜者获得比特币奖励,光速的量子计算比起现在步履蹒跚的0/1芯片计算机简直是超人和街道大妈的竞速。

但需要在特定的条件下进行。尽管网络开采区块的平均时间为入-1=10min,但量子矿工应该等到y0/λ0≈16min才能测量。此时进行测量的原因是,达到测量步骤的低概率(20%)被测量产生块的概率增加所抵消。这种效应是由量子矿工的成功概率相对于所应用的Grover迭代次数的超线性缩放直接引起的。量子比特币挖矿的计算问题包含一个嵌入的时间限制,因为量子矿工会竞相在任何其他矿工之前找到一个区块。此限制会产生对问题参数的稍微不直观的依赖性。这些依赖性在小计算能力的情况下是很明显的。量子搜索的有趣特性是在特定应用的背景下出现的。以单个量子计算机在其他经典网络中挖掘比特币的情况来说明这些属性,假设量子计算机无法主导网络并且不会发生激进的挖矿。对于未来的工作,看看在放宽这些假设时是否可以确定最佳的量子挖矿协议将会很有趣。从数值上验证近似值也很有价值的量子矿工的成功概率在小算力范围内一致。

最后说结论,按照目前的计算发展,比特币社区不使用量子计算维度的技术去考虑升级,未来很短时间内,下一个量子计算技术为核心的X算法的X币将替代比特币,因为失去了信任和共识,虚拟货币真的没有什么了。

AI虚拟技术即将突破

如果说量子计算和比特币距离我们国人都还比较远,那我们说下一个大家都能看懂也能在日常生活中见到的技术,即音频驱动嘴型的视频生成技术,即从给定的音频信号和人脸图像中生成逼真的说话视频,这一直是计算机视觉和多媒体领域的研究热点。这一技术不仅有助于视频编辑和动画制作,还在虚拟助手、视频通话、游戏和电影制作等领域展现出广阔的应用前景。从早期的Auto Encoder,到GAN(生成对抗网络),再到NeRF(神经辐射场)和Diffusion(扩散模型),这些技术不断推动着音频驱动嘴型视频生成方法的发展。我们还是先来整体分析一下算法,这些算法在量子计算机的推动下,就是5分钟内就完成如今最快的超级计算机也需要花费“10的25次方”年的进展,未来模型的训练升级比起现在按照天的计数会变成按照秒级!

Auto Encoder:早期探索

Auto Encoder是一种无监督学习方法,通过编码器将输入数据压缩成低维表示,再通过解码器重构原始数据。尽管Auto Encoder在数据降维和特征提取方面表现出色,但在生成高质量的音频驱动嘴型视频方面,其效果有限。这是因为Auto Encoder通常难以捕捉输入数据的复杂分布,导致生成的图像或视频在细节上不够逼真。

GAN:生成对抗的突破

GAN的出现为音频驱动嘴型视频生成带来了革命性的突破。GAN由生成器和判别器两部分组成,生成器负责生成逼真的数据,而判别器则判断生成的数据是否真实。通过两者之间的对抗训练,GAN能够逐步学习到数据的分布,从而生成高质量的图像和视频。

在音频驱动嘴型视频生成中,GAN模型通常使用音频信号作为输入,通过生成器生成对应的唇部运动图像或视频帧。同时,判别器会判断生成的唇部运动是否与真实音频同步,从而不断优化生成器的性能。例如,WAV2LIP模型就是一种基于GAN的音频驱动嘴型生成工具,它能够根据语音内容调整嘴唇的变化,使得生成的视频人物口型与输入的语音同步。

然而,GAN也存在一些挑战。首先,GAN的训练过程往往不稳定,需要广泛的架构搜索和参数调整才能实现收敛。其次,基于GAN的面部动画方法在提高稳定性时,可能会限制其面部重现的应用,并降低其产生原始头部运动和面部表情的能力。此外,GAN训练还可能导致模式崩溃,即生成器无法生成覆盖数据分布整个支持的样本,而是学习仅生成一些唯一样本的情况。

NeRF:神经辐射场的创新

NeRF是一种基于神经网络的3D场景表示方法,它能够将3D空间中的点映射到其颜色、密度等属性上。在音频驱动嘴型视频生成中,NeRF可以被用来构建说话人的头部模型,从而实现从音频到视频的生成。

AD-NeRF应该是最早的基于NeRF的音频驱动说话人视频生成算法。它使用NeRF作为基础架构,将音频信息融合到输入中,通过MLP网络映射出颜色信息和密度信息。在训练过程中,AD-NeRF引入了姿态的信息,因为人物在说话时会有各种不同的动作。通过分割网络预测头部姿态和背景图像,AD-NeRF能够生成具有逼真唇音同步和生动面部表情的说话视频。

NeRF的优势在于其能够学习到一个映射函数,将音频信息、视角信息和3D空间坐标结合起来,从而生成逼真的3D场景。然而,NeRF的计算复杂度较高,需要较长的渲染时间,这限制了其在实时应用中的使用。不过在后续的演进中,一些基于NeRF的算法在计算量上有一定的进步,如SyncTalk等,也许在不远的未来,会有更好的NeRF算法能将计算量压缩到可接受的程度。

Diffusion:扩散模型的崛起

Diffusion模型是一种基于概率的生成模型,它通过逐步去除数据中的噪声来生成逼真的样本。在音频驱动嘴型视频生成中,Diffusion模型可以学习到从音频信号到唇部运动视频的映射关系。

Diffused Heads是一种基于帧的扩散模型,它只需要一个身份帧和一段语音记录就可以生成逼真的视频。该模型使用去噪扩散概率模型,通过变分方法而不是对抗性训练来生成视频。为了消除序列看起来不自然的问题,Diffused Heads引入了指导视频创建的运动帧,并保持语音和生成的帧之间的一致性。通过定义额外的唇形同步损失(lip sync loss),该模型能够更加关注嘴部区域,从而生成更加逼真的唇部运动。

与GAN相比,Diffusion模型在训练过程中更加稳定,且不需要广泛的架构搜索和参数调整。此外,Diffusion模型能够生成更加多样化的样本,避免了模式崩溃的问题。然而,Diffusion模型的生成时间较长,需要逐步去除数据中的噪声,这限制了其在实时应用中的使用。

综合比较与展望

从Auto Encoder到GAN,再到NeRF和Diffusion,音频驱动嘴型视频生成方法经历了从简单到复杂、从不稳定到稳定、从低质量到高质量的演变过程。每种方法都有其独特的优势和局限性。未来,音频驱动嘴型视频生成方法的研究将朝着更加高效、稳定、逼真的方向发展。一方面,可以探索更加高效的神经网络架构和训练算法,以提高生成速度和稳定性。另一方面,可以引入更多的先验知识和约束条件,以生成更加自然和逼真的唇部运动和面部表情。此外,还可以结合其他技术,如语音识别、人脸检测和跟踪等,以实现更加智能化的音频驱动嘴型视频生成系统。最核心的是量子计算的引入,这些算法技术将按照秒级去被训练和验证。

大家看到最后发现了吧,本来这篇就是分析音频驱动嘴型视频生成算法研究的,这的确也是一个充满挑战和机遇的领域。但是蹭了量子计算的热点,我们也相信随着技术的不断进步和创新,未来不仅是音频驱动嘴型视频生成系统将更加高效、稳定、逼真,为人们的生活和工作带来更多的便利和乐趣,整个人类生活都会发生奇点式的颠覆!(本文为作者观点,不代表本头条号立场)

0 阅读:0

董希水

简介:感谢大家的关注