经常在互联网上冲浪的朋友对于验证码肯定不会陌生,无论是账号登录还是网络购物,如今几乎一切有关身份验证的操作都会有验证码(CAPTCHA)的身影出现。然而不久前来自加州大学欧文分校的研究人员发现,作为全球应用最广的验证码系统谷歌reCAPTCHA不仅毫无作用,而且还成为了一个追踪用户行为和收集数据的机制。
在这篇题为《迷惘与困惑:一项针对reCAPTCHA v2的大规模现实世界用户研究》的论文中,研究团队发现机器人在完成验证码时不仅速度更快,在图像识别的准确率上甚至超越人类。与此同时,reCAPTCHA还会记录用户代理数据和其他身份信息,谷歌方面从收集到的数据中获得的价值更是近8980亿美元。
故而相关研究人员认为,reCAPTCHA v2实际上是伪装成安全服务的追踪工具,建议谷歌应该逐步淘汰这项对于网络安全毫无实质帮助的系统。此外在全球知名CDN服务商Cloudflare的报告中也表达了同样的观点,“人类每天花大约500年的时间来解决验证码——浪费时间并制造挫败感。”
那么用来在互联网上分辨人与机器的验证码技术为何会变得毫无用处?其实是因为这项技术的进步速度已经赶不上人工智能的进化了。验证码或者说CAPTCHA(全自动公共图灵测试)作为一项在本世纪初诞生的技术,是为了对抗当时泛滥的垃圾邮件而生。
彼时由于OCR等提取图像中文字信息的技术尚不成熟,开发者Luis von Ahn利用人类可以用肉识别出在图片中被扭曲过、污染过的文字信息,再加上当时的计算机视觉技术不发达,所以开发了验证码技术。以最早的验证码系统雅虎EZ-Gimpy为例,它实际上就是在字符中加入扭曲的背景来混淆机器的认知。
只可惜随着OCR(光学字符识别)技术的问世,以及计算机在图像识别上的能力升级,初级的字符型验证码也慢慢落伍。特别是在这个世纪的第二个十年,当机器学习技术再上了一个台阶之后,卷积神经网络(CNN)以及生成对抗网络(GAN)在业界的大规模应用,使得即便验证码的变形程度再奇特,计算机使用用图像分割技术也能准确地识别其中的内容。
为了反DDoS、反爬虫、反垃圾邮件等目的,在十余年前互联网厂商就纷纷升级了验证码技术。然而在这一轮又一轮围绕验证码的攻防中,互联网厂商逐渐“魔怔”,验证码开始变得极为“反人类”,其中的典型就是当初的12306,其验证码不仅难住了机器,甚至就连真正的用户也没放过。
有鉴于此,不少互联网厂商开始改进验证码系统。以此次被相关研究人员攻讦的谷歌ReCAPTCHA v2为例,这个验证码系统显示的待验证内容,就是由谷歌自己的OCR也无法识别的内容构成。其实谷歌的想法不难猜测,毕竟作为业界巨头,既然自己的OCR都无法识别,其他的OCR自然也攻破不了ReCAPTCHA v2。
为了进一步改善用户体验,当用户点击ReCAPTCHA v2的“I’m not a robot”时,就会有部分浏览器数据以及用户浏览行为数据被发送至reCAPTCHA的后端。如果系统难以判断对应的用户数据或直接被判断为有风险用户,就会弹出九宫格图片进一步验证,要求用户在其中里准确的选到红绿灯、路牌、公交车、消防栓等元素。
问题就出在这里,谷歌ReCAPTCHA v2实际上会跟踪和收集用户数据,而且九宫格图片验证更是“白嫖”用户的劳动力,让用户当自己的数据标注工。没错,在这一轮AI大模型浪潮中大放异彩的“语料”,其实就是完成标注的数据,而这一工作是纯粹的劳动密集型,并且它一点也不复杂,比如给定一张图片,让你标出图片中的行人、车辆、建筑等。
可是如果要购买被标注好的数据,谷歌是要花大价钱向Scale AI等公司购买的,要不然后者的估值也到不了138亿美元之巨。加州大学欧文分校的研究团队就在上述论文中指出,全球用户总共浪费了超过8亿小时在完成验证码上,按工资计算价值61亿美元。
简而言之,ReCAPTCHA v2是既要用户的行为数据来服务谷歌的广告业务,也要借用户之手服务其AI业务,所以既要、又要就是ReCAPTCHA v2的“原罪”。那么问题来了,ReCAPTCHA v2成为了毒瘤,它的后继者ReCAPTCHA v3又是否有价值呢?答案也是否定的。
ReCAPTCHA v3属于最新的行为验证型验证码,直接抛弃了有界面和交互的验证码形式,变成了“无感验证”,只要求用户点击“I’m not a robot”旁边的复选框。ReCAPTCHA v3实际上是基于人类使用鼠标的方式与机器不同,比如人类拖动鼠标通常是先快后慢,即先快速定位、再在复选框附近进行微调,而机器操作鼠标则是匀速拖动。
遗憾的是,AI大模型彻底终结了围绕验证码展开的攻防。加州大学艾尔文分校的研究人员就发现,无论是游戏式、点击式、扭曲文字式等不同类型的验证码,当下AI验证reCAPTCHA系统的准确度已经比人类还高,并且准确率几乎都在85%以上。而根据互联网厂商的惯例,如果机器成功解答验证码的比率高于1%,那么这个验证码系统就会被认为失灵。
AI大模型的魅力,就在于利用强化学习技术获得了无与伦比的进化能力,再加上视觉大模型的辅助,如今验证码技术在AI面前可谓是纸糊的。如此一来,现阶段验证码技术就变得很尴尬了,也失去判断哪些访问是来自人类、哪些是来自机器的能力,而且还反过来成为了相关互联网厂商获取用户信息,乃至利用用户的武器。
一个原本是用来对付机器的工具,现在却调转枪口被用来对付人类,这就是谷歌的reCAPTCHA被批评的关键。