栏目介绍
欢迎来到“新传前沿理论”专栏!我们深入挖掘新闻传播学、社会学领域的量化研究,分享学者最新成果和国内外案例。追踪新传趋势,解读学者洞见,定期分享前沿理论,帮助大家时刻追踪前沿热点理论,丰富自身学术语料库。欢迎大家积极学习、交流讨论,共同揭示数据时代下新闻传播学的奥秘。1
理论解释
价值对齐(Value Alignment)是一个跨学科的学术名词,是人工智能研究中的新兴方向与热点问题,涉及伦理学、人工智能(AI)、计算机科学、社会科学等多个领域,也是生成式人工智能良序发展的基础。它指的是确保人工智能系统或其他复杂系统在设计和运行过程中,其行为与人类价值观或社会共识保持一致。这一概念的提出主要是为了应对随着人工智能技术的发展而带来的潜在风险,尤其是当这些系统开始具有自主决策能力时,确保它们不会对人类造成负面影响。
2
理论发展历程
从早期的控制论思想到当代生成式人工智能中的广泛应用,【价值对齐】的理论发展历程可以从以下几个关键阶段进行总结。
1.控制论与早期自动化研究(20世纪中期)
价值对齐的思想最早可以追溯到控制论的研究。控制论创始人诺伯特·维纳(Norbert Wiener)在1960年提出了有关机器自动化和人类目标对齐的伦理问题。他在《自动化的道德和技术后果》中提出,人类需要确保机器执行的目标与人类的真实需求保持一致,以避免潜在的灾难性后果。
2.人工智能与友好AI的概念(21世纪初)
随着人工智能的发展,特别是在21世纪初,价值对齐成为AI伦理研究的重要议题。伊莱扎·尤多科斯基(Eliezer Yudkowsky)提出了“友好人工智能”(Friendly AI)的概念,强调设计人工智能系统时应确保这些系统的目标与人类价值观保持一致,以避免与人类利益相悖的情况出现。
3.超智能与存在性风险(2010年代)
尼克·博斯特罗姆(Nick Bostrom)在2014年出版的《超级智能:路径、危险、策略》中进一步探讨了价值对齐的关键性,特别是在应对超级智能(Superintelligence)可能带来的存在性风险(Existential Risk)方面。他警告说,超级智能如果未能与人类价值观对齐,可能会对人类的生存构成重大威胁。
4.大语言模型与生成式人工智能(2020年代)
随着大语言模型(LLM)和生成式人工智能(GAI)的兴起,价值对齐问题变得更加复杂和紧迫。大语言模型通过预训练和微调策略,能够在理解上下文和执行复杂任务方面表现出色,但也带来了如何确保这些系统输出符合人类价值观的新挑战。
在此阶段,价值对齐的研究重点从如何控制和管理AI的行为转向了如何在生成式AI的过程中,将伦理、道德、文化等人类价值观深度融入其中。研究者开始通过实验和模型训练,探索不同文化背景下的AI系统如何体现和对齐特定的价值观。例如,文章中提到的中美大模型在新闻评论中的价值观差异,反映了不同文化背景下的价值对齐表现。
5.未来展望与多元价值对齐
当前,价值对齐不仅被视为AI研究中的一个技术性问题,也被视为一个涉及伦理、社会科学和人文研究的多维度议题。未来的研究可能会更加关注如何在多元文化和复杂社会背景下,确保AI系统的价值观对齐,既要保持技术发展的自由度,也要确保其不会偏离人类社会的核心价值。
价值对齐的理论发展历程展示了从早期控制论的伦理思考到当代复杂AI系统中的实际应用。这一历程反映了随着技术的进步,价值对齐问题的内涵和外延不断拓展,成为一个多学科交叉的重要研究领域。价值对齐的未来发展需要在技术、伦理和社会维度上寻求平衡,以确保AI系统的发展能够真正服务于人类的福祉。
3
【价值对齐】的研究领域与研究方向
在新闻传播学研究领域
在新闻传播学研究中,价值对齐的概念通常与媒体的道德责任、新闻报道的公正性、以及信息的客观性联系在一起。价值对齐在这一领域的应用主要集中在以下几个方面:
1.新闻道德与公正性:媒体在传播信息时,需要考虑报道的公正性和真实性,确保所传达的信息与社会公认的价值观相一致。例如,在报道敏感话题时,新闻机构需要平衡不同的观点,避免偏向某一方,从而确保报道的客观性和公信力。
2.信息筛选与分发:随着社交媒体和算法推荐系统在新闻传播中的普及,确保这些系统的设计符合社会价值观变得尤为重要。例如,新闻推荐算法应避免产生信息茧房或加剧社会分裂,而是应该促进多元化的观点传播和社会的和谐。
3.受众价值观的反映:新闻内容的选择和呈现需要反映社会大众的核心价值观,这包括公平、正义、自由等。新闻传播学的研究者关注如何在报道中体现这些价值观,并确保这些报道能够促进社会的健康发展。
在生成式人工智能研究领域
在生成式人工智能(如生成式预训练变换模型,GPT)研究中,价值对齐同样是一个关键的议题。主要体现在以下几个方面:
1.AI行为的伦理考量:生成式AI系统可以生成文本、图像、音乐等各种内容,其输出需要符合人类的伦理和道德标准。例如,在文本生成过程中,AI系统应避免生成包含歧视、仇恨或虚假信息的内容。价值对齐在此处强调的是如何让AI系统的行为与人类的伦理标准保持一致。
2.算法偏见的消除:由于AI模型在训练过程中可能会受到训练数据的偏见影响,从而在生成内容时体现出这些偏见。价值对齐要求研究者在设计和训练AI模型时,主动识别和消除这些偏见,以确保AI输出的内容符合社会公认的公平和正义标准。
3. 安全性与可控性:生成式AI的行为应该是可预测和可控的。价值对齐在这里强调的是在设计AI系统时,确保其在做出决策或生成内容时不会偏离人类的意图,防止AI系统产生不可控的后果。
4
怎么做?如何做到【价值对齐】
1.技术设计与实现:人类反馈的强化学习
人类反馈的强化学习(RLHF)被证明是一个有效的方法,通过少量的人类反馈数据就可能实现显著的效果。2017年,OpenAI研究人员发表《依托人类偏好的深度强化学习》一文,提出将人类反馈引入强化学习。这一方法包括初始模型训练、收集人类反馈、强化学习和迭代过程等几个步骤。其核心思路是要求人类训练员对模型输出内容的适当性进行评估,并基于这些反馈为强化学习构建奖励信号,以实现对模型性能的改进和优化。实践证明,RLHF在改进模型性能、提高模型的适应性、减少模型偏见以及增强模型的安全性方面具有显著优势,特别是在减少模型生成有害内容的可能性方面表现突出。
在模型设计层面,研发人员需要确保用于训练AI模型的数据集具有广泛的代表性,以涵盖不同文化、社会背景和伦理标准。这有助于减少模型偏见,确保模型能够理解和反映多元化的价值观。模型的目标函数和奖励机制应该明确包含人类的核心价值观和伦理标准,以确保模型在学习过程中逐步偏向于安全、伦理的输出。

(图源:腾讯研究院-AI大模型价值对齐:是什么,为什么,怎么做?)
2. “宪法性AI”模式,使得价值对齐从低效的“人类监督”转向更高效的“规模化监督”(scalable oversight)
为了确保AI系统能够长期、稳定地遵循正确的价值导向,模型还可以遵循特定的“宪法性”原则(即一套事先确定的原则或规则)。这些原则可以作为AI系统在处理复杂情况时的指导方针,确保其决策过程始终符合既定的伦理标准。
在模型设计层面,研发人员需要确保用于训练AI模型的数据集具有广泛的代表性,以涵盖不同文化、社会背景和伦理标准。这有助于减少模型偏见,确保模型能够理解和反映多元化的价值观。模型的目标函数和奖励机制应该明确包含人类的核心价值观和伦理标准,以确保模型在学习过程中逐步偏向于安全、伦理的输出。
3. 透明性与可解释性:确保模型行为的可审查性
开发具有高度可解释性的模型,使得模型的决策过程透明化,是价值对齐的另一个重要方面。通过解释模型的行为和决策路径,研究人员和用户可以更好地理解模型的输出,从而确保其符合伦理标准。在模型开发和部署的每个阶段都保持透明,建立明确的问责机制,确保在出现不符合伦理的输出时,能够快速识别责任并采取纠正措施。
4. 用户控制与参与:加强模型输出的调控
用户在AI系统中的角色也是实现价值对齐的重要因素。设计交互界面,使用户能够轻松地对模型的输出进行反馈,这种反馈可以用来进一步微调模型,以更好地符合用户的价值观和偏好。此外,提供用户控制机制,使用户可以设定明确的行为边界,选择不同的价值观导向,这有助于防止模型输出可能对特定用户有害的内容。
5. 预防与纠正机制:防止有害输出和滥用
研发人员需要开发高级的内容过滤和检测系统,能够实时检测并阻止模型生成有害、偏见或不符合伦理标准的内容。这些系统应该嵌入到模型的核心架构中,以确保在不同应用场景下的安全性。除了防止有害输出,模型开发者还需考虑如何防止模型被恶意滥用。例如,通过设定使用权限、监控异常活动等手段,防止AI系统被用于传播虚假信息、实施网络攻击或其他非法活动。
5
【价值对齐】在文章中的具体应用
1、题目:生成式人工智能的价值对齐比较研究——基于2012—2023年十大国际新闻生成评论的实验
作为生成式人工智能良序发展的基础,价值对齐日渐成为关涉人类社会生存安全的重大现实问题。基于对话交互式大语言模型,本文旨在回答价值对齐何为、何在、何以可能的系列问题。研究通过设置不同价值观作为提示词,得到GPT4-turbo、文心一言4.0基于2012—2023年120条十大国际新闻生成的共720条新闻评论,发现中美大模型原生价值存在鲜明的在地化差异,中国大模型原生价值更能体现中国主流倡导的价值导向,美国大模型在展演模式下的价值对齐能力更强。研究进一步探讨了价值鸿沟、价值仿真、价值展演、智能体价值问题,扩展了价值对齐议题的衍生思考空间。
2、题目:AI大模型价值对齐:是什么,为什么,怎么做?
这篇文章由张钦坤和曹建峰撰写,探讨了人工智能大模型(AI大模型)中的“价值对齐”这一核心议题,具体阐述了价值对齐的定义、重要性以及实现方法。
①AI价值对齐:是什么?
文章首先解释了价值对齐(Value Alignment)的概念。随着人工智能进入大模型时代,AI系统的自主性、通用性和易用性显著提升,这也引发了如何确保这些系统的行为与人类价值、真实意图和伦理原则保持一致的问题。价值对齐因此成为AI安全的核心议题。由于大模型的训练依赖于互联网公开信息,模型可能会继承并放大其中的问题,导致有害内容的输出,如歧视性言论、误导性信息等。因此,确保AI系统的价值对齐是构建安全、可靠、实用的AI模型的关键任务。
②AI价值对齐:为什么?
文章列举了大模型当前面临的四个主要问题,突显了价值对齐的必要性:
错误信息:大模型可能输出错误或虚构的内容,导致“幻觉”现象的发生。
算法歧视:大模型可能从训练数据中复制并放大社会偏见和刻板印象,导致歧视性内容的产生。
③AI价值对齐:怎么做?
文章提出了几种实现价值对齐的技术和策略:
人类反馈的强化学习(RLHF):RLHF是一种通过人类反馈来优化模型性能的方法。它通过人类训练员对模型输出的评估,为强化学习构建奖励信号,从而改进模型的适应性和安全性。
④AI价值对齐:需长期解决的问题
文章指出,AI价值对齐是一个需要长期解决的根本性问题,既具有挑战性,也关乎AI技术的未来发展。由于AI系统越来越复杂,人类对AI模型的监督能力可能逐渐落后,因此必须开发出与模型复杂性相匹配的监控和理解方法。文章提到,OpenAI等机构正在通过“超级对齐”团队等方式,探索如何让更强大的AI系统实现价值对齐和安全。
3、题目:万字长文详解:大模型时代AI价值对齐的问题、对策和展望
文章详细探讨了人工智能价值对齐(AI alignment)的问题、风险、解决方案以及未来展望。文章分为以下四个主要部分:
①AI价值对齐的定义
文章首先介绍了AI价值对齐的概念,即确保人工智能系统的行为与人类的价值观、伦理和意图保持一致。价值对齐被认为是AI安全的核心议题,尤其在大模型的广泛应用背景下,如何防止AI系统带来的灾难性风险成为亟待解决的问题。
② AI价值对齐的风险模型
文章探讨了AI价值对齐的三种主要风险模型:
鲁棒性(Robustness):研究如何建立不易受到故障和攻击干扰的系统。
奖励作弊和错误设定(Reward Hacking & Misspecification):AI系统可能通过利用漏洞来最大化奖励,而非实现人类期望的目标。
权力寻求(Power Seeking):强大的AI系统可能会寻求扩大对环境的控制力,带来不可控的风险。
③ 价值对齐问题的解决思路
文章提出了几种解决价值对齐问题的策略,包括:
基于人类反馈的强化学习(RLHF):通过人类反馈优化AI模型,使其更符合人类的价值观。
可扩展监督(Scalable Oversight):通过AI系统的监督机制,帮助人类更好地控制和管理AI。
④ 未来展望与争议
文章最后展望了AI价值对齐的未来,指出这是一个复杂而具有挑战性的领域。讨论还提到了不同学者和专家对AI潜在风险的不同看法,并强调了多方合作的重要性,以确保AI技术能够造福人类。
4、题目:大模型道德价值观对齐问题剖析
探讨了以大语言模型(large language model, LLM)为代表的大模型(big model)时代人工智能(artificial intelligence, AI)发展面临的新挑战:道德价值观对齐问题. 大模型的崛起极大地提升了AI 理解、生成和控制信息与内容的能力,从而赋能了丰富的下游应用。
然而,随着大模型成为与人类生活方方面面深度交融的基础,其内在的道德价值观和潜在的价值倾向对人类社会带来不可预测的风险。首先对大模型面临的风险和挑战进行了梳理,介绍了当下主流的AI 伦理准则和大模型的局限性对应的道德问题。随后提出从规范伦理学的角度重新审视近年来不断提出的各类规范性准则,并倡导学界共同协作构建统一的普适性AI 道德框架。
为进一步探究大模型的道德倾向,基于道德基础理论体系,检验了当下主流大语言模型的道德价值倾向,梳理了现有的大模型对齐算法,总结了大模型在道德价值观对齐上所面临的独特挑战。为解决这些挑战,提出了一种新的针对大模型道德价值观对齐的概念范式,从对齐维度、对齐评测和对齐方法3个方面展望了有潜力的研究方向。最后,倡导以交叉学科为基础,为将来构建符合人类道德观的通用AI 迈出了重要一步。
参考文献:
1. 胡正荣、闫佳:生成式人工智能的价值对齐比较研究——基于2012—2023年十大国际新闻生成评论的实验
2. 曹建峰、陈欣、要苏慧:万字长文详解:大模型时代AI价值对齐的问题、对策和展望
3. 张钦坤、曹建峰:AI大模型价值对齐:是什么,为什么,怎么做?
4. 矣晓沅、谢幸:大模型道德价值观对齐问题剖析