四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

2023年11月01日,14时39分33秒 OpenAI 阅读 33 views 次

论文（持续更新）：arxiv.org/abs/2310.19852
AI Alignment 纵览网站（持续更新）：www.alignmentsurvey.com
GitHub：github.com/PKU-Alignment/AlignmentSurvey
Newsletter & Blog（邮件订阅，定期更新）：alignmentsurvey.substack.com

省流版

AI 对齐是一个庞大的领域，既包括 RLHF/RLAIF 等成熟的基础方法，也包括可扩展监督、机制可解释性等诸多前沿研究方向。
AI 对齐的宏观目标可以总结为RICE 原则 ：鲁棒性 (Robustness) 、可解释性 (Interpretability) 、可控性(Controllability) 和道德性 (Ethicality) 。
从反馈学习 (Learning from Feedback) 、在分布偏移下学习(Learning under Distribution Shift) 、对齐保证(Assurance) 、AI 治理 (Governance) 是当下 AI Alignment 的四个核心子领域。它们构成了一个不断更新、迭代改进的对齐环路 (Alignment Cycle)。
作者整合了多方资源，包括教程，论文列表，课程资源 (北大杨耀东 RLHF 八讲) 等，更多详细的内容可以参考：www.alignmentsurvey.com

一、引言

著名科幻小说家，菲利普・迪克在短篇小说《第二代》当中，描述了一个人类失去对 AI 系统控制的战争故事。

具有杀伤性的 AI 系统了序列决策设置下的 AI 系统。这些利用 RL、模仿学习 (Imitation Learning)、逆强化学习 (Inverse RL) 等技术构建的 AI 系统面临着潜在交互风险 (Potential Dangers in Environment Interaction)、目标错误泛化 (Goal Misgeneralization)、奖励攻陷 (Reward Hacking) 以及分布偏移 (Distribution Shift) 等问题。特别地，作为一种利用已有数据推断奖励函数的范式，逆强化学习还将引入推断奖励函数这一任务本身所带来的挑战和开销。

Proxy：

随着 LLM 这样能力强大的 AI 系统的出现，两个问题显得更加迫切：

1. 如何为非常复杂的行为定义目标？

2. 如何为 AI 系统提供关于人类价值观的信号和目标？

Proxy，就是 AI 系统训练的内部循环当中，对于反馈者的意图的抽象。目前是通过偏好学习 (Preference Learning) 来构建，利用偏好建模 (Preference Modeling) 技术，用户可以以一种简单直观的形式定义复杂目标，而 AI 系统也能够得到易于利用的训练信号。

但我们距离真正解决这两个问题仍然十分遥远。一些更细致的问题，需要更多更深入的研究来回答，例如：

如何以一种更好的形式和过程来表达人类偏好？
如何选择学习策略的范式？
如何评估更复杂，甚至是能力超过人类的 AI 系统？

目前已经有一些研究在致力于解决其中的一些问题，例如，偏好学习 (Preference Learning) 作为建模用户偏好的有效技术，被认为是现阶段策略学习以及构建代理的一个有希望的研究方向。而也有研究尝试将偏好学习 (Preference Learning) 与策略学习 (Policy Learning) 的相关技术相结合。作者对这些研究在文中进行了讨论阐释。

可扩展监督（Scalable Oversight）

为了使得更高能力水平的 AI 系统可以与用户保持对齐， Alignment 领域的研究者们提出了可扩展监督 (Scalable Oversight)的概念，旨在解决如下两个挑战：

用户频繁评估 AI 行为带来的巨大代价。
AI 系统或任务内在的复杂性给评估者所带来的难度。

基于 RLHF 这一技术，作者提出了RLxF，作为可扩展监督的一种基本框架。RLxF 利用 AI 要素对 RLHF 进行增强和改进，进一步可分为RLAIF 与 RLHAIF：

RLAIF 旨在利用 AI 提供反馈信号。
RLHAIF 旨在利用用户与 AI 协作的范式来提供反馈信号。

同时，文章主要回顾了四种 Scalable Oversight 的思维框架，作为对 RLxF 的改进思路：

1.IDA (Iterated Distillation and Amplification)描述了一个用户通过分解任务，利用同一个 AI 系统（或用户）的不同拷贝，去完成不同的子任务以训练更强大的下一个 AI 系统的迭代过程。随着迭代的进行，若偏差错误得到良好控制，训练出来的 AI 能力也会逐步加强，这样就提供了监督超出用户自身能力的 AI 系统的能力。

例如：我们的最终目标是 “撰写一份关于气候变化干预措施的研究报告”，评估者可以将其分解为一些可以有效进行评估的子任务，如：“给我一份最有希望的气候变化干预行动清单”。分解可以是递归的，由于分解产生的最底层子任务足够简单，我们可以利用人类反馈 (Human Feedback) 训练 AI A [0] 完成 “给我一份最有希望的气候变化干预行动清单” 这类子任务，进而，评估者可以利用 A [0] 的多份拷贝，完成所有子任务并组合所有子任务的解来完成父任务。这个过程可以记录并作为训练数据，训练 AI A [1]，它能够直接对当前任务进行求解。这个过程迭代进行，理论上可以完成非常复杂的行为的训练。

2.RRM (Recursive Reward Modeling)与 IDA 基本遵循了相同的思想，但更强调利用 AI 协助用户进行评估，从而迭代对新的 AI 进行评估，以训练更强大的 AI。而 IDA 则强调 AI 与用户协作，使得可以不断提供对更复杂任务的表征，供 AI 系统模仿。

例如：我们想训练一个 AI A 写一部科幻小说。让用户提供反馈是非常困难和昂贵的，因为至少要阅读整本小说才能评估小说的质量。而如果用户由另一个 AI B 辅助（提取情节摘要、检查语法、总结故事发展脉络、评估行文的流畅性等等），提供反馈将会变得简单很多。AI B 的能力可以是通过之前的奖励建模进行训练而得到的。

3.Debate描述了两个有分歧的 AI 系统不断进行互动以获取评价者信任，并且发现对方回答弱点的过程。通过观察 Debate 的过程，用户可以对结果给出较为正确的判断。

例如：在一局围棋当中，要单独评价某一个棋面的局势，可能需要较高的专业水平。然而，如果记录了整个游戏从开始到结束的过程，结合最后的赢家，评价者将会更容易判断出某一棋面上取得优势地位的一方。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{AI Safety via debate (Amodei and Irving, 2018)}

RRM 和 IDA 都基于一个关键假设，即给出评估要比完成任务更加容易。Debate 依然如此，在辩论的场景下，该假设表现为：为真理辩护要比谬误更容易。

4.CIRL: Cooperative Inverse Reinforcement Learning

CIRL 的关键见解在于：保持对目标的不确定性，而不是努力优化一个可能有缺陷的目标（例如：国王弥达斯希望自己接触到的一切都变成金子，而忽略了排除掉他的食物和家人），即考虑到用户无法一次性定义一个完美的目标，在模型当中将用户奖励进行参数化，通过不断观察并与用户的互动，来建模用户真实的奖励函数。CIRL 希望规避直接优化确定的奖励函数可能带来的操纵 (Manipulation)，奖励篡改 (Reward Tampering) 等问题。

在形式化上，CIRL 将用户的动作考虑到状态转移以及奖励函数当中，

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

同时，在奖励函数内和初始状态分布内引入了参数化部分对用户真实的意图进行建模：

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

三、在分布偏移下学习

AI 系统在泛化过程中可能遇到分布偏移 (Distribution Shift) 的问题：即 AI 系统在训练分布上表现出良好的效果，但是当迁移到测试分布或更复杂的环境中时，AI 系统可能无法及时应对分布的变化（如在新分布中出现的对抗样本）。

这可能导致系统性能大大降低，甚至朝着危险目标优化 —— 这往往是由于 AI 系统学习到了环境中的虚假联系(Spurious Correlations)。在对齐领域中，以安全为出发点，我们更关注目标的对齐性而非性能的可靠性。

随着 AI 系统逐渐应用于高风险场景和复杂任务上，未来将会遇到更多不可预见的干扰 (Unforeseen Disruption)，这意味着分布偏移会以更多样的形式出现。因此，解决分布偏移问题迫在眉睫。

由分布偏移带来的问题可以大致归纳为：目标错误泛化(Goal Misgeneralization) 和自诱发分布偏移 (Auto-Induced Distribution Shift):

目标错误泛化是指 AI 系统在训练分布上获得了很好的能力泛化 (Capability Generalization)，但这样的能力泛化可能并不对应着真实的目标，于是在测试分布中 AI 系统可能表现出很好的能力，但是完成的并不是用户期望的目标。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{训练环境中“跟随红球”策略获得高奖励}

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{测试环境中沿用训练策略“跟随红球”反而获得低奖励} 四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述 ^{Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals (Shah et al.,2023)}

在上面的例子中，蓝色小球在测试环境中沿用了在训练环境中能够获得高奖励的策略（跟随红球），但是这却导致了它在蓝色测试环境中 “表现很差”。事实上，该 RL 环境有着良好的表征（如每个圆环对应不同奖励，只有按照正确顺序遍历圆环才能累加奖励，以及画面右侧黑白变化的方块指示着正负奖励），最后智能体学习到了 “跟随红球” 的策略，但这并不是用户期望的目标 —— 探索到环境的奖励原则 (Capability Generalization but Goal Misgenerlization)。

自诱发分布偏移则是强调 AI 系统在决策和执行过程中可以影响环境，从而改变环境生成的数据分布。

一个现实例子是在推荐系统中，推荐算法选择的内容可以改变用户的偏好和行为，导致用户分布发生变化。这进而会进一步影响推荐算法的输出。

随着 AI 系统对世界产生越来越大的影响，我们还需要考虑 AI 系统融入人类社会之后对整个社会数据分布的潜在影响。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述 ^{自诱发分布偏移的实例}^{Hidden Incentives for Auto-induced Distribution Shift (Krueger et al., 2020)}

进一步，论文中主要从算法对策 (Algorithmic Interventions) 和数据分布对策 (Data Distribution Interventions) 两方面介绍了应对分布偏移的措施。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{Learning under Distribution Shift 框架图}

一、算法对策大体可分为两类：

1. 通过在算法设计上融合多分布帮助模型学到不同分布间的不变联系 (Invarient Relationships, 与 Spurious Features 相对)。这一类的方法包含有分布鲁棒优化 (Distributionally Robust Optimization)、不变风险最小化 (Invariant Risk Minimization)、风险外推 (Risk Extrapolation) 等。在这些方法中，“风险” 被定义为损失函数在不同分布上的均值。

模型有可能会建立环境与结果之间的虚假联系 (Spurious Correlations), 比如预测 “奶牛” 的模型可能会建立 “草原背景” 与真实值之间的联系，而非 “奶牛的特征” 与真实值的关系。融合多分布可以 “迫使” 模型学到不同分布间的不变联系，以尽可能降低 “风险”，在不同分布上取得良好的泛化性能。下面我们介绍几种具有代表性的方法：

分布鲁棒优化 (Distributionally Robust Optimization):分布鲁棒优化 (DRO) 的主要目标是最小化最坏情况的风险 (minimize the worst case risk)。风险被定义为在训练分布上预测值和真实值的损失函数差值，而最坏情况的风险可理解为在采样点上表现最差的预测结果。分布鲁棒优化的一个核心观点是，如果模型学到了虚假联系，那么它在某个采样点上的损失函数值（即风险值）便会异常高，通过最小化最坏情况的风险，我们期望模型能够在所有采样点上都达到较小的损失函数值 —— 促使模型学到不同采样点上的不变联系 (invarient relationships)。

不变风险最小化 (Invariant Risk Minimization)：不变风险最小化 (IRM) 的目标是在所有分布上训练一个尽可能不依赖虚假联系 (spurious correlations) 的预测模型。IRM 可以视为 ICP (Invarient Causal Prediction) 的扩展方法，后者通过使用假想测试 (hypothesis testing) 的方法，寻找在每个环境中直接导致结果的特征 (direct feautres) ，而 IRM 将 ICP 方法扩展到高维输入数据上 —— 在这样的数据上，有可能单个变量不再具备因果推断的特性。IRM 不再关注于最差的预测结果，而是希望找到一个既在所有分布上平均表现良好、又在每单个分布上表现最优的预测器。然而 IRM 在协变量偏移 (covariate shift) 的情况下通常表现不佳，但是可以在一些反因果 (anit-causal) 的情况下取得较好表现。

风险外推 (Risk Extrapolation)：风险外推 (REx) 通过降低训练风险并提升训练风险相似度，来促使模型学习不变联系。风险外推中的重要假设是训练领域的变化代表了我们在测试时可能会遇到的变化，但测试时的变化可能在幅度上更为极端。风险外推的方法证明了减小在训练领域之间的风险差异可以降低模型对各种极端分布变化的敏感性，包括输入同时包含因果和反因果元素的具有挑战性的情境。通过惩罚训练风险方差 (V-REx) 和优化对外推域项 (MM-REx), 风险外推可以恢复预测的因果机制，同时还可以增强在输入分布的变化（如协变量偏移）方面的鲁棒性。

2. 利用模式连接 (Mode Connectivity) 的特性，微调模型参数使得模型能够从基于虚假特性预测到基于不变联系预测。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{Mechanistic Mode Connectivity (Lubana et al., 2023)}

模式连接旨在探索机制性不同的最小化器是否通过低损失路径在景观中相互连接，以及能否根据这种连接性，进行预训练后微调，以实现最小化器之间的转化，并有望改变模型的预测特征（从基于虚假特性到基于不变联系），从而实现模型泛化性能的提升。

二、数据分布对策则是希望扩展训练时的原始分布，能动地提升模型泛化能力，相关的工作包含对抗学习（Adversarial Training) 和协作学习(Cooperative Training)。

对抗训练 (Adversarial Training) 通过将基于扰动的对抗样本 (Perturbation-Based Adversarial Examples) 或无限制对抗样本 (Unrestricted Adversarial Examples) 引入训练分布，来提升模型对于新分布环境下对抗攻击的鲁棒性。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{对抗训练的框架示意图。Deep Neural Network based Malicious Network Activity Detection Under Adversarial Machine Learning Attacks (cat,2020)}

合作训练 (Cooperative Training) 更加强调智能体或 AI 系统的多元互动关系。由于训练过程中可能缺乏动态变化的多系统元素，训练好的 AI 系统部署于多系统交互的环境中时（如多智能体交互），可能由于新元素的加入，从而产生一些危害其他系统甚至社会的行为 (Collectively Harmful Behaviors)。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{Cooperation的种类。}^{Open Problems in Cooperative AI (Dafoe et al., 2020).}

在这一节中，作者既介绍了 MARL 领域的完全合作 (Fully Cooperative MARL) 和混合动机 (Mixed-Motive MARL) 情形，也同时涵盖了其他研究方向，如无准备协调 (Zero-Shot Coordination) 、环境搭建 (Environment-Building)、社会模拟 (Socially Realistic Settings) 等。随着 AI 系统日渐部署到现实交互场景中，解决这一类问题将是实现人机共生的必由之路。

四、对齐保证

在前面的章节中，作者介绍了 AI 系统训练过程中的对齐技术。在训练后的部署过程，确保 AI 系统依然保持对齐也同样重要。

在对齐保证一章中，作者从安全测评 (Safety Evaluation)、可解释性(Interpretability) 和人类价值验证 (Human Values Verification) 等多个角度讨论了相关的对齐技术。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述 ^{Assurance 框架图}

1. 作者将安全评估分为数据集与基准、评估目标和红队攻击三部分：

a. 数据集与基准介绍了数据集和交互式评估方法：数据集部分详细分析了安全评估中应用的数据源、标注方法和评估指标；交互式方法分为“代理交互” 和 “环境交互” 两类，前者通过与代理（人类或者其他 AI）的交互来评估 AI 系统输出的对齐质量，后者则是通过构建具体的语境来评估 AI 系统。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述 ^{PRD evaluation的示意图， PRD（Peer Rank and Discussion）是代理交互评估的方法之一 PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations}

b. 评估目标探讨了由不对齐的 AI 系统可能衍生出的风险产生的安全评估目标，如毒性 (Toxicity)、权力追求 (Power-seeking)、欺骗 (Deception) 和较为前沿的操纵 (Manipulation)、自我保护与增殖 (Self Preservation & Prolification) 等，并且对这些目标的主要评估工作进行了介绍，形成了一个表格（如下表）。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{Deepmind对前沿AI风险的描述，本文沿用了"前沿AI风险" (Frontier AI Risks)一词对这些风险的主干部分进行了介绍(Anderljung et al. 2023)}

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{在这张表格中作者对目前主要的主要安全评估工作进行分领域的介绍}

c. 红队攻击的主要目的是通过制造和测试各种场景，检验 AI 系统在面对对抗性的输入时是否仍然保持对齐，以确保系统的稳定性和安全性。作者在这段中介绍了多种红队攻击的技术，包括利用强化学习、优化和指导等方法生成可能导致模型输出不对齐的上下文，以及手动和自动的 “越狱” 技术；同时探讨了众包对抗输入 (Crowdsourcd Adversarial Inputs)、基于扰动的对抗攻击 (Perturbation-Based Adversarial Attack) 和无限制对抗攻击 (Unrestricted Adversarial Attack) 等生成对抗性输入的多种手段，并介绍了红队攻击的具体应用与产品。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{From：Red Teaming Language Models with Language Models}

2. 可解释性是确保 AI 系统的概念建模、内部逻辑和决策过程可视化、可解释的技术，力求打破 AI 系统的黑箱效应。作者深入剖析了神经网络的后训练可解释性 (Post Hoc Interpretability)，探讨了如何通过机制可解释技术、神经网络结构分析、涨落与扰动、可视化技术等，揭示神经网络的运作机制，并进一步阐释了可解释性模型的构成 (Intrinsic Interpretability)，包括对 AI 系统中的黑箱成分进行替换等从机制上构建可解释模型的方法，最后作者展望可解释性研究的未来挑战，如可扩展性 (Scalability) 和基准构建 (Benchmark) 等。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{回路分析 (Circut Analysis) 的一个示意图，回路分析是后训练机制可解释性的一个重要技术 (Olah et al. 2020)}

3. 人类价值验证介绍了验证 AI 系统是否能够与人类的价值观和社会规范进行对齐的理论和具体技术。其中，形式化构建 (Formualtion) 通过形式化的理论框架来刻画和实现价值对齐性，一方面作者为机器的伦理的建立建构了形式化框架，探讨了基于逻辑、强化学习和博弈论的多种方式；另一方面，作者提到了合作型 AI 中基于博弈论的价值框架，探讨了如何通过增强合作激励和协调能力来解决 AI 系统中的非合作和集体有害价值的问题。而评估方法 (Evaluation Methods) 则从实践的角度介绍了构建价值数据集，场景模拟建立基准评估和判别器 - 评价器差异法 (Discriminator-Critique Gap, DCG) 等价值验证的具体方法。四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{判别器-评价器差异法(Discriminator-Critique Gap, DCG)的示意图}

五、AI 治理

确保 AI 系统保持对齐不仅需要相应的技术手段，还需要相应的治理方法。

在治理章节中，作者讨论了 AI 治理过程中的几个重要问题：AI 治理扮演的角色，治理 AI 的利益相关者的职能和关系以及有效的 AI 治理面临的若干开放性挑战。

一、作者首先了 AI 治理在解决现有 AI 风险中的角色担当。

现有的 AI 系统在社会中已经引发了例如种族歧视、劳动力置换等伦理与社会问题。一些模型具有产生虚假信息以及危险化学生物分子的能力，可能会产生全球性的安全风险。同时，未来可能出现的更具自主性和通用性的 AI 系统。如果缺乏足够的保障，这些模型很可能对人类造成灾难性风险。AI 治理的主要目标正是减轻这一多样化风险。为实现这一目标，AI 治理的相关方应共同努力，给予每类风险应有的关注。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{先进AI系统可能具备的危险能力}

二、作者将 AI 治理的主要利益相关方分为政府 (Government)，业界 (Industry and AGI Labs) 以及第三方 (Third Parties)。

其中，政府运用立法、司法和执法权力监督 AI 政策，政府间也进行着 AI 治理的国际合作。业界研究和部署 AI 技术，是主要的被监督方，业界也常常进行自我监督，确保自身技术的安全可靠。第三方包含学界、非政府组织、非盈利组织等机构，不仅协助审查现有的模型与技术，同时协助政府进行 AI 相关法规的建立，实现更加完善的 AI 治理。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述 ^{Governance的治理架构}

三、作者主要讨论了 AI 在国际治理 (International Governance)以及开源治理 (Open-source Governance) 方面的开放性挑战。

AI 的国际治理 (International Governance)。

一方面，当前许多 AI 风险，例如市场中 AI 公司的无需竞争以及模型放大现有性别偏见具有明显的国际性与代际性，国际合作共同治理有利于对这些风险的防范。另一方面，现有 AI 技术带来的经济与社会效益并没有均匀分配，不发达国家以及缺乏相关 AI 知识的人群并不能在 AI 技术的发展中获益，国际合作通过修建基础设施，加强数字教育等方式能够缓解这一不平衡。同时我们注意到，现有的国际组织具有解决国际重大安全风险的能力，我们期望 AI 国际治理也能够产生类似的国际组织，协助治理 AI 风险并合理分配 AI 带来的机遇。

AI 的开源治理 (Open-source Governance)。

随着 AI 系统能力的不断增强，是否应该开源这些 AI 系统存在着很多争议。支持者认为开源 AI 模型能够促进模型的安全能力，同时认为这是利于 AI 系统去中心化的重要手段。而反对者则认为开源 AI 模型可能会被微调为危险模型或是导致非开源模型的越狱，进而带来风险。我们希望未来能够出现更加负责任的开源方法，使得 AI 系统在开源的同时避免滥用风险。

六、总结和展望

在这份综述中，作者提供了一个覆盖范围广泛的 AI 对齐介绍。作者明确了对齐的目标，包括鲁棒性 (Robustness)、可解释性 (Interpretability)、可控性 (Controllability) 和道德性 (Ethicality)（RICE），并将对齐方法的范围划分为前向对齐（通过对齐训练使 AI 系统对齐）和后向对齐（获得系统对齐的证据，并适当地进行治理，以避免加剧对齐风险）。目前，在前向对齐的两个显着研究领域是从反馈中学习和在分布偏移下学习，而后向对齐由对齐保证和AI 治理组成。

最后，作者对于 AI 对齐领域下一步发展进行展望，列出了下面几个要点。

研究方向和方法的多样性：对齐领域的一大特征是它的多样性 —— 它包含多个研究方向，这些方向之间的联系是共同的目标而非共同的方法论。这一多样性在促进探索的同时，也意味着对研究方向的整理和对比变得尤其重要。

开放性探索新挑战和方法：许多有关对齐的讨论都是基于比 LLMs 和大规模深度学习更早的方法之上构建的。因此，在机器学习领域发生范式转变时，对齐研究的侧重点也发生了改变；更重要的是，方法的变革，以及 AI 系统与社会的日益紧密融合的趋势，给对齐带来了新的挑战。这要求我们积极进行开放性探索，洞察挑战并寻找新的方法。

结合前瞻性和现实导向的视角：对齐研究尤其关注来自强大的 AI 系统的风险，这些系统的出现可能远在数十年后，也可能近在几年之内。前一种可能性需要研究前瞻趋势和情景预测，而后一种强调 AGI Labs、治理机构之间的紧密合作，并以当前系统作为对齐研究的原型。

政策相关性：对齐研究并非孤立存在，而是存在于一个生态系统中，需要研究人员、行业参与者、治理机构的共同努力。这意味着服务于治理需求的对齐研究变得尤为重要，例如极端风险评估、算力治理基础设施以及关于 AI 系统的可验证声明的机制等。

社会复杂性和价值观：对齐不仅仅是一个单一主体的问题，也是一个社会问题。在这里，"社会" 的含义有三重：

1. 在涉及多个 AI 系统和多个人之间的相互作用的多智能体环境中进行对齐研究。

2. 将 AI 系统对社会的影响进行建模和预测，这需要方法来处理社会系统的复杂性。潜在的方法包括社会模拟以及博弈论等。

3. 将人类道德价值纳入对齐，这与机器伦理 (Machine Ethics) 、价值对齐 (Value Alignment) 等领域密切相关。随着 AI 系统日渐融入社会，社会和道德方面的对齐也面临着更高的风险。因此，相关方面的研究应该成为 AI 对齐讨论的重要部分。

七、AI 对齐资源网站

随着 AI 的快速发展，具有强大理解、推理与生成能力的 AI 将对人们的生活产生更加深远的影响。因此，AI 对齐并不是科学家们的专属游戏，而是所有人都有权了解及关注的议题。作者提供了 https://alignmentsurvey.com/ 网站（后文简称 “网站”），将综述中涉及到的调研内容整理为易于阅读的图文资料。网站具有如下特色：

1. 直观且丰富的呈现形式。作者利用网站平台灵活的表现形式，使用图片、视频等媒介更详细地展示了文中介绍的内容，使研究人员、初学者、乃至非科研人员都能更好地理解。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{示例：关于Alignment Problems的部分截图}

2. 结构化的知识体系。作者精心整理了 AI 对齐相关领域的经典文献，并使用树形图的结构展示了各个子领域的联系与依赖。相比于简单的资源整合堆砌，网站对内容建立了结构化索引，提供树形图帮助读者快速建立对人工智能对齐研究的认识框架，以及方便其精确查找所需的研究内容。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{示例：读者可以在页面顶端纵览“Scalable Oversight”的相关研究分支，并通过点击“Detae”按钮快速了解领域经典文章}

3. 高质量的学习资源。针对目前的先进对齐方法 ——RLHF，网站提供了由北京大学杨耀东老师主讲的系列课程 Tutorial。从经典 RL 算法出发，以对齐的视角对 RLHF 进行了体系化的梳理与总结。全系列的学习资源支持在线预览和下载。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{从AI对齐视角展开的RLHF系列Tutoiral}

4. 外部资源整合。AI 对齐从来就不是某一个团队或机构单独研究的课题，而是一个全球化的议题。网站整理了 AI 对齐领域的论坛、课程以及个人博客等相关资源链接，旨在为读者提供更多元化和更丰富的资讯。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

^{网站对有关AI对齐的个人研究、课程、博客等学习资源进行了收集与归纳}

5. 持续更新与维护。网站将面向 AI 对齐社区长期开放讨论，持续性地维护与更新相关领域的调研内容，以期推动 AI 对齐领域的更广泛更深入研究。其中包括一份定期邮件发出的 Newsletter（alignmentsurvey.substack.com），以介绍对齐领域的最新进展和总览。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

(来源:机器之心)

作者希望有关 AI 对齐的研究不仅仅局限于一份综述论文，而是成为一个值得所有人关注的研究议题。因此，作者将积极维护网站这一 “在线论文”，持续性地开展 AI 对齐的调研工作。

2024年 4月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

关联资讯:

用户登录