欧洲杯体育也会被 clip 后的项休止住-开云(中国)kaiyun网页版登录入口

多模态奖励模子（MRMs）在普及多模态大言语模子（MLLMs）的表现中起着至关重要的作用：欧洲杯体育

在锻真金不怕火阶段，它可以提供踏实的 reward；

在评估阶段，它可以选用更好的 sample 休止；

单独使用时，它可以径直作为 evaluator；

……

而强化学习（RL）在表面上能够对 MRM 引入永恒推聪慧商，使 MRM 愈加高效。

但要是径直把现存的 RL 算法（比如 Reinforce++）用到锻真金不怕火 MRM 上，就会出现许多气象，比如，锻真金不怕火过程会很不踏实、致使可能径直崩掉：

面前，来自中科院自动化所、清华大学、快手和南京大学的琢磨团队，在探索如何应用强化学习来踏实、灵验地普及多模态奖励模子的万古推聪慧商方面，取得了新进展：

基于多模态强化学习的责任 MM-RLHF（ICML 2025），进一步推出了R1-Reward模子。

在现存的多模态奖励模子 benchmark 的基础上，比较于现时首先进的 SOTA 模子，杀青5%-15%的普及。

且跟着 inference sampleing 的数量加多还能进一步增长！

主要孝敬

1. 重新界说问题

作家把锻真金不怕火奖励模子这个问题，算作是一个基于顺序的强化学习任务。通俗说，即是给奖励模子一个问题和两个谜底，让它通过学习来判断哪个谜底更好，况兼能给出合理的分析。

2. 建议新算法 StableReinforce

针对现存 RL 算法的不及，他们建议了一个立异版的算法叫StableReinforce。这个算法主要在几个方面作念了优化：

立异了耗费函数里的编订操作，建议了 Pre-Clip，防护数值筹办不踏实。

建议了一种更肃肃的上风值（advantage）处理门径（叫作念上风过滤器 Advantage Filter），辞让易被极点值带偏。

想象了一个新颖的"一致性奖励" ( Consistency Reward ) ：它引入了另一个大模子作为"裁判"，专门查验奖励模子我方的分析过程和它最终给出的谜底是不是一致的。要是一致，就给奖励，这样能促使模子作念出更合乎逻辑的判断。

3. 渐进式的锻真金不怕火计谋

他们从各式公开数据纠合集中了20 万条偏好数据，构建了一个名为R1-Reward-200k的数据集用于锻真金不怕火。

继承了一种"渐进式难度"的锻真金不怕火计谋。因为径直用 RL 锻真金不怕火模子后果不好（冷源头问题），他们先用 GPT-4o 对这些数据生成了详备的想考过程，作为监督微调（SFT）的数据，让模子先"初学"。同期，他们记载了 GPT-4o 判断每个样本的难度（需要尝试几次身手判断对）。

在后续的强化学习阶段，专门挑选那些GPT-4o 都认为比较难（需要尝试屡次或者干脆判断无理）的样本进行锻真金不怕火，让模子在迂回上得到锻真金不怕火。

4. 后果显贵

实际休止标明，这个 R1-Reward 模子在几个主流的多模态奖励模子测评基准（如 VL Reward-Bench,Multimodal Reward Bench）上表现极端出色，显贵进步了之前的最好模子 ( SOTA ) 。比如在一个榜单上普及了 8.4%，在另一个榜单上普及了 14.3%。

更兴味的是，他们发现通过在推理时多作念几次筹办（比如采样 5 次或 15 次，然后投票选最多的谜底），R1-Reward 的性能还能进一步大幅普及，这阐述 RL 门径在优化奖励模子方面后劲渊博。

他们还不雅察到，经过 StableReinforce 的 RL 锻真金不怕火后，模子输出的平均长度减少了约莫 15%，这意味着模子可能变得更灵验率了。

现存强化学习门径的局限性什么是奖励模子

率先得知谈，奖励模子（Reward Model）是干嘛的。通俗说，它即是用来判断两个模子的回答，哪一个更合乎东谈主类喜好。

具体的优化公式大约长这样：

这里的 r ( y|x ) 即是模子打的分数，σ 是个 sigmoid 函数，E 表露求渴望（平均）。风趣即是，模子要尽量让好谜底的分比坏谜底的分高，差距越大越好，然后通过 log 和 sigmoid 函数来筹办耗费。

PPO 和 Reinforce++ 算法简介 PPO ( Proximal Policy Optimization )

PPO 是一种很常用的强化学习算法，属于计谋梯度门径，主张是径直优化模子（计谋）来得到最大的积攒奖励。它的横蛮之处在于——它不像传统的计谋梯度门径那样，容易因为步子迈太大而导致锻真金不怕火不踏实。

PPO 通过一种特殊的花式来休止每次计谋更新的幅度。它的主张函数是这样的：

这个公式的中枢想想在于阿谁 min 和 clip 操作。它确保了就算 ratio*A_t（模范的计谋梯度主张）很大，也会被 clip 后的项休止住，防护计谋更新过猛导致锻真金不怕火不踏实。

PPO 因为杀青通俗、后果好，是以在许多场所（比如机器东谈主限制、玩游戏）都用得很广。

Reinforce++

Reinforce++ 是在 PPO 基础上作念了一些优化的版块，目的是让锻真金不怕火更踏实、更高效。主要立异有：

加了 KL 散度处分：在奖励函数里加入了一项，用来处分强化学习模子（RL model）和监督微调模子（SFT model）在每个词（token）上的输出概率散布各别过大。奖励函数酿成了雷同这样：。这里表露唯有在生成收尾符时才加上原始的任务奖励，是阿谁 KL 处分项。

奖励和上风的归一化：它会对通盘批次（batch）的奖励进行归一化、编订和缩放，还对上风值 A 进行归一化：

（减去均值，再除以模范差）。

在许多琢磨中，Reinforce++ 都比 GRPO 更踏实、比 PPO 拘谨更快。

PPO/Reinforce++ 的问题在哪？

诚然 PPO 和 Reinforce++ 可以，但在实质锻真金不怕火中，尤其是在锻真金不怕火奖励模子的技术，琢磨者们发现它们有两个中枢问题，很容易让模子锻真金不怕火不踏实致使失败：

锻真金不怕火耗费导致的不踏实：

筹办 PPO 耗费机，需要算阿谁概率比值 ratio。要是新旧计谋别离很大，这个 ratio 可能会变得极端大或极端小。

在代码杀青里（比如用 PyTorch），通常是算 ratio = torch.exp ( log_probs - old_log_probs ) 。要是 log_probs - old_log_probs 这个差值很大，exp ( ) 运算可能会导致数值溢出，径直让规范崩溃。

就算没崩溃，要是算出来的 ratio 很大，况兼上风 A_t 是负的（表露这个动作不好），那么凭证 PPO 的耗费公式，这个耗费值可能会变得特别大。这样大的耗费会让模子的参数更新变得极其不踏实。

上风归一化导致的不踏实：

奖励模子的锻真金不怕火数据标签通常很通俗，比如就两个标签：1 和 2（1 好一经 2 更好）。模子比较容易学会诀别。

这就导致在锻真金不怕火后期，一个批次（batch）里的数据，模子可能大部分都能预测对。比如一个 batch 里有 255 个样本的真实奖励是 1，唯有 1 个是 0。

在这种情况下，奖励的方差会极端小。要是这技术还用模范的上风归一化门径（减均值除以模范差），阿谁奖励为 0 的样本对应的上风值，在归一化之后可能会酿成一个都备值极端大的数（例子中是 -15.96）。

这样大的上风值相同会打扰模子的更新，导致锻真金不怕火不踏实。

总的来说，即是径直把 PPO 或者 Reinforce++ 用在奖励模子锻真金不怕火上，会因为耗费筹办和上风归一化这两个要津内在的问题，在高遵循锻真金不怕火或者锻真金不怕火后期特定数据散布下，引发数值不踏实，最终影响模子后果。

StableReinforce 普及锻真金不怕火踏实性

1. Pre-CLIP 计谋

为了减小大比例各别的影响，Pre-CLIP 计谋会在筹办对数概率的指数值之前对比例进行编订。通过在应用指数函数前编订 log- πθ / πθ old 的比例，可以幸免由于比例各别过大而导致的溢出问题，并缓解负上风情况下的大对数各别。编订后的公式为：

其中，和分别为允许的最小和最大比例休止（上头的伪代码会更明晰一些（algorithm 1））。

2. Advantage Filter 计谋

为了幸免由于上风散布的极点抵挡衡对锻真金不怕火带来的影响，著述继承了 3-sigma 顺序（即保留模范化上风在 [ -3, 3 ] 领域内的样本）。公式为：

模范化后的上风通过公式

筹办，其中庸分别为上风散布的均值和模范差。

逢迎了 Pre-CLIP 和上风过滤器，最终用来优化的主张函数长得有点像常用的 PPO 算法的主张函数，但有所修改：

R1-Reward 将 MRM 滚动为强化学习问题

率先使用底下的 prompt，将奖励建模问题滚动为 rule-based 的强化学习问题：

近期 follow deepseek-r1 责任的门径基本上都是花式奖励 + 休止奖励，然而在奖励模子锻真金不怕火过程中，这存在着一致性问题：即只用上头两个奖励时，模子偶而会"精神分裂"：

分析部分（）明明说回答 2 更好，但终末却输出1。因此本文引入了一个特别的"裁判"模子（文顶用了 Qwen2.5-VL-7B-Instruct）。这个裁判专门厚爱查验奖励模子我方输出的分析内容，看它是不是确实支撑最终给出的阿谁谜底。

奖励函数想象：著述建议了三种奖励函数

花式奖励：条目模子的输出合乎指定的花式，即‘ ’，饱读舞模子在给出最终谜底之前先进行推理，以提高内容的质料和可解释性。

休止奖励：模子最终身成的谜底必须与东谈主类众人的偏好一致。

一致性奖励：确保推理过程与最终谜底一致，即模子的最终休止应当径直源自其推理过程，而不是与推理要领无关的生成内容。

最终奖励筹办：为了处治可能出现的一致性奖励过度偏重的问题，最终的奖励筹办公式为：

这样的想象好在Consistency Reward的加成后果（乘以 0.5 再加 1）唯有在Result Reward大于 0（也即是谜底选对）的技术身手真实起作用。要是谜底选错了，Result Reward通常是 0 或者负数，那么一致性奖励就不会带来正向激励（或者激励很小），从而确保模子首要主张一经把谜底选对。花式奖励作为一个基础分被加上去。

"长想考链"的冷源头问题 ( Long-CoT Cold Start )

多模态大模子（MLLMs）自己并不是为作念奖励模子这种"评价比较"任务而想象的，是以径直用强化学习去锻真金不怕火它们，后果通常很差而且不踏实，因此本文先进行了一轮监督微调。

作念法：让 GPT-4o 对 R1-Reward-200k 数据集里的每一条数据，都按照 Table 1 里的领导模板，生成模范的"分析过程"和"最终谜底"。生成时拓荒temperature=1（让输出更发散），况兼最多尝试 3 次，直到生成的谜底和真实标签一致。

记载难度：同期，他们还记载了 GPT-4o 需要尝试几次身手生成正确谜底，把这个次数作为样本"难度"的磋磨。

目的：这个 SFT 阶段就像是给模子"预习"。通过效法 GPT-4o 的输出，先让模子学会任务的基本花式和过程，熟识这个奖励建模任务应该怎么作念。

强化学习（RL）锻真金不怕火数据的筛选

筛选模范：在进行真实的强化学习锻真金不怕火时，并不是用 SFT 阶段的所稀有据。琢磨东谈主员专门挑选了那些被认为是"更难"的样本。

具体起原：

在 SFT 阶段，那些GPT-4o 需要尝试 2 次或 3 次身手给出正确谜底的样本。

以及那些GPT-4o 尝试了 3 次仍然没能给出正确谜底的样本。

琢磨东谈主员认为，这些样本通常意味着两个回答之间的别离更小，更难判断优劣。用这些"硬骨头"来锻真金不怕火模子进行强化学习，可以更灵验地普及模子鉴别微弱各别的智商。

兴味的实际发现

琢磨东谈主员通过一系列实际来考证他们建议的 R1-Reward 模子和 StableReinforce 算法的后果，得到了一些挺故风趣的休止：

R1-Reward 后果拔群

在好几个主流的多模态奖励模子名次榜（比如 VLReward Bench, Multimodal Reward Bench, MM-RLHF-Reward Bench）上，R1-Reward 的表现都极端亮眼，平均准确率显贵进步了之前最好的开源模子（比如 IXC-2.5-Reward）。

Test-Time Scaling

他们尝试在评价的技术，让 R1-Reward 模子对并吞个问题输出好几个判断休止（比如输出 5 次或 15 次），然后选用少数征服多量（投票）的花式来决定最终哪个谜底更好。

休止发现，这种通俗的"投票"计谋能大幅普及 R1-Reward 的准确率。比如在 MM-RLHF 这个比较难的榜单上，投票 5 次就能把准确率从约莫 71% 普及到 85.3%，投票 15 次更是达到 86.47%，远超其他模子。

更故风趣的是，他们还试了另一种计谋叫" Any Correct "，即是只消模子输出的 K 次休止里有一次是正确的，就算对。休止发现，当 K=15 时，这种计谋的准确率简直接近 100%！这暗意 R1-Reward 其实有后劲齐备诀别扫数样本，只是需要更多的数据或更好的锻真金不怕火计谋来完全引发出来。

aha Moment

通过 SFT 和 RL 锻真金不怕火，R1-Reward 不仅学会了如何评价两个回答，还自主地学习到了一套分析过程：先明确主张、分析图像、尝试处治问题、给出谜底，然后基于这个过程去评价两个外部给定的回答。

更兴味的是，模子展示出了雷同东谈主类的反想和纠错智商。比如在上图中，模子我方筹办时出错了，但在查验图表后，刚烈到了无理并重新筹办得到了正确休止。这阐述模子不单是是在效法，还在学习某种进度的自我查验和修正机制。

经过强化学习锻真金不怕火后，模子输出的分析内容的平均长度还减少了约 15%，阐述模子可能变得更"因时制宜"，推理遵循提高了。

论断

本文先容了 R1-Reward，这是一种使用 StableReinforce 算法锻真金不怕火的多模态奖励模子（MRM）。通过实际，本文阐述注解了强化学习（RL）在奖励建模中的灵验应用，显贵普及了模子的表现。R1-Reward 处治了多个瑕疵问题，包括锻真金不怕火不踏实、上风归一化休止以及推理和休止之间的不一致性。通过引入 Pre-Clipping、上风过滤、一致性奖励以及渐进式锻真金不怕火计谋，StableReinforce 算法灵验踏实了锻真金不怕火过程并普及了模子性能。

实际休止标明，R1-Reward 在多个多模态奖励模子基准上突出了现存首先进的模子（SOTA），在准确率和数据遵循方面取得了显贵进展。此外，R1-Reward 还展示了优秀的推理时膨大智商，为未来坚硬化学习融入多模态奖励模子（MRM）的琢磨奠定了基础。

推断未来，RL 在奖励建模中的应用仍有许多值得探索的标的。举例，本文仅测试了通俗的多量投票计谋用于推理时膨大，未来可能通过更先进的门径进一步普及性能。此外，立异锻真金不怕火计谋以进一步增强奖励模子的基础智商，亦然一个有道理的洞开性问题。

论文邻接：

https://arxiv.org/abs/2505.02835

https://github.com/yfzhang114/r1_reward

https://huggingface.co/yifanzhang114/R1-Reward

一键三连「点赞」「转发」「留心心」

迎接在批驳区留住你的主张！

— 完 —

学术投稿请于责任日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿内容‍

附上论文 / 名堂主页邻接，以及关连花式哦

咱们会（尽量）实时修起你

� � 点亮星标 � �

科技前沿进展逐日见欧洲杯体育