中兴通信 AIM 团队 投稿天元证券缩量_配资服务全天在线支持
量子位 | 公众号 QbitAI
一组被 AAAI 2026 给与的新实验,一口啃向了多模态大模子后检会的硬骨头� �
在视觉推理与视觉感知两大类基准测试上,只用中等 + 难题样本检会、且统统不作念 SFT 的 GRPO-only 范式,反而拿下险些总计最优得益。
MathVista 最高 68.3、OCRBench 达 77.8、MMMU 提高 0.107、MMStar 提高 0.083,比较全量数据检会大幅跃升,以至全面卓著传统的" SFT+RL "双阶段范式。
论断快言快语:
多模态后检会关节里,样本难度比检会范式更重要,而 SFT 并非 RL 的必要前置要领。
这项由中南大学 & 中兴通信团队完成的新参谋,为多模态大模子找到了可量化、可操作的"难度采样"门径,并第一次系统性考据了一个往日被视为"不能能灵验"的检会道路,即仅靠 RL 强化政策(GRPO),就能沉寂完成多模态智力的优化。
而参谋切入点,恰是多模态后检会弥远卡住的两个老问题。
第一,缺少可量化的样本难度野心。
多模态数据包含视觉与文本双重特征,文本模态难度常无法平直表征多模态样本合座难度(如 OCR、主义检测等任务),因此无法沿用纯文本数据的难度分别神情,导致难以筛选对模子优化具有高价值的检会样本。
第二,检会范式无法协同优化感知与推贤慧力。
现存方法多接收"监督微调 + 强化微调"的固定历程,且大无数参谋侧重于提高模子的推感性能,但多模态场景每每既包含视觉推理类(数学、科学、图表分析等),又包含视觉感知类(主义检测、主义定位、计数、OCR 等),单一范式可能无法适配两类数据的检会需求,导致模子在感知或推理任务中出现性能偏科。
针对这些痛点,团队从模态内明锐性与跨模态交互复杂度双喜爱角,冷漠PISM(渐进式图像语义掩码)与 CMAB(跨模态正经力均衡)两种难度量化政策,并假想分层检会框架,考据了强化学习沉寂优化多模态智力的可行性,为多模态后检会提供全新本事旅途。
中枢方法:难度感知采样政策与检会框架
参谋东谈主员冷漠了 2 种互补的难度量化政策,分别从视觉明锐性与跨模态正经力均衡维度来已毕样本难度分层。
渐进式图像语义掩码(PISM)
底下是渐进式图像语义掩码(PISM,Progressive Image Semantic Masking)方法暗示图。
从无掩码(mask_ratio = 0.0)到重度掩码(mask_ratio > 0.7),参谋团队渐进式地对图像的不同部分进行掩码操作。
每张掩码图像通过赶紧隐敝一定比例的像素区域,该过程模拟了不同进度的视觉信息蚀本。
随后在这些掩码图像上评估模子性能,以了解模子为了准确推理对视觉细节的依赖进度。

如图所示,PISM 基于"难样本对视觉信息蚀本更明锐"的中枢假定,通过系统的图像退化实验量化样本难度,具体历程如下:
1、掩码假想。
对图像 - 文本样本对 s= ( I,Q ) ,建树掩码比例序列 Λ ={ λ i| λ i=0.0,0.1, … ,0.9},模拟从无退化 ( λ =0.0 ) 到重度退化 ( λ =0.9 ) 的视觉信息蚀本场景。
2、性能评估。
对每个掩码比例 λ i,生成扰动图像(M ( · ) 为赶紧像素掩码操作),输入模子得到展望扫尾,通过二元野心(1 表露展望正确,0 表露造作)评估性能。
3、鲁棒性狡计。
为缩短赶紧性影响,每个掩码比例类似实验 K=10 次,狡计鲁棒准确率
。
4、难度分别。
界说失败阈值,据此将样天职为 4 类:

跨模态正经力均衡(CMAB)
底下是跨模态正经力均衡(CMAB,Cross-Modality Attention Balance)方法暗示图。
关于每个生成 token,咱们狡计其在总计 Transformer 层上对输入文本 token 和图像 token 的平均正经力分数,然后对总计生成的 token 的这些分数取平均值。
( N ) 代表 Transformer 的总层数。

如上图所示,CMAB 通过分析模子生成反馈时对文本和对图像的正经力之比,评估跨模态交互复杂度,具体逻辑如下:
1、正经力明白。
对输入的图像与文本狡计模子生成每个反馈 token yt 时,在第 l 层 Transformer 的跨模态正经力权重,并明白为图像正经力总额
与文本正经力总额
。
2、正经力均衡比狡计。
界说跨层的 token 级正经力均衡比
,为缩短层间噪声,排斥首末层(主要认真输入编码与输出解码),狡计几何均值
(ε ≈ 10-8 幸免数值不牢固)。
3、样本级均衡比。
对总计反馈 token 取算术平均,得到样本级正经力均衡比
。
基于区分样本难度:

分层检会框架与实验假想
基于 PISM 与 CMAB 的难度分层扫尾,假想两种后检会范式进行对比。
第一种,GRPO-only 范式。
平直对难度分层后的样本(为中等 + 难题样本)运用组相对政策优化(GRPO,Group Relative Policy Optimization,),无 SFT 预处理。
第二种,SFT+GRPO 范式。
先对筛选后的样本(如难题样本、中等样本)进行 SFT,再对主义样本运用 GRPO,并测试 SFT 阶段样本难度秩序(如 SFT ( 难题 ) +GRPO ( 中等 ) 、SFT ( 中等 ) +GRPO ( 难题 ) )对模子性能的影响。
实验配置如下:
基础模子:Qwen2.5VL-7B(多模态大模子,扶助视觉 - 文本纠合推理);
硬件环境:5 个节点(每节点 8 × 80GB NVIDIA A800 SXM4 GPU)+2 个节点(每节点 8 × 96GB NVIDIA H20 GPU);
框架器具:SFT 基于 LLaMA-Factory 已毕,GRPO 基于 Swift 框架已毕,评估基于 OpenCompass 框架,接收 GPT-4o-mini 行为斡旋评分器;
基准数据集:涵盖 6 类通用场景的多模态任务。
实验扫尾与分析 PISM 政策下的性能对比(以视觉推理数据集为例)
下表展示了 PISM 分层后,不同检会范式在视觉推理数据集上的性能。

(注:表 1,通过 PISM 在视觉推理数据集上使用 SFT+GRPO 和仅使用 GRPO 的检会扫尾比较,* 表露次优扫尾,加粗表露最优扫尾)
从表中可不雅察到——
第一,GRPO-only ( 中等 + 难题 ) 范式上风权贵。
在 MathVista(68.300)、OCRBench(77.800)、MMMU(0.547)、MMStar(0.639)4 项野心上均获取最优,较全量数据 GRPO-only 提高幅度最大(MathVista 提高 14.9 分,MMMU 提高 0.107);
第二,SFT 阶段未带来增益。
总计 SFT+GRPO 范式的性能均低于 GRPO-only ( 中等 + 难题 ) ,且 SFT 阶段样本难度秩序对扫尾影响较小(如 SFT ( 中等 ) +GRPO ( 难题 ) 与 SFT ( 难题 ) +GRPO ( 中等 ) 性能接近),讲明 SFT 可能引入"伪想维链"(Pseudo-CoT),死心模子真正推贤慧力;
第三,赶紧样人道能有限。
GRPO-only ( 赶紧样本 ) 虽在部分野心(如 MMVet)阐明较好,但合座低于中等 + 难题样本检会扫尾,考据了难度分层对样本质量筛选的灵验性。
CMAB 政策下的性能对比(以视觉感知数据集为例)
下表展示了 CMAB 分层后,不同检会范式在视觉感知数据集上的性能。

(注:表 2,通过 CMAB 在视觉感知数据集上对接收 SFT+GRPO 和 GRPO-only 两种检会神情的扫尾对比,* 表露次优扫尾,加粗表露最优扫尾)
从表中可不雅察到 CMAB 在推理任务中上风突显——
GRPO-only ( 中 + 难题 ) 在 MathVista(68.300)、MMVet(50.367)、MMMU(0.550)、MMStar(0.629)上阐明最优,尤其在需要跨模态深度和会的任务中(如 MathVista),较 SFT+GRPO 范式提高 1.5-2.5 分,考据了 CMAB 对跨模态交互复杂度评估的灵验性。
推翻" SFT 是 RL 后检会必要前提"的传统贯通重要论断
通过以上实验,参谋团队得出了一系列论断。
当先,难度感知采样是中枢。
不管 PISM 依然 CMAB,基于中等 + 难题样本的 GRPO-only 检会均权贵优于全量数据、赶紧样本及 SFT+GRPO 范式,解释"数据质地(难度分层)比数目更弥留"。
其次,GRPO-only 范式可行。
实验推翻了" SFT 是 RL 后检会必要前提"的传统贯通,GRPO-only 在排斥 SFT 后,极地面简化了检会历程,提高了模子后检会后果,为多模态模子通用检会提供新想路。
该参谋冷漠多模态样本难度量化门径,初度从视觉明锐性与跨模态正经力均衡两个维度,树立可量化的多模态样本难度评估体系,责罚了多模态数据"难筛选"问题。
通过聚焦多模态后检会的"样本筛选"中枢问题,为多模态大模子性能提高提供了全新本事旅途,也为后续参谋开放了"数据初始优化"的新视角。
终末,参谋团队还冷漠了三个未来参谋主义:
动态难度援助:面前难度评估为静态,未来可联结模子检会过程动态更新样本难度,已毕自相宜课程学习;
多政策和会:探索 PISM 与 CMAB 的纠合采样政策,进一步提高样本筛选精度;
更大模子考据:在百亿参数级多模态模子上考据方法灵验性,探索难度感知采样在更大门径模子中的泛化性。
现在,参谋代码已开源,彭胀版块包含详确乎验配置,为后续参谋提供可复现的本事基础。
期待更多参谋者基于此方法,激动多模态 AI 在医疗、训诫、自动驾驶等范围的本质运用。
arXiv:
https://arxiv.org/abs/2511.06722
GitHub:
https://github.com/qijianyu277/DifficultySampling
一键三连「点赞」「转发」「提神心」
接待在褒贬区留住你的主张!
— 完 —
咱们正在招聘又名眼疾手快、注重 AI 的学术裁剪实习生 � �
感兴趣的小伙伴接待注重 � � 了解笃定

� � 点亮星标 � �
科技前沿进展逐日见天元证券缩量_配资服务全天在线支持
天元证券缩量_配资服务全天在线支持提示:本文来自互联网,不代表本网站观点。