被顶会 ICCV 2025 以 554 高分采用的视频贯穿框架来了!
视频包含的信息远比图像复杂,现存的 Video-LLM 常靠下采样或 Token 团聚来"挤"进话语模子,未免会丢细节并形谚语义纠缠(entanglement)。

于是,北大和 UCSD 团队建议VideoOrion——

凯旋把前程里权臣的时空动态编码成 Object Tokens 并与 Context Tokens 并行喂给 LLM,搭建出一个高效、可讲解、具指代才气的视频贯穿框架。
将 Object Dynamics 显式索求成闹翻的 Token,既可压缩数据量,又让 LLM 的对都更当然。
履行泄露,它在 MVBench、EgoSchema、Perception-Test、VideoMME、ActivityNet-QA 等上全体高出,并当然演化出视频指代问答才气。

中枢武艺:双分支编码 + 用"检–分–跟"三步构成物体动态 tokenizer
传统视频 Token 多是按空间栅格或特征团聚获得,语义容易纠缠。
VideoOrion 把对象至极跨帧演化动作一级语义单元,使 LLM 在推理时不错沿对象维度整合细节,既普及细粒度问答,也为指代等需要"锁定实例"的任务提供自然接口。
在以下案例中:比拟仅场景级容貌,模子能说清"红色三轮滑板车 + 拖地组件"的细节或"玄色泳装 + 跳板后空翻"的动作成分。

据了解,VideoOrion 领受双分支并行编码:
Context Tokens:用 CLIP(VideoOrion)/SigLIP(VideoOrion+)编码采样帧,经 STC Connector 投影为高下文 Token(如每帧数百个),主要承载布景 / 场景等泛化信息;
Object Tokens:通过检测—分割—追踪(detect – segment – track)的 pipeline,在以 GroundingDINO(通用情状)在要道帧产生对象候选框之后用 SAM 将候选框细化为对象掩码,确保范畴与体式信息;再用 XMem 跨帧追踪对象掩码,获得随时辰演化的掩码序列;终末对掩码池化后的特征作念投影(线性 /MLP 即可),形成紧凑的 Object Token(数目上限可控,语义 disentangle)。
两类 Token 将被沿途输入 LLM 会通推理。

因为视频里前程会收支画面、场景突变,沟通另建议按前程物体出现变化自相宜切片以正经检测与相干,幸免均匀切段带来的跨段错配。
在对象活水线的替换履行中(提案器 / 分段战略 / 追踪器),不论用 RAM++、Mask2Former 作念提案,也曾改为均匀 / 不切分,或以 SAM2 替代 XMem,全体都结识优于仅视频分支,最好组合为 RAM++ 分段 + GroundingDINO 提案 + XMem 追踪。
履行与效果:细节贯穿与指代才气双普及
VideoOrion(7B)在MVBench / EgoSchema / Perception-Test / VideoMME / ActivityNet-QA上,全面突出同 backbone 的 VideoLLaMA2/2.1。
具体相对涨幅差异为 +10.1%、+14.6%、+15.6%、+8.7%、+7.8%(VideoOrion+ 亦有把握或更高增幅),体现了 Object Token 带来的细粒度语义增益。
进一步看表格数值:在 7B LLM 建设下,VideoOrion 在 MVBench/EgoSchema/Perception-Test/VideoMME(w/o/w subs)/ActivityNet-QA(Acc/Score)达到 63.5 / 65.1 / 65.2 / 54.6 – 55.3 / 57.7 – 3.7,相对多款开源 / 闭源同领域模子具有赫然上风。

成绩于显式 Object Token,VideoOrion 自然复古视频指代——
在教唆模板中把标的对象对应的 Token 填入 即可完成"指这个物体在作念什么"的问答。
团队在VideoRef45K上对比 Artemis、Merlin 等武艺,零样本即灵验,经小领域指代数据微调后(3 epoch)多项观点(BLEU@4、METEOR、ROUGE_L、CIDEr、SPICE)全面高出,考据 Object Token 对指代贯穿的凯旋助益。

消融与分析:Object Token 的"必要与末端"
1、有无对象分支:在等数据量下,把对象分支去掉的基础 VideoLLaMA2 模子在各基准上都过时。
2、对象分支预锻真金不怕火是否迫切:对象分支作念预锻真金不怕火全体更优,证明 Object 像视觉 Token 同样,需要先学基本语义再对都文本。
3、Object Token 数目:模子在达到最多 64 个 Object Token 时常最稳,过少信息不及、过多反而散布注重。
4、仅对象 or 仅视频:只用 Object Token 会亏损布景与全局陈迹,性能低于双分支;但在某些偏对象细节的任务上,与仅视频分支至极,泄露 Object Token 的要道信息密度。
5、活水线替换:RAM++ 自相宜分段优于均匀 / 不分段;XMem 追踪略优于 SAM2;不同提案 / 分段 / 追踪组合均权臣好于视频 -only。
不外,团队也提到这项沟通仍存在一定局限性:
相当规划与误检风险:引入专用视觉模子(检测 / 分割 / 追踪)带来约 38.5% 的时延支拨,且低质视频可能导致掩码不准。双分支在一定经过可缓解,但怎么缩小活水线资本、普及鲁棒性仍待工程优化。
分支对都与协同:现时仍依赖视频分支提供高下文,对象—场景会通的最优机制与对都战略是下一步要点。
至此小结一下,VideoOrion 把"对象动态"动作视频语义的基本 Token,在保证紧凑与可讲解的同期,提高了对细节、交互与指代的把捏才气。
团队暗示,它不是替代视频特征,而是对象—场景双视角的结构化重写——一边看全局,一边抓要道。
这个范式或将影响后续的视频问答、检索、机器东谈主感知与视频创作等多模态诈骗。
VideoOrion 论文联贯:https://openaccess.thecvf.com/content/ICCV2025/papers/Feng_VideoOrion_Tokenizing_Object_Dynamics_in_Videos_ICCV_2025_paper.pdf
一键三连「点赞」「转发」「堤防心」
宽宥在批驳区留住你的思法!
— 完 —
� � 快来量子位 MEET2026 智能将来大会,与咱们畅聊 AI 吧!
张亚勤、孙茂松等 AI 行业重磅嘉宾,以及百度、京东、高通、亚马逊等头部 AI 企业已证明出席,RockAI、太始元碁、自变量、小宿科技等业内少壮也将参与共享,还有更多嘉宾行将揭晓 � � 了解笃定
� � 12 月 10 日
� � 北京金茂万丽货仓
,期待与你共论 AI 行业破局之谈
� � 点亮星标 � �
科技前沿表示逐日见天元证券缩量_配资服务全天在线支持
天元证券缩量_配资服务全天在线支持提示:本文来自互联网,不代表本网站观点。