被顶会 ICCV 2025 以 554 高分经受的视频和会框架来了!
视频包含的信息远比图像复杂,现存的 Video-LLM 常靠下采样或 Token 团聚来"挤"进谈话模子,不免会丢细节并形谚语义纠缠(entanglement)。

于是,北大和 UCSD 团队建议VideoOrion——

告成把远景里显赫的时空动态编码成 Object Tokens 并与 Context Tokens 并行喂给 LLM,搭建出一个高效、可评释、具指代才气的视频和会框架。
将 Object Dynamics 显式索求成突破的 Token,既可压缩数据量,又让 LLM 的对皆更当然。
现实线路,它在 MVBench、EgoSchema、Perception-Test、VideoMME、ActivityNet-QA 等上全体跨越,并当然演化出视频指代问答才气。

中枢方法:双分支编码 + 用"检–分–跟"三步构成物体动态 tokenizer
传统视频 Token 多是按空间栅格或特征团聚取得,语义容易纠缠。
VideoOrion 把对象过火跨帧演化作为一级语义单元,使 LLM 在推理时不错沿对象维度整合细节,既擢升细粒度问答,也为指代等需要"锁定实例"的任务提供自然接口。
在以下案例中:比拟仅场景级描述,模子能说清"红色三轮滑板车 + 拖地组件"的细节或"玄色泳装 + 跳板后空翻"的动作身分。

据了解,VideoOrion 接纳双分支并行编码:
Context Tokens:用 CLIP(VideoOrion)/SigLIP(VideoOrion+)编码采样帧,经 STC Connector 投影为凹凸文 Token(如每帧数百个),主要承载配景 / 场景等泛化信息;
Object Tokens:通过检测—分割—追踪(detect – segment – track)的 pipeline,在以 GroundingDINO(通用方式)在关节帧产生对象候选框之后用 SAM 将候选框细化为对象掩码,确保鸿沟与阵势信息;再用 XMem 跨帧追踪对象掩码,取得随时分演化的掩码序列;临了对掩码池化后的特征作念投影(线性 /MLP 即可),形成紧凑的 Object Token(数目上限可控,语义 disentangle)。
两类 Token 将被一谈输入 LLM 和会推理。

因为视频里远景会相差画面、场景突变,商榷另建议按远景物体出现变化自稳健切片以谨慎检测与相关,幸免均匀切段带来的跨段错配。
在对象活水线的替换现实中(提案器 / 分段政策 / 追踪器),不管用 RAM++、Mask2Former 作念提案,一经改为均匀 / 不切分,或以 SAM2 替代 XMem,全体都褂讪优于仅视频分支,最好组合为 RAM++ 分段 + GroundingDINO 提案 + XMem 追踪。
现实与效用:细节和会与指代才气双擢升
VideoOrion(7B)在MVBench / EgoSchema / Perception-Test / VideoMME / ActivityNet-QA上,全面卓著同 backbone 的 VideoLLaMA2/2.1。
具体相对涨幅分袂为 +10.1%、+14.6%、+15.6%、+8.7%、+7.8%(VideoOrion+ 亦有左近或更高增幅),体现了 Object Token 带来的细粒度语义增益。
进一步看表格数值:在 7B LLM 竖立下,VideoOrion 在 MVBench/EgoSchema/Perception-Test/VideoMME(w/o/w subs)/ActivityNet-QA(Acc/Score)达到 63.5 / 65.1 / 65.2 / 54.6 – 55.3 / 57.7 – 3.7,相对多款开源 / 闭源同限制模子具有较着上风。

成绩于显式 Object Token,VideoOrion 自然因循视频指代——
在教唆模板中把方向对象对应的 Token 填入 即可完成"指这个物体在作念什么"的问答。
团队在VideoRef45K上对比 Artemis、Merlin 等方法,零样本即灵验,经小限制指代数据微调后(3 epoch)多项目标(BLEU@4、METEOR、ROUGE_L、CIDEr、SPICE)全面跨越,考据 Object Token 对指代和会的告成助益。

消融与分析:Object Token 的"必要与落拓"
1、有无对象分支:在等数据量下,把对象分支去掉的基础 VideoLLaMA2 模子在各基准上都落伍。
2、对象分支预考验是否遑急:对象分支作念预考验全体更优,说明 Object 像视觉 Token 相通,需要先学基本语义再对皆文本。
3、Object Token 数目:模子在达到最多 64 个 Object Token 往往最稳,过少信息不及、过多反而散播扫视。
4、仅对象 or 仅视频:只用 Object Token 会赔本配景与全局陈迹,性能低于双分支;但在某些偏对象细节的任务上,与仅视频分支相配,线路 Object Token 的关节信息密度。
5、活水线替换:RAM++ 自稳健分段优于均匀 / 不分段;XMem 追踪略优于 SAM2;不同提案 / 分段 / 追踪组合均显赫好于视频 -only。
不外,团队也提到这项商榷仍存在一定局限性:
特别筹画与误检风险:引入专用视觉模子(检测 / 分割 / 追踪)带来约 38.5% 的时延支拨,且低质视频可能导致掩码不准。双分支在一定过程可缓解,但如何裁减活水线本钱、擢升鲁棒性仍待工程优化。
分支对皆与协同:刻下仍依赖视频分支提供凹凸文,对象—场景和会的最优机制与对皆政策是下一步要点。
至此小结一下,VideoOrion 把"对象动态"作为视频语义的基本 Token,在保证紧凑与可评释的同期,提高了对细节、交互与指代的把抓才气。
团队示意,它不是替代视频特征,而是对象—场景双视角的结构化重写——一边看全局,一边抓关节。
这个范式或将影响后续的视频问答、检索、机器东谈主感知与视频创作等多模态哄骗。
VideoOrion 论文连气儿:https://openaccess.thecvf.com/content/ICCV2025/papers/Feng_VideoOrion_Tokenizing_Object_Dynamics_in_Videos_ICCV_2025_paper.pdf
一键三连「点赞」「转发」「堤防心」
接待在探讨区留住你的思法!
— 完 —
� � 快来量子位 MEET2026 智能将来大会,与咱们畅聊 AI 吧!
张亚勤、孙茂松等 AI 行业重磅嘉宾,以及百度、京东、高通、亚马逊等头部 AI 企业已说明出席,RockAI、太始元碁、自变量、小宿科技等业内少壮也将参与共享,还有更多嘉宾行将揭晓 � � 了解细目
� � 12 月 10 日
� � 北京金茂万丽旅舍
,期待与你共论 AI 行业破局之谈
� � 点亮星标 � �
科技前沿发达逐日见天元证券缩量_配资服务全天在线支持
天元证券缩量_配资服务全天在线支持提示:本文来自互联网,不代表本网站观点。