多模态视频绝顶理罢免务泷泽萝拉作品,又有新冲突!
"绝顶领会"是指在视频监控、自动驾驶等场景中,诓骗模子发现视频中的绝顶内容,从而预判危机,以便实时作念出方案。
来自华中科大等机构的磋商东谈主员,建议了新的视频绝顶领会模子 Holmes-VAU,以及关联数据集。
与通用多模态大模子对比,Holmes-VAU 在各式时序粒度的视频绝顶领会上都展现出显赫上风。
为了完了怒放寰宇的多模态视频绝顶领会(VAU),已有的 VAU benchmark 唯有短视频的 caption 标注或长视频的 instruction 标注,忽略了视频绝顶事件的时序复杂性。
为同期促进模子对短视频的感知能力和对长视频的推理能力,作家建议了一种高效半自动数据引擎并构建了 HIVAU-70k 数据集,包含超 7 万视频绝顶理罢免务的多时序措施指示数据。
同期作家建议了一种基于绝顶分数的时序采样器,从长视频中动态稀薄采样关节帧到后续多模态大模子中,显赫普及了绝顶分析的准确性和推理后果。
多层级视频绝顶领会指示数据集
针对视频绝顶理罢免务 ( Video Anomaly Understanding ) ,以往的一些绝顶视频指示数据集主要有两方面问题:
数据集结的视频时长较短,导致模子穷乏对长视频的绝顶领会能力;
即便包含长视频,也穷乏对长视频的细粒度和结构化的标注,导致模子的绝顶领会空间难以对都。
为此,作家建议了一个大型多模态指示数据集 HIVAU-70k,其中包含多种技巧粒度的视频绝顶标注,由粗到细区别为:
video-level:未编著长视频,包括视频中系数绝顶事件的文本形容分析;
event-level:从长视频中编著出的绝顶事件片断,包括单个绝顶事件的文本形容分析;
clip-level:从 event 中进一步编著出的视频片断,包括视频片断的文本形容。
HIVAU-70k 中的指示数据包括视频形容、绝顶判断、绝顶形容和绝顶分析等任务,为视频绝顶领会多模态大模子提供了丰富各样的数据起首。
这么的多层级指示数据集是如何构造的呢?从一个未编著的长视频启动,需要步骤历程以下三个才调:
分层视频解耦(Hierarchical Video Decoupling):将 video-level 视频中的绝顶事件标注并编著出来,获取 event-level 视频 , 再对 event-level 视频进一步平均切分获取 clip-level 视频;
分层目田文本考究(Hierarchical Free-text Annotation):关于 clip-level 视频,使用东谈主工或 caption model 获取 clip caption;关于 event-level 视频,归拢所包含的 clip-level caption 和绝顶类别,教导 LLM 获取事件回首;关于 video-level 视频,归拢所包含的事件回首和绝顶类别,教导 LLM 获取视频回首;
好大夫在线头绪化指示数据构建(Hierarchical Instruction Data Construction):针对不同层级的视频偏激文本标注,诡计不同的任务,构造任务关联的问题并与文本考究组合,获取最终的指示数据。
与其他关联的数据集比拟,HIVAU-70k 不仅稀有量上的上风泷泽萝拉作品,还提供了多粒度的文本标注以实时序上的绝顶领域标注。
动态稀薄采样的视频绝顶领会模子
长视频绝顶领会在使用大型话语模子(LLMs)或视觉话语模子(VLMs)时,常因帧冗余问题而受到为止,导致绝顶检测的准确性变得复杂。
以往的 VAU(视频绝顶领会)方法难以聚焦绝顶。
举例,密集窗口采样方法会增多大都冗余帧的磋磨量,而均匀帧采样方法往往错过关节绝顶帧,使其应用规模局限于短视频。
为此,作家建议了 Anomaly-focused Temporal Sampler ( ATS ) ,并将其集成到 VLM 中,通过在 HIVAU-70k 上的指示微调,构建了 Holmes-VAU 模子。
绝顶帧往往比日常帧包含更多信息,并说明出更大的变化,基于这一不雅察,作家诡计了一种采样计谋,在绝顶分数较高的区域采样更多帧,同期在分数较低的区域减少采样。
为完了非均匀采样,作家建议了一种"密度感知采样器"(density-aware sampler),用于从统统 T 个输入帧中选拔 N 个帧。
具体来说,作家将绝顶分数 S 视为概率质料函数,并率先沿技巧维度蕴蓄它们,获取蕴蓄散播函数(CDF),记为 S_cumsum:
接着,在蕴蓄轴上均匀采样 N 个点,并将这些点映射到蕴蓄散播 S_cumsum 上。相应的技巧轴上的 N 个技巧戳会被映射到最接近的帧索引,最终酿成采样的帧索引聚积 G。
△Holmes-VAU 模子框架图
下入展示了测试集上的绝顶分数和采样帧的可视化扫尾。这些扫尾标明了 ATS 的准确绝顶检测能力,最终输入到多模态大模子的采样帧也集结于绝顶区域。
△Anomly-focused Temporal Sampler ( ATS ) 绝顶分数及采样帧泄漏图实践扫尾绝顶推感性能评估
作家在 HIVAU-70k 的测试集上,将模子输出的推理文本与考究的的确文本进行比较,磋磨了包括 BLEU、CIDEr、METEOR 和 ROUGE 等标的来意象模子输出的绝顶领会文骨子量。
与通用多模态大模子对比,Holmes-VAU 在各式时序粒度的视频绝顶领会上都展现出显赫上风。
在多层级标注中,对不同层级指示数据集的组合,不错不雅察发现,单一层级的标注只可普及单一层级任务的性能。
不同层级的标注组合不错互相补充,完了从 clip-level 的基础视觉感知 , 到 event-level 单一绝顶事件的分析,再到 video-level 的永劫序绝顶回首和推理等方面的全面普及,达到更细粒度和完好意思的多模态绝顶空间对都。
关于非均匀采样器的作用,作家也对比了不同帧采样花式,包括本文建议的 ATS、之前哨法用的 Top-K 采样和 Uniform 采样。
扫尾标明在疏通的采样帧数下,ATS 展现出更优胜的长视频绝顶领会能力,这是由于 Top-K 采样过于集结在绝顶帧,忽略了视频高下文的参考,Uniform 采样则容易忽略关节的绝顶帧。
而作家建议的 ATS 则灵验归拢了这两者的上风,和蔼绝顶帧的同期,大要保留部分高下文帧的采样。
定性比较
下图对比了 Holmes-VAU 和其他 MLLM 输出的绝顶分析文本,Holmes-VAU 说明出更准确的绝顶判断和分析能力,同期对长视频也说明出更完好意思的绝顶回首能力。
△Holmes-VAU 和其他 MLLM 的绝顶分析文骨子量对比
论文:
https://arxiv.org/abs/2412.06171
代码:
https://github.com/pipixin321/HolmesVAU
一键三连「点赞」「转发」「预防心」
原谅在考虑区留住你的思法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 模样主页聚合,以及联系花式哦
咱们会(尽量)实时复兴你
� � 点亮星标 � �
科技前沿进展逐日见泷泽萝拉作品