成人电影-自拍偷拍 在线视频 AI危急检测再进化!三层级领悟长视频罕见,各种时序粒度均有赫然上风
你的位置:成人电影 > 七天 白虎 > 自拍偷拍 在线视频 AI危急检测再进化!三层级领悟长视频罕见,各种时序粒度均有赫然上风
自拍偷拍 在线视频 AI危急检测再进化!三层级领悟长视频罕见,各种时序粒度均有赫然上风
发布日期:2025-04-10 14:14    点击次数:196

自拍偷拍 在线视频 AI危急检测再进化!三层级领悟长视频罕见,各种时序粒度均有赫然上风

多模态视频罕见理罢职务自拍偷拍 在线视频,又有新打破!

"罕见浮现"是指在视频监控、自动驾驶等场景中,诈欺模子发现视频中的罕见内容,从而预判危急,以便实时作念出有策动。

来自华中科大等机构的考虑东说念主员,提议了新的视频罕见浮现模子 Holmes-VAU,以及关联数据集。

与通用多模态大模子对比,Holmes-VAU 在各种时序粒度的视频罕见浮现上都展现出权贵上风。

为了终了通达宇宙的多模态视频罕见浮现(VAU),已有的 VAU benchmark 唯有短视频的 caption 标注或长视频的 instruction 标注,忽略了视频罕见事件的时序复杂性。

为同期促进模子对短视频的感知能力和对长视频的推理能力,作家提议了一种高效半自动数据引擎并构建了 HIVAU-70k 数据集,包含超 7 万视频罕见理罢职务的多时序圭表指示数据。

同期作家提议了一种基于罕见分数的时序采样器,从长视频中动态寥落采样重要帧到后续多模态大模子中,权贵擢升了罕见分析的准确性和推理效果。

多层级视频罕见浮现指示数据集

针对视频罕见理罢职务 ( Video Anomaly Understanding ) ,以往的一些罕见视频指示数据集主要有两方面问题:

数据齐集的视频时长较短,导致模子穷乏对长视频的罕见浮现能力;

即便包含长视频,也穷乏对长视频的细粒度和结构化的标注,导致模子的罕见浮现空间难以对皆。

为此,作家提议了一个大型多模态指示数据集 HIVAU-70k,其中包含多种技术粒度的视频罕见标注,由粗到细区别为:

干熟女

video-level:未剪辑长视频,包括视频中通盘罕见事件的文本刻画分析;

event-level:从长视频中剪辑出的罕见事件片断,包括单个罕见事件的文本刻画分析;

clip-level:从 event 中进一步剪辑出的视频片断,包括视频片断的文本刻画。

HIVAU-70k 中的指示数据包括视频刻画、罕见判断、罕见刻画和罕见分析等任务,为视频罕见浮现多模态大模子提供了丰富各种的数据开首。

这么的多层级指示数据集是如何构造的呢?从一个未剪辑的长视频驱动,需要顺序经由以下三个花式:

分层视频解耦(Hierarchical Video Decoupling):将 video-level 视频中的罕见事件标注并剪辑出来,获取 event-level 视频 , 再对 event-level 视频进一步平均切分获取 clip-level 视频;

分层开脱文本刺目(Hierarchical Free-text Annotation):关于 clip-level 视频,使用东说念主工或 caption model 获取 clip caption;关于 event-level 视频,结合所包含的 clip-level caption 和罕见类别,领导 LLM 获取事件归来;关于 video-level 视频,结合所包含的事件归来和罕见类别,领导 LLM 获取视频归来;

档次化指示数据构建(Hierarchical Instruction Data Construction):针对不同层级的视频过火文本标注,联想不同的任务,构造任务关联的问题并与文本刺目组合,获取最终的指示数据。

与其他关联的数据集比拟,HIVAU-70k 不仅罕有量上的上风,还提供了多粒度的文本标注以实时序上的罕见界限标注。

动态寥落采样的视频罕见浮现模子

长视频罕见浮现在使用大型话语模子(LLMs)或视觉话语模子(VLMs)时,常因帧冗余问题而受到摒弃,导致罕见检测的准确性变得复杂。

以往的 VAU(视频罕见浮现)步调难以聚焦罕见。

举例,密集窗口采样步调会增增多量冗余帧的筹备量,而均匀帧采样步调连接错过重要罕见帧,使其应用范畴局限于短视频。

为此,作家提议了 Anomaly-focused Temporal Sampler ( ATS ) ,并将其集成到 VLM 中,通过在 HIVAU-70k 上的指示微调,构建了 Holmes-VAU 模子。

罕见帧时时比遍及帧包含更多信息,并弘扬出更大的变化,基于这一不雅察,作家联想了一种采样政策,在罕见分数较高的区域采样更多帧,同期在分数较低的区域减少采样。

为终了非均匀采样,作家提议了一种"密度感知采样器"(density-aware sampler),用于从统共 T 个输入帧中选拔 N 个帧。

具体来说,作家将罕见分数 S 视为概率质地函数,并领先沿技术维度积存它们,获取积存踱步函数(CDF),记为 S_cumsum:

接着,在积存轴上均匀采样 N 个点,并将这些点映射到积存踱步 S_cumsum 上。相应的技术轴上的 N 个技术戳会被映射到最接近的帧索引,最终酿成采样的帧索引麇集 G。

△Holmes-VAU 模子框架图

下入展示了测试集上的罕见分数和采样帧的可视化摒弃。这些摒弃标明了 ATS 的准确罕见检测能力,最终输入到多模态大模子的采样帧也齐集于罕见区域。

△Anomly-focused Temporal Sampler ( ATS ) 罕见分数及采样帧默示图施行摒弃罕见推感性能评估

作家在 HIVAU-70k 的测试集上,将模子输出的推理文本与刺方针确切文本进行比较,筹备了包括 BLEU、CIDEr、METEOR 和 ROUGE 等策动来料到模子输出的罕见浮现文实质地。

与通用多模态大模子对比,Holmes-VAU 在各种时序粒度的视频罕见浮现上都展现出权贵上风。

在多层级标注中,对不同层级指示数据集的组合,不错不雅察发现,单一层级的标注只可擢升单一层级任务的性能。

不同层级的标注组合不错互相补充,终了从 clip-level 的基础视觉感知 , 到 event-level 单一罕见事件的分析,再到 video-level 的万古序罕见归来和推理等方面的全面擢升,达到更细粒度和无缺的多模态罕见空间对皆。

关于非均匀采样器的作用,作家也对比了不同帧采样方式,包括本文提议的 ATS、之前列法用的 Top-K 采样和 Uniform 采样。

摒弃标明在一样的采样帧数下,ATS 展现出更优厚的长视频罕见浮现能力,这是由于 Top-K 采样过于齐集在罕见帧,忽略了视频凹凸文的参考,Uniform 采样则容易忽略重要的罕见帧。

而作家提议的 ATS 则灵验结合了这两者的上风,体恤罕见帧的同期,或者保留部分凹凸文帧的采样。

定性比较

下图对比了 Holmes-VAU 和其他 MLLM 输出的罕见分析文本,Holmes-VAU 弘扬出更准确的罕见判断和分析能力,同期对长视频也弘扬出更无缺的罕见归来能力。

△Holmes-VAU 和其他 MLLM 的罕见分析文实质地对比

论文:

https://arxiv.org/abs/2412.06171

代码:

https://github.com/pipixin321/HolmesVAU

一键三连「点赞」「转发」「留神心」

接待在挑剔区留住你的念念法!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 样貌主页联接,以及干系方式哦

咱们会(尽量)实时回话你

� � 点亮星标 � �

科技前沿进展逐日见自拍偷拍 在线视频