七天 白虎
- onlyfans 免费视频 绝对堕入绝境! 连气儿发动39次集群打击 当场销亡16960名作战士兵
- 91porn downloader 因部分金融钞票分类不准确,西安银行实时任行长、董事长等被出具警示函
- 撸撸射百度影音 指导价7.28-10.18万元/先享价6.98万起 祯祥星愿厚爱上市
- 丝袜 porn 宋智孝总结演职责任 时隔4年出演电影《救助者》
- 撸撸射百度影音 乡村振兴在步履丨在这里, 发现 “江南秘境”的共富“密码”
- 撸撸射百度影音 2024年市政协责任回眸|松开城乡差距 让孩子在平正优质的考验环境中放飞梦念念
- 文爱 胸 小熊饼干 2024年10月30日义乌市阛阓发展集团有限公司农批贬责分公司价钱行情
- 黑丝 探花 10连板华映科技称控股鼓吹近日卖出0.61%公司股份
- 好利来 丝袜 丸好意思股份也要打科技牌
- 婷儿 户外 下周起 买手机等数码产物每件最高补500元!商务部:更多以旧换新笃定陆续印发
- 发布日期:2025-04-10 14:14 点击次数:196
多模态视频罕见理罢职务自拍偷拍 在线视频,又有新打破!
"罕见浮现"是指在视频监控、自动驾驶等场景中,诈欺模子发现视频中的罕见内容,从而预判危急,以便实时作念出有策动。
来自华中科大等机构的考虑东说念主员,提议了新的视频罕见浮现模子 Holmes-VAU,以及关联数据集。
与通用多模态大模子对比,Holmes-VAU 在各种时序粒度的视频罕见浮现上都展现出权贵上风。
为了终了通达宇宙的多模态视频罕见浮现(VAU),已有的 VAU benchmark 唯有短视频的 caption 标注或长视频的 instruction 标注,忽略了视频罕见事件的时序复杂性。
为同期促进模子对短视频的感知能力和对长视频的推理能力,作家提议了一种高效半自动数据引擎并构建了 HIVAU-70k 数据集,包含超 7 万视频罕见理罢职务的多时序圭表指示数据。
同期作家提议了一种基于罕见分数的时序采样器,从长视频中动态寥落采样重要帧到后续多模态大模子中,权贵擢升了罕见分析的准确性和推理效果。
多层级视频罕见浮现指示数据集
针对视频罕见理罢职务 ( Video Anomaly Understanding ) ,以往的一些罕见视频指示数据集主要有两方面问题:
数据齐集的视频时长较短,导致模子穷乏对长视频的罕见浮现能力;
即便包含长视频,也穷乏对长视频的细粒度和结构化的标注,导致模子的罕见浮现空间难以对皆。
为此,作家提议了一个大型多模态指示数据集 HIVAU-70k,其中包含多种技术粒度的视频罕见标注,由粗到细区别为:
干熟女video-level:未剪辑长视频,包括视频中通盘罕见事件的文本刻画分析;
event-level:从长视频中剪辑出的罕见事件片断,包括单个罕见事件的文本刻画分析;
clip-level:从 event 中进一步剪辑出的视频片断,包括视频片断的文本刻画。
HIVAU-70k 中的指示数据包括视频刻画、罕见判断、罕见刻画和罕见分析等任务,为视频罕见浮现多模态大模子提供了丰富各种的数据开首。
这么的多层级指示数据集是如何构造的呢?从一个未剪辑的长视频驱动,需要顺序经由以下三个花式:
分层视频解耦(Hierarchical Video Decoupling):将 video-level 视频中的罕见事件标注并剪辑出来,获取 event-level 视频 , 再对 event-level 视频进一步平均切分获取 clip-level 视频;
分层开脱文本刺目(Hierarchical Free-text Annotation):关于 clip-level 视频,使用东说念主工或 caption model 获取 clip caption;关于 event-level 视频,结合所包含的 clip-level caption 和罕见类别,领导 LLM 获取事件归来;关于 video-level 视频,结合所包含的事件归来和罕见类别,领导 LLM 获取视频归来;
档次化指示数据构建(Hierarchical Instruction Data Construction):针对不同层级的视频过火文本标注,联想不同的任务,构造任务关联的问题并与文本刺目组合,获取最终的指示数据。
与其他关联的数据集比拟,HIVAU-70k 不仅罕有量上的上风,还提供了多粒度的文本标注以实时序上的罕见界限标注。
动态寥落采样的视频罕见浮现模子
长视频罕见浮现在使用大型话语模子(LLMs)或视觉话语模子(VLMs)时,常因帧冗余问题而受到摒弃,导致罕见检测的准确性变得复杂。
以往的 VAU(视频罕见浮现)步调难以聚焦罕见。
举例,密集窗口采样步调会增增多量冗余帧的筹备量,而均匀帧采样步调连接错过重要罕见帧,使其应用范畴局限于短视频。
为此,作家提议了 Anomaly-focused Temporal Sampler ( ATS ) ,并将其集成到 VLM 中,通过在 HIVAU-70k 上的指示微调,构建了 Holmes-VAU 模子。
罕见帧时时比遍及帧包含更多信息,并弘扬出更大的变化,基于这一不雅察,作家联想了一种采样政策,在罕见分数较高的区域采样更多帧,同期在分数较低的区域减少采样。
为终了非均匀采样,作家提议了一种"密度感知采样器"(density-aware sampler),用于从统共 T 个输入帧中选拔 N 个帧。
具体来说,作家将罕见分数 S 视为概率质地函数,并领先沿技术维度积存它们,获取积存踱步函数(CDF),记为 S_cumsum:
接着,在积存轴上均匀采样 N 个点,并将这些点映射到积存踱步 S_cumsum 上。相应的技术轴上的 N 个技术戳会被映射到最接近的帧索引,最终酿成采样的帧索引麇集 G。
△Holmes-VAU 模子框架图
下入展示了测试集上的罕见分数和采样帧的可视化摒弃。这些摒弃标明了 ATS 的准确罕见检测能力,最终输入到多模态大模子的采样帧也齐集于罕见区域。
△Anomly-focused Temporal Sampler ( ATS ) 罕见分数及采样帧默示图施行摒弃罕见推感性能评估
作家在 HIVAU-70k 的测试集上,将模子输出的推理文本与刺方针确切文本进行比较,筹备了包括 BLEU、CIDEr、METEOR 和 ROUGE 等策动来料到模子输出的罕见浮现文实质地。
与通用多模态大模子对比,Holmes-VAU 在各种时序粒度的视频罕见浮现上都展现出权贵上风。
在多层级标注中,对不同层级指示数据集的组合,不错不雅察发现,单一层级的标注只可擢升单一层级任务的性能。
不同层级的标注组合不错互相补充,终了从 clip-level 的基础视觉感知 , 到 event-level 单一罕见事件的分析,再到 video-level 的万古序罕见归来和推理等方面的全面擢升,达到更细粒度和无缺的多模态罕见空间对皆。
关于非均匀采样器的作用,作家也对比了不同帧采样方式,包括本文提议的 ATS、之前列法用的 Top-K 采样和 Uniform 采样。
摒弃标明在一样的采样帧数下,ATS 展现出更优厚的长视频罕见浮现能力,这是由于 Top-K 采样过于齐集在罕见帧,忽略了视频凹凸文的参考,Uniform 采样则容易忽略重要的罕见帧。
而作家提议的 ATS 则灵验结合了这两者的上风,体恤罕见帧的同期,或者保留部分凹凸文帧的采样。
定性比较
下图对比了 Holmes-VAU 和其他 MLLM 输出的罕见分析文本,Holmes-VAU 弘扬出更准确的罕见判断和分析能力,同期对长视频也弘扬出更无缺的罕见归来能力。
△Holmes-VAU 和其他 MLLM 的罕见分析文实质地对比
论文:
https://arxiv.org/abs/2412.06171
代码:
https://github.com/pipixin321/HolmesVAU
一键三连「点赞」「转发」「留神心」
接待在挑剔区留住你的念念法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 样貌主页联接,以及干系方式哦
咱们会(尽量)实时回话你
� � 点亮星标 � �
科技前沿进展逐日见自拍偷拍 在线视频
- ai 萝莉 《方丈主母》:简约点开的剧,超等精彩2025-04-03
- 刘涛 ai换脸 盛帮股份:3月31日获融资买入389.31万元2025-04-02
- 金晨 ai换脸 遇水就推广,2岁男孩误吞“水精灵”堵塞肠谈被送医抢救2025-03-25
- onlyfans 免费视频 听“北京短谈世锦赛”的老一又友 讲解特等20年的故事2025-03-17
- swag 免费视频 从12.9%降至12%傍边 江苏推出22项重心举措缩小全社会物流老本2025-03-16
- 调教 母狗 世优(北京)科技央求基于互联网的视频自动生成系统专利, 有助于捕捉到视频的中枢主题和弥留元素2025-01-17