一个新的 Benchmark,竟让大模子在复杂视频推理这事儿上敷裕不足格!
这即是腾讯 ARC Lab 和香港城市大学最新推出的Video-Holmes——
如其名,它不错说是视频推理界的"福尔摩斯测试",通过让多模态大模子参与"推理杀东说念主凶犯" , "剖释作案意图"等高难度的推理任务,以展现他们复杂视频推理材干的界限。
而且 Video-Holmes 不错说是隐痛了当今业内已有的 Benchmark 痛点,即视频源和问题皆偏简单,没法响应推理模子和非推理模子之间的差距。
举个例子。
在这个例子中,为了寻找男东说念主果真的死因,模子需要主动想考需要关切的视觉信息,并通过逻辑关联区别在不同视频片断中的多个联系踪迹进行推理,临了发现男东说念主的死因竟然是:"过度使用超材干" ?!
成果啊,测试的得益可谓是大跌眼镜。
所有大模子,在各项测试中一说念不足格:
(SR 代表社会推理;IMC 意指意图与动机链;TCI 暗示时辰因果推理;TA 时辰线分析;MHR 即多模态教唆推理;PAR 为物理极端推理;CTI 代表中枢主题推理。)
值得一提的是,这个 Benchmark 的"一键测评懒东说念主包",目下依然上线到了 GitHub 和 HuggingFace,有作念视频推理联系的小伙伴,不错去挑战一下了(地址见文末)。
让大模子一网尽扫的新 Benchmark
正如刚才提到的,现存视频推理基准(如 VCR-Bench、MVBench 等)主要评估模子的视觉感知和接地材干。
大无数问题亦然基于显式教唆或颓唐视觉踪迹(如 "女东说念主穿了什么"),无法模拟东说念主类在推行中主动搜索、整合、分析多踪迹的复杂推理经由。
即使是较为前沿的模子,在这些基准上的进步也相当有限(如从 68.3% 到 69.4%),难以考证模子的果真推理材干。
因此,团队汇聚并东说念主工标注了270 部 1-5 分钟的"推理短电影",并狡计了7 种高推理条目的单选题,将就模子索要,串联多个散播在电影中的要津信息来推导出最终的真相。
值得注意的是,狡计的问题是由 DeepSeek 来生成,况兼亦然由 DeepSeek 来评估的响应。
至于问题的类型(上文咱们说起的几大类型),具体的"掀开样子"如下:
再深刻到具体问题的回复,各个大模子回复成果如下(以 SR 和 IMC 为例):
测试成果显露,即使深广入 Gemini-2.5-Pro 的闭源模子,也仅达到了 45% 的准确率。
况兼 Video-Holmes 概况反应推理模子和对应非推理版块之间的 Gap ——
SEED-Bench-R1 比 Qwen2.5-VL-7B 进步了 5 个点,而 Gemini-2.0-Thinking 比 Gemini-2.0 进步了整整 12 个点!
除此除外,团队进一步还分析了模子的推理经由,成果显露,现存模子举座上概况正确感知视觉信息,但它们普遍在踪迹串联信息(推理材干)上欠缺,以及容易遗漏要津的视觉信息。
注:Video-Holmes 的标注、构建、测试、推理经由分析的尊府和代码,以及论文一说念皆开源啦(见文末)~
若何"食用"?
git clone https://github.com/TencentARC/Video-Holmes.gitcd Video-Holmespip install huggingface_hubpython download.py — hf_token YOUR_HUGGINGFACE_ACCESS_TOKENunzip Benchmark/videos.zip -d Benchmark/unzip Benchmark/annotations.zip -d Benchmark/
团队还为基线模子提供了一体化的评估代码:
python evaluate.py — model_name YOUR_MODEL_NAME — model_path YOUR_MODEL_PATH ( optional )
以及可支持的大模子名单如下:
还不错通过指定—— model_path 参数或终了以下函数来定制模子:prepare_your_model(第 388 行)和 generate_your_model(第 439 行)。
推理经由分析
领先需要诈欺 DeepSeek API 密钥,然后不错开动以下号召来分析模子的推理经由:
python evaluate_reasoning.py — model_name YOUR_MODEL_NAME — api_key YOUR_API_KEY
生成你的"福尔摩斯测试"
要为带有审视的视频生成问题,你不错开动以下号召:
cd Pipelinepython generate_questions.py — api_key YOUR_API_KEY
那么你以为这个新 Benchmark 若何?感兴致的话就快去试试吧 ~
HF Daily Paper:
https://huggingface.co/papers/2505.21374
Homepage:
https://video-holmes.github.io/Page.github.io/
Code:
https://github.com/TencentARC/Video-Holmes
一键三连「点赞」「转发」「小心心」
接待在挑剔区留住你的主义!
— 完 —
� � 点亮星标 � �
科技前沿发扬逐日见开yun体育网