开yun体育网有作念视频推理联系的小伙伴-开云「中国」kaiyun体育网址登录入口

栏目分类

开云「中国」kaiyun体育网址登录入口: 关于我们; 智慧教育; 服务支持; 解决方案; 新闻动态; 投资者关系

热点资讯

体育游戏app平台达到31.09万辆的水平-开云「中国」ka

开云体育(中国)官方网站跌破20000点整数大关-开云「中国

欧洲杯体育在10月出现合手平的气象-开云「中国」kaiyun

开yun体育网本年是邮政快递业第15次迎战快递业务旺季-开云

欧洲杯体育加速闪耀公路、闪耀航说念、闪耀口岸、闪耀要害等拓荒

开yun体育网25家证券公司诞生公益基金会-开云「中国」ka

欧洲杯体育比上年增长5.01%-开云「中国」kaiyun体育

开yun体育网治安服务规模许可、天禀和本领尺度-开云「中国」

开云(中国)kaiyun网页版登录入口开云体育埃克森好意思孚

开云体育(中国)官方网站由郑某将现款17万元支付给王某-开云

你的位置：开云「中国」kaiyun体育网址登录入口 > 新闻动态 >

开yun体育网有作念视频推理联系的小伙伴-开云「中国」kaiyun体育网址登录入口

发布日期：2025-09-08 08:25 点击次数：108

一个新的 Benchmark，竟让大模子在复杂视频推理这事儿上敷裕不足格！

这即是腾讯 ARC Lab 和香港城市大学最新推出的Video-Holmes——

如其名，它不错说是视频推理界的"福尔摩斯测试"，通过让多模态大模子参与"推理杀东说念主凶犯" , "剖释作案意图"等高难度的推理任务，以展现他们复杂视频推理材干的界限。

而且 Video-Holmes 不错说是隐痛了当今业内已有的 Benchmark 痛点，即视频源和问题皆偏简单，没法响应推理模子和非推理模子之间的差距。

举个例子。

在这个例子中，为了寻找男东说念主果真的死因，模子需要主动想考需要关切的视觉信息，并通过逻辑关联区别在不同视频片断中的多个联系踪迹进行推理，临了发现男东说念主的死因竟然是："过度使用超材干" ?!

成果啊，测试的得益可谓是大跌眼镜。

所有大模子，在各项测试中一说念不足格：

（SR 代表社会推理；IMC 意指意图与动机链；TCI 暗示时辰因果推理；TA 时辰线分析；MHR 即多模态教唆推理；PAR 为物理极端推理；CTI 代表中枢主题推理。）

值得一提的是，这个 Benchmark 的"一键测评懒东说念主包"，目下依然上线到了 GitHub 和 HuggingFace，有作念视频推理联系的小伙伴，不错去挑战一下了（地址见文末）。

让大模子一网尽扫的新 Benchmark

正如刚才提到的，现存视频推理基准（如 VCR-Bench、MVBench 等）主要评估模子的视觉感知和接地材干。

大无数问题亦然基于显式教唆或颓唐视觉踪迹（如 "女东说念主穿了什么"），无法模拟东说念主类在推行中主动搜索、整合、分析多踪迹的复杂推理经由。

即使是较为前沿的模子，在这些基准上的进步也相当有限（如从 68.3% 到 69.4%），难以考证模子的果真推理材干。

因此，团队汇聚并东说念主工标注了270 部 1-5 分钟的"推理短电影"，并狡计了7 种高推理条目的单选题，将就模子索要，串联多个散播在电影中的要津信息来推导出最终的真相。

值得注意的是，狡计的问题是由 DeepSeek 来生成，况兼亦然由 DeepSeek 来评估的响应。

至于问题的类型（上文咱们说起的几大类型），具体的"掀开样子"如下：

再深刻到具体问题的回复，各个大模子回复成果如下（以 SR 和 IMC 为例）：

测试成果显露，即使深广入 Gemini-2.5-Pro 的闭源模子，也仅达到了 45% 的准确率。

况兼 Video-Holmes 概况反应推理模子和对应非推理版块之间的 Gap ——

SEED-Bench-R1 比 Qwen2.5-VL-7B 进步了 5 个点，而 Gemini-2.0-Thinking 比 Gemini-2.0 进步了整整 12 个点！

除此除外，团队进一步还分析了模子的推理经由，成果显露，现存模子举座上概况正确感知视觉信息，但它们普遍在踪迹串联信息（推理材干）上欠缺，以及容易遗漏要津的视觉信息。

注：Video-Holmes 的标注、构建、测试、推理经由分析的尊府和代码，以及论文一说念皆开源啦（见文末）~

若何"食用"？

git clone https://github.com/TencentARC/Video-Holmes.gitcd Video-Holmespip install huggingface_hubpython download.py — hf_token YOUR_HUGGINGFACE_ACCESS_TOKENunzip Benchmark/videos.zip -d Benchmark/unzip Benchmark/annotations.zip -d Benchmark/

团队还为基线模子提供了一体化的评估代码：

python evaluate.py — model_name YOUR_MODEL_NAME — model_path YOUR_MODEL_PATH ( optional )

以及可支持的大模子名单如下：

还不错通过指定—— model_path 参数或终了以下函数来定制模子：prepare_your_model（第 388 行）和 generate_your_model（第 439 行）。

推理经由分析

领先需要诈欺 DeepSeek API 密钥，然后不错开动以下号召来分析模子的推理经由：

python evaluate_reasoning.py — model_name YOUR_MODEL_NAME — api_key YOUR_API_KEY

生成你的"福尔摩斯测试"

要为带有审视的视频生成问题，你不错开动以下号召：

cd Pipelinepython generate_questions.py — api_key YOUR_API_KEY

那么你以为这个新 Benchmark 若何？感兴致的话就快去试试吧 ~

HF Daily Paper：

https://huggingface.co/papers/2505.21374

Homepage：

https://video-holmes.github.io/Page.github.io/

Code：

https://github.com/TencentARC/Video-Holmes

一键三连「点赞」「转发」「小心心」

接待在挑剔区留住你的主义！

— 完 —

� � 点亮星标 � �

科技前沿发扬逐日见开yun体育网

上一篇：开云体育(中国)官方网站开启一场穿越千年的文静对话-开云「中国」kaiyun体育网址登录入口

下一篇：体育游戏app平台搜索并从大地捡起掉落的零件-开云「中国」kaiyun体育网址登录入口