九游体育app(中国)官方网站当作后续内容检索的基础-九游「中国」Ninegame·官方网站-登录入口

发布日期：2026-04-12 19:58 点击次数：130

处理数百小时超长视频九游体育app(中国)官方网站，单张 3090 就够了？！

这是来自香港大学黄超解说本质室发布的最新研讨后果——VideoRAG。

具体而言，VideoRAG 不错在单张 RTX 3090 GPU ( 24GB）上高效处理长达数百小时的超长视频内容。这意味着只需要一张庸俗的显卡，就能一语气完好不雅看一部《黑悟空》这么的长视频。

此外，VideoRAG 还领有更正的多模态检索机制。

它取舍了动态知识图谱构建和多模态特征编码的工夫，将视频内容浓缩为基于多模态险阻文的结构化知识暗示。这不仅撑捏复杂的跨视频推理，还好像精确地进行多模态内容检索。

况且，为了鼓动该领域的进一步发展，研讨团队还发布了LongerVideos 基准数据集。

该数据集涵盖了160 多个长达数小时的视频，为将来的研讨提供了贵重的撑捏。

更多具体内容如下。

冲破传统文本 RAG 跨模态局限

尽管 RAG ( Retrieval-Augmented Generation ) 工夫通过引入外部知识权贵提高了谎言语模子的性能，但其应用场景仍局限于文才智域。

视频当作一种复杂的多模态信息载体，涵盖视觉、语音和文本等异构特征，其会通与处理濒临三约莫道挑战：

多模态知识交融：传统文本 RAG 形态难以有用捕捉视频中的跨模态交互，异常是在建模视觉动态特征（如主见指点轨迹）与语音讲明之间的时序关联方面存在局限；

长序列依赖建模：现存形态频频通过视频截断或要道帧索要来简化处理，这弗成幸免地导致动作连气儿性亏蚀，形成险阻文割裂，影响跨视频知识整合的效果，难以保捏万古视频的语义连贯性；

鸿沟化检索效力：在大鸿沟视频库场景下，现存形态在检索速率与驱散质地间存在彰着权衡，且多依赖单一模态（如语音转录文本）进行检索，未能充分哄骗视觉语义信息。

为冲破上述贬抑，团队提议更正性 RAG 框架 VideoRAG，通过双通说念架构杀青以下工夫更正：

1、图谱运转的跨模态知识关联：构建动态演化的语义辘集，将视频片断映射为结构化知识节点，有用捕捉并建模跨视频语义关联；

2、有用的多模态险阻文编码：确立视觉 - 文本合股表征空间，保留细粒度时空特征暗示，权贵增强视频内容会通才智；

3、合乎混杂检索形态：交融知识图谱推理与视觉特征匹配，冲破设想资源贬抑，杀青低显存奢靡下的百小时级视频精确检索。

基于首个超长跨视频会通基准数据集LongerVideos的全地方评估标明，VideoRAG 在超长视频内容会通雇务上展现出超卓性能，为耕作知识库构建、影视内容分析等骨子应用场景提供了极具后劲的惩处决议。

VideoRAG 框架设想

VideoRAG 更正性地交融多模态知识索引与知识运转检索机制，杀青对视频中视觉、音频及语义信息的高效捕捉、系统化组织与精确检索。

该框架冲破了传统视频长度贬抑，撑捏对表面上无穷时长的视频输入进行智能分析，为超长视频会通领域始创了新范式。

双通说念多模态视频知识索引：冲破传统范式

视频当作复杂的多模态信息载体，交融了视觉、音频及文本等多维度信息，其处理难度远超传统文本。

现存的文本 RAG 形态在处理视频数据时濒临三大根人性挑战：视觉动态特征索要、时序依赖性建模以及跨模态语义交互。针对这些挑战，VideoRAG 更正性地提议双通说念架构，杀青了对长视频的高效组织与智能索引，同期保捏了多模态内容的语义完好性：

基于知识图谱的多模态语义对皆

视觉 - 文本映射：在视觉语义建模才智，本框架取舍细巧化的视频分段战术，将视频流定期序均匀诀别为连气儿片断。为均衡设想效力与信息完好性，每个片断通过智能采样算法索要不高出 10 个代表性要道帧。

随后，借助先进的视觉话语模子 ( VLM ) ，自动生成高质地的当然话语形貌，杀青对视频画面中物体、动作语义及场景动态等多维度特征的系统性捕捉。

音频语义转机与交融

在音频处理模块，系统部署了高性能的语音识别 ( ASR ) 工夫，精确索要视频中的对话内容与旁白信息。

通过更正的语义交融机制，将音频文本信息与视觉形貌进行深度整合，构建长入的跨模态语义暗示体系，有用保留了视听信息的语义完好性。

跨视频知识辘集构建

基于 LLMs 识别实体关系，动态吞并多视频语义节点，形周到局知识辘集，确保跨视频内容的一致性与关联性。

多模态险阻文编码

为杀青跨视频的语义关联，框架基于谎言语模子 ( LLMs ) 设想了动态知识图谱构建机制。

系统自动识别并索要视频内容中的中枢实体与关系信息，通过智能吞并算法动态交融多个视频的语义节点，最终形成结构化的全局知识辘集。

这一更正设想确保了跨视频内容的语义一致性，当作后续内容检索的基础。

混杂检索范式：多维度视频会通

VideoRAG 更正性地交融文本语义与视觉内容的双重匹配机制，通过深度语义会通与多模态信息交融，杀青了超高精度的视频片断检索。该框架包含三大中枢工夫模块：

1）知识运转的语义匹配模块: 基于知识图谱的高等语义会通机制，系统奉行多档次的智能检索经由。

率先进行查询意图重构，随后通过实体关系辘集进行精确匹配，继而完成关连文本块的智能筛选，最终定位主见视频片断。这种层级化的检索战术确保了语义会通的深度与准确性。

2）跨模态视觉内容匹配引擎: 系统取舍先进的语义转机工夫，将用户查询智能滚动为形态化的场景形貌。

通过专用多模态编码器，实时生成视频片断的高维特征向量暗示，并基于更正的相似度设盘算推算法，杀青精确的跨模态内容匹配。这一设想权贵提高了视觉语义检索的准确性。

3）基于谎言语模子的智能过滤机制: 框架整合了先进的谎言语模子 ( LLMs ) 工夫，对检索驱散进行多维度的关连性评估与智能筛选。

通过深度语义会通，有用过滤低关连性内容与噪声信息，确保系统输出高质地、准确度的回答。这种智能过滤机制提高了检索驱散的可靠性。

反映生成：双阶段深度会通框架

在告捷检索到关连视频片断后，VideoRAG 通过更正性的双阶段内容会通与生成机制，杀青高质地的智能问答：

基于谎言语模子的语义会通与要道词索要。系统领先对用户查询进行深度语义分析，智能索要中枢要道词与意图特征。

这些高价值的语义信息随后与精选的视频要道帧沿途，输入到先进的视觉话语模子 ( VLM ) 中，生成富含视觉细节的场景形貌。这种交融式的处理形态权贵提高了系统对视觉内容的会通深度。

多模态知识整合与谜底生成。在第二阶段，系统调用先进的谎言语模子（如 GPT4 或 DeepSeek），将检索到的多模态信息与用户查询进行深度交融。

通过成心优化的指示工程，模子好像笼统哄骗文本语义、视觉特征和险阻文信息，生成既包含丰富视觉细节，又具备深层语义会通的高质地回答。这一设想确保了系统反映的准确性、完好性和连贯性。

本质考证

团队在业界首个超长跨视频会通基准数据集 LongerVideos 上，对 VideoRAG 框架进行了系统性的性能评估与本质考证。评估使命涵盖三约莫道维度：

( 1 ) 与主流 RAG 框架的对比本质

通过与刻下主流的检索增强生成系统（包括 NaiveRAG、GraphRAG 和 LightRAG）进行全面对比，深切考证了 VideoRAG 在视频会通与信息检索方面的工夫上风。

( 2 ) 与刻下视觉模子的性能对标

针对撑捏超长视频输入的大鸿沟视觉模子（LLaMA-VID、NotebookLM、VideoAgent），进行了详备的性能对比。

( 3 ) 深切的模子组件分析

通过系统性的消融本质（包括移除知识图谱组件 -Graph、视觉会通模块 -Vision），结合典型案例分析，深切查验了各中枢组件对系统全体性能的孝敬。

LongerVideos 超长视频会通基准测试数据

LongerVideos 是首个专注于超长视频会通的笼统性基准数据集，收录了共计164 个高质地视频，累计时长冲破134 小时。

该数据集经过全心操办，系统性地涵盖了学术讲座、专科记录片和笼统文娱节目三大中枢应用场景，既确保了内容的种种性与代表性，也为跨视频推理才智的评估提供了坚实基础。

相较于现存视频问答基准数据集多半存在的局限性（如单视频时长不及 1 小时、场景单一等），LongerVideos 杀青了权贵的工夫冲破。

通过蔓延单个视频的时辰跨度，并撑捏复杂的跨视频语义会通与推理，该数据集为超长视频会通工夫的发展提供了愈加全面、科学的评估基准。

这些更正特质不仅弥补了现存评估体系的不及，更为关连工夫的跳动提供了蹙迫的测试数据集。

此外，团队设想了一套的双层评估框架，通过定性与定量相结合的形貌，系统性地考证 VideoRAG 的性能线路：

胜率评估：取舍基于谎言语模子的智能评估决议，通过部署 GPT-4-mini 当作专科评判器，对比分析不同模子生成的谜底质地。

定量评估：在胜率评估的基础上，确立了严格的定量评估体系。通过预设形态谜底并取舍细巧的 5 分制评分形态（1 分代表最低质地，5 分代表最优线路），杀青了评估驱散的可量化与可比较性。

评估框架涵盖五个中枢维度：

1、内容全面性（Comprehensiveness）：权衡谜底对关连信息的笼罩范围与完好度；

2、用户赋能性（Empowerment）：评估谜底在提高用户会通力与决策才智方面的效果；

3、回答真确度（Trustworthiness）：查验谜底的准确性、细节充实度及与学问的协作性；

4、分析深度（Depth）：考证谜底在领略问题时的深切进程与知长途；

5、信息密度（Density）：评估谜底在保捏爽脆性的同期传递有用信息的才智。

RAG 笼统性能评估：VideoRAG 的工夫上风

本质驱散披露，VideoRAG 在总共评估维度和视频类型中均展现出权贵上风，全面超越了包括 NaiveRAG、GraphRAG 和 LightRAG 在内的现存 RAG 形态。

这一超卓线路主要源于两大中枢工夫更正：独创的知识图谱索引与多模态险阻文编码交融机制，精确拿获视频中的动态视觉特征与深层语义信息；以及更正的混杂多模态检索范式，通过有机结合文本语义匹配与视觉内容镶嵌检索，权贵提高了跨视频检索的精确度。

与 NaiveRAG 比拟，本系统在内容全面性 ( Comprehensiveness ) 和用户赋能性 ( Empowerment ) 方面线路超卓，这收货于其先进的知识索引架构和遍及的跨视频信息整合才智。

实考证明，VideoRAG 的更正架构好像更有用地处理和整合跨视频的复杂信息，为用户提供愈加全面和深切的谜底。

在与 GraphRAG 和 LightRAG 的对比中，VideoRAG 在视觉 - 文本信息对皆和查询感知检索等要道工夫方针上均杀青冲破，使生成的谜底在险阻文连贯性和会通深度方面赢得权贵提高，告捷引颈知识运转型视频问答工夫的新发展。

这些工夫上风充分证明了 VideoRAG 在处理复杂视频会通雇务时的超卓才智。

与长视频会通模子的性能对比

VideoRAG 在总共维度和视频类型上性能均权贵超越 LLaMA-VID、NotebookLM 和 VideoAgent 等主流长视频模子。这种全地方的性能上风，充分体现了本系统在处理超长视频内容时的工夫的上风。

通过更正性地引入图增强的多模态索引和检索机制，VideoRAG 告捷冲破了传统 LVMs 在处理长视频时濒临的设想瓶颈。这一机制不仅能高效处理跨视频的知识伙同，更不错准确捕捉复杂的信息依赖关系，在性能上权贵超越了 LLaMA-VID 等现存模子。

比拟仅依赖单一模态的基线模子（如专注于视觉的 VideoAgent 和侧重语音转录的 NotebookLM），VideoRAG 展现出优异的多模态信息交融才智。

系统通过细巧的跨模态对皆机制，杀青了视觉、音频和文本信息的深度整合，为超长视频内容会通提供了更全面、更深切的分析才智。

消融本质分析

为系统评估 VideoRAG 框架中多模态索引和检索机制的有用性，团队设想了两组对照本质。

本质通过移除中枢功能模块，构建了两个要道变体：变体 1 ( -Graph ) 移除了基于图的索引 - 检索管说念，变体 2 ( -Vision ) 则去除了多模态编码器中的视觉索引和检索组件。

这种针对性的模块消融设想，使团队好像精确评估各中枢组件的孝敬度。

图索引机制的作用。变体 1 ( -Graph ) 的本质驱散披露，移除图形模块后系统性能出现权贵下跌。

这一餍足有劲证明了基于图的索引 - 检索机制在处理复杂视频内容时的要道价值。该机制不仅能有用捕捉跨视频间的深层关联，更在构建视频知识依赖辘集方面阐扬着弗成替代的作用。

视觉处理才智的作用。变体 2 ( -Vision ) 的本质数据雷同呈现出性能的大幅下滑，充分说明了视觉信息处理关于视频会通的蹙迫性。

这一驱散强调了多模态险阻文交融在提高系统全体性能方面的要道作用，突显了视觉模块当作 VideoRAG 框架中枢组件的蹙迫地位。

视频会通的案例分析

1、查询确立与数据开始

本案例考取了极具代表性的查询：" The role of graders in reinforcement fine-tuning "，基于 OpenAI 2024 年发布的 12 天系列视频（总时长 3.43 小时）进行分析。

主见信息主要结合在第 2 天的内容中，这种复杂的跨视频查询场景为系统性能评估提供了理思的测试环境。

2、VideoRAG 的检索线路

本质驱散展示了 VideoRAG 超卓的信息检索和整合才智。

系统准细目位并索要了第 2 天视频中的中枢内容，包括评分员的基本界说、评分系统的运作机制以及具体的评分示例。通过多维度的信息团员，VideoRAG 告捷构建了一个全面、准确且具有充分笔据撑捏的专科回答。

3、系统性能对比分析

与 LightRAG 的对比驱散突显了 VideoRAG 在处理深度工夫内容方面的权贵上风。

尽管两个系统都好像提供评分系统的基础成见解释，但 VideoRAG 在评分员评分机制的工夫细节线路上彰着更胜一筹。

比拟 LightRAG 给出的上层形貌，VideoRAG 提供了更深切、更专科的工夫领略，体现了系统在处理复杂专科内容时的特有上风。

本案例研讨通过案例分析，再次考证了 VideoRAG 在三个中枢工夫维度的超卓性能：

1、知识图谱构建才智

系统展现出优异的知识图谱构建才智，不仅能精确拿获视频内容间的复杂关联关系，更能构建起完好的知识依赖辘集，为深度会通提供了坚实基础。

2、多模态检索精度

在多模态信息检索方面，VideoRAG 杀青了高度精确的检索效果，好像准细目位和索要跨模态的要道信息，充分体现了系统在处理复杂信息检索任务时的工夫上风。

3、跨视频信息整合

系统在处理和整合来自多个超长视频的要道信息时线路出色，通过先进的信息交融机制，杀青了复杂视频内容的高效处理和准确会通。

VideoRAG: 工夫更正与将来预测

冲破性工夫架构

VideoRAG 通过始创性的双通说念索引架构，告捷杀青了跨视频知识的深度关联与细粒度视觉特征的精确保留。这一更正设想不仅冲破了传统视频会通的局限，更为复杂场景下的知识图谱构建斥地了新路线。

先进检索机制

系统更正性地提议混杂检索范式，通过有机交融语义匹配与内容镶嵌工夫，权贵提高了多模态信息的对皆精度。这种先进的检索机制为处理复杂的跨模态视频内容提供了更可靠的工夫撑捏。

形态化评估体系

通过确立 LongerVideos 基准，VideoRAG 为长视频会通研讨提供了一个轨范化的评估平台。这一基准着实立不仅鼓动了领域研讨的形态化发展，也为后续工夫冲破提供了可靠的考证基础。

将来发展主见

预测将来，VideoRAG 将重心拓展两约莫道领域：实时视频流处理才智的增强，以及多话语撑捏体系的构建。这些更正探索将进一步膨大视频知识的应用领域，开释更大的视频会通工夫后劲。

代码开源地址：

https://github.com/HKUDS/VideoRAG

论文：

https://arxiv.org/abs/2502.01549

本质室主页（香港大学数据科学本质室）：

https://github.com/HKUDS

— 完 —

投稿请使命日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿内容‍

附上论文 / 名目主页伙同，以及掂量形貌哦

咱们会（尽量）实时修起你

一键关爱 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「留意心」

宽待在指摘区留住你的思法！九游体育app(中国)官方网站

九游体育app(中国)官方网站当作后续内容检索的基础-九游「中国」Ninegame·官方网站-登录入口

友情链接：