当前位置：首页 > news >正文

MagicTime: Time-Lapse Video Generation Models asMetamorphic Simulators论文精读（1）

news 2026/6/28 14:08:17

T2V的最新进展在文本描述合成高质量的一般视频方面取得了显著成功，但是在T2V中有一个被忽视的问题：没有充分编码真实世界的物理知识，因此生成的视频往往运动会被限制，变化不佳。因此本文提出了一个变形延时视频生成模型，从延时视频中学习真实世界的物理知识。

MagicTime 通过解耦训练、动态帧采样、增强文本理解三大核心策略，结合 ChronoMagic 数据集，实现了高质量变质延时视频的生成，为构建物理世界的变质模拟器提供了有效路径，同时其框架可无缝集成到现有社区模型，为后续研究提供基础。

（一）Introduction

介绍了一下T2V模型现状，然后提出当今模型生成视频缺乏连续的对象变形过程，对物理知识的融入有限如下图a所示，由于训练数据集主要由一般视频组成，当前T2V模型难以生成种子发芽、冰山融化等复杂现象的视频。另一类视频涵盖主体的整个变化过程，文中将这类视频称为变性视频，如图b所示。

此前在Free-bloom: Zero-shot text-to-video generator with LLM director and LDM animator的研究中虽然使用重复推断和连接普通视频产生了类似效果，但是编码物理知识方面有所欠缺，所以本文目标是开发一种端到端的延时视频生成方法，用于自适应编码有较强繁华能力的物理知识。

为了应对生成变性视频的挑战，本文引入了一个MagicTime框架，可以制造时间维度压缩的视频。首先是提出了魔术自适应策略来把物理知识编码到特征提取中，然后提出了动态帧提取策略让模型可以适应延时训练视频，此外还引入一个元文本编码器完善提示理解。

本文还收集了一个数据集，并展示优越性：

（二）Related Work

围绕文本到视频（T2V）生成的相关领域展开梳理，明确现有研究的进展与局限，先是介绍了T2I的发展，然后是T2V发展，然后介绍到本文的延时视频生成，工作目标是生成高质量变性延时视频。这一部分通过梳理 T2I、T2V、延时视频生成三大领域的研究现状，明确了现有工作在 “物理知识编码” 和 “变质过程生成” 上的空白，为本文 MagicTime 框架（融入物理知识、针对变质视频设计专属策略）和 ChronoMagic 数据集（聚焦变质延时视频）的提出提供了合理性与必要性支撑。

（三）Methodology

这一部分简要概述扩散模型，然后描述了ChronoMagic数据集构造。

ChronoMagic Dataset

收集过程：

从YouTube上检索原始视频，使用延时作为搜索条件，随后将标题较短、观看次数较少或缺少标签的视频排除在外。最终收集了2265个符合标准的延时视频。

为了解决互联网视频中场景过渡混乱的问题，确保视频片段连贯性，首先将F定为所有视频帧的集合，然后在初始阶段将F中的每一帧转换为灰度图以减轻颜色对检测的影响：

随后计算连续帧之间的像素强度差：

并计算平均像素强度：

当平均像素强度大于某个阈值，就将这个位置定义为过渡点，但是这种简单的方法易出错，进一步使用CLIP检测转变：

用 CLIP 计算帧的特征相似度，低于阈值则标记为过渡点，仅当两个阶段均标记为过渡点时，才进行视频分割，最终得到低过渡、高连贯的视频片段。使用识别的转换点将视频分割成不同的部分,最终得到较少过渡的高质量视频数据集：

补充：CLIP 计算帧特征相似度的核心逻辑是 “先提取帧的语义级特征向量，再通过余弦相似度衡量向量间的语义一致性”。

多视点文本融合：

采用基于GPT-4V的上下文学习和思想链来分阶段生成字幕：

随后，使用这些字幕来开发整个视频的综合表示，最终生成最终的视频字幕。

http://www.cnnetsun.cn/news/9692.html

相关文章：

Laravel 13多模态表单处理：从入门到精通的6大实战场景，错过等于失业

读捍卫隐私03同步

[Android] B站第三方电视TVapp BV_0.3.10

【time-rs】 time-core crate 的 Cargo.toml 配置文件详解

政府网站与政务新媒体考核指标有什么区别

FLUX.1 Kontext终极指南：重新定义AI图像编辑的边界

Java新手必看：System类为什么会出现安全警告？

基于springboot的大学生实习就业管理系统

AXI-A7.4.1 Overview

V型翅片与六边形蜂窝翅片的散热性能差异

以太网温湿度传感器五重告警方式如何协同工作？

COMSOL介电金属多层膜结构宽谱吸收器：文献复现与吸收特性研究

【必看收藏】LangChain生态实战：LangGraph+LangSmith构建可追踪AI智能体全流程解析

使用DeepSeek开发第一个RAG

Jetson Secure Boot 完整实战指南：从 Fuse Key → Boot Chain → 验签代码路径的源码级解析

【LeetCode30_滑动窗口 + 哈希表】：三招搞定“串联所有单词的子串”

以全栈AI能力重塑智能客服服务效能

如何在PHP项目中嵌入Rust代码？5步实现毫秒级响应的高性能服务集成

英伟达推出云端算力集群监管工具，自证GPU无后门

如何用智能配色工具3步打造品牌视觉一致性

【OD刷题笔记】- 分苹果

MCP SC-400从入门到精通，构建抗量子攻击防线的关键路径

Bigemap Pro水文分析三大核心功能详解：从DEM到精准河网提取

Java学习日志--常见类库（上）

直播带货APP开发的核心流程：推流端、观看端与运营端后台搭建指南

Wan2.2-T2V-A14B生成火星殖民基地建设构想视频

TSF输入法框架开发全指南：从COM组件到拼音输入法落地

在线考试软件哪个好用？

在AWS Athena中使用json_extract_scalar函数对某个json字段进行过滤和分组统计

力扣 22. 括号生成：C++ 实现回溯 + 动态规划双解法，面试高频题必掌握