世界模型首次实现“存档”：VAST Project Eden重构AI世界模拟范式

日期：2026-06-02 13:46:12 / 人气：30

过去一年，世界模型成为AI行业最核心的赛道之一。各类机构纷纷推出相关技术方案，依托文本、动作、镜头指令生成连续视频画面，让AI展现出极强的视觉生成能力，看似具备了“创造虚拟世界”的能力。但行业普遍存在一个核心痛点：绝大多数世界模型只是视频预测器，而非真正的世界模拟器。
这类模型仅能基于像素帧续写画面，无法独立维护客观、持久的世界状态。物体离开镜头即“消失”、切换视角后场景逻辑错乱、多用户视角无法统一等问题，始终无法根治。在此行业瓶颈下，VAST正式发布Project Eden，通过架构级革新实现世界状态独立存储与持续演化，让AI世界模型第一次拥有了“存档、读档、持续迭代”的能力，彻底打破传统视频生成式世界模型的底层局限。
01 行业困局：当下的世界模型，只是“会动的视频”
目前业内主流的世界模型方案主要分为两类，二者均存在结构性缺陷，无法支撑真正的交互式虚拟世界构建。
第一类是动作条件视频生成模型，也是当下最主流的方案。这类模型可根据文本、图像、动作或相机轨迹生成连贯短视频，视觉表现力强、落地门槛低、交互观感直观。但其核心短板在于，全程基于2D像素轨迹预测，场景物体位置、状态、物理逻辑等核心信息，全部隐式压缩在有限的历史帧中，没有独立的世界状态存储单元。
这就导致模型仅能“续写画面”，无法“维护世界”。一旦物体离开相机视野、镜头长时间切换或场景交互复杂化，模型只能凭空“幻想”画面内容，频繁出现物体消失、结构变形、前后逻辑矛盾等问题，短时长流畅、长时长崩坏成为行业通病。
第二类是静态3D场景生成模型。这类技术可以生成可游览的三维空间，相比2D视频生成更贴近真实空间形态。但它仅具备静态空间搭建能力，缺失时间维度推演、物理规则运算和状态转移机制。只能实现“被动观看”，无法支持场景交互、状态改变和持续演化，算不上真正的世界模型。
由此，VAST明确了通用世界模型的两大核心标准，也是行业长期缺失的核心能力：一是精准定义世界当下的客观状态，二是驱动世界状态随时间、动作、交互持续自主演化。唯有同时满足这两点，AI才能从“生成一段画面”进阶为“构建一个可交互、可运营的虚拟世界”。
02 架构革命：三层解耦设计，重构世界模型底层逻辑
Project Eden的核心突破，是彻底颠覆传统模型“像素预测、状态画面耦合”的底层逻辑，采用底层状态推演与视觉呈现原生解耦的三层架构，从根源上解决时空一致性、状态持续性问题，也是其实现“世界存档”的核心依托。整套架构分为结构化状态层、条件接口层、生成式渲染层，三层分工明确、层层协同。
第一层：结构化状态层——独立存在的世界“底层存档”
这是整套系统的核心地基，也是区别于所有传统世界模型的关键。该层构建了一个跨时间持续存在、可交互更新、全视角可查询的全局结构化表征，不依赖任何相机视角、独立于视觉画面存在。不同于高成本的4D点云方案，VAST采用紧凑的隐式表征设计，兼顾语义丰富度与运算效率。
该层全权负责记录世界的客观真相：场景布局、物体位置、材质属性、物理状态、交互变化等所有核心信息全部被持久化存储。无论镜头如何移动、用户是否离开、视角如何切换，底层世界始终持续运转、状态不丢失、逻辑不中断，真正实现了世界的“永久存档”。
第二层：条件接口层——状态与画面的转换枢纽
作为中间转换层，它承担着状态翻译、约束适配的核心作用。能够将底层统一的全局世界状态，根据不同相机位置、观测视角，转化为对应的局部语义信息、几何线索、动态事件约束，为上层渲染提供精准的结构依据。
这一设计从机制上解决了多视角一致性难题：所有用户、所有智能体的渲染画面，均源自同一个底层世界状态，只是呈现的视角不同。彻底杜绝了传统模型“一人一世界、视角不统一”的问题，为多人并发交互奠定了基础。
第三层：生成式渲染层——专注视觉细节的画面输出
传统模型需要同时承担结构推演、逻辑计算、画面生成多重任务，极易出现逻辑漏洞。而Project Eden的渲染层无需猜测场景结构与物体状态，仅专注于视觉细节优化。依托底层稳定的结构约束，精准补全纹理、光照、材质、高频动态细节，高效输出高保真、高一致性的视觉画面。
整体架构实现了逻辑闭环：先推演世界真实状态，再渲染用户可视画面，彻底告别传统“像素续写”模式，从技术上完成了从“视频生成”到“世界模拟”的跨越。
03 三大颠覆性能力：解锁传统模型无法触及的系统级优势
依托三层解耦架构，Project Eden原生解锁了长程持久化、场景可复用、多智能体并发三大核心能力，彻底突破行业技术边界，实现商业化价值的跨越式提升。
1、环境长程持久化：世界拥有真实“长期记忆”
这是“世界存档”最直观的体现。在传统模型中，物体离开镜头即逻辑消失；而在Project Eden中，所有物体、场景的状态都会持久保留在底层结构中，持续遵循物理规则演化。用户转身、退出场景、重新进入后，场景布局、物体状态、交互痕迹完全保留，不会出现凭空消失、随机形变的问题。AI生成内容不再是一次性短视频，而是可反复进入、持续存在的真实虚拟环境。
2、场景自由复用与确定性控制：内容从“一次性生成”到“可持续运营”
传统视频生成是单向、不可逆的时间线，生成结束即定型，无法回退、无法分支、无法复用。Project Eden的底层状态支持自由读写、人工干预和实时修改。用户在场景中完成的建造、破坏、位移、状态调整等所有操作，都会真实写入底层世界存档。后续进入同一场景的所有用户、智能体，均可看到完全一致的场景变化。
这一能力让AI内容生产彻底升级，将一次性的视觉素材，转化为可编辑、可迭代、可多人复用、可长期运营的交互式空间，大幅降低3D互动内容的生产与迭代成本。
3、原生多智能体并发：算力可控，支撑规模化落地
多用户、多智能体交互是传统世界模型的最大痛点。传统方案需要为每个玩家单独维护一套视频生成上下文，用户数量增加会导致算力成本指数级暴涨，且无法保证多视角场景一致性。
Project Eden采用“单状态、多渲染”模式：全局仅维护一份底层世界状态，所有用户、智能体共享统一世界逻辑，仅根据各自视角独立渲染画面。算力成本从指数级增长变为线性增长，在保障交互一致性的同时，解决了多人在线的性能瓶颈，成为行业商业化规模化落地的核心突破。
04 核心数据策略：双态对齐，兼顾泛化性与精准度
技术架构之外，数据体系是世界模型迭代的核心壁垒。VAST针对性打造了双态对齐数据策略，成为支撑Project Eden稳定运行的底层数据底座。所谓双态对齐，即保证底层逻辑推演态（结构、物理、规则）与上层视觉渲染态（高清画面、细节纹理）完全精准匹配。
为此，VAST搭建双层数据体系：L1层级依托自研3D基础模型，对海量互联网无标注2D视频进行反向解构，提取深度信息、相机位姿、几何轨迹，将普通视频转化为双态对齐数据，最大化学习真实世界的场景分布与形态特征，保障模型泛化能力。
L2层级依托游戏引擎批量合成精准数据，产出带有精准3D标注、动作指令、环境变化轨迹的高质量配对数据，让模型深度学习严密的物理演化规则与交互控制逻辑。
“互联网数据拓广度+引擎数据提精度”的双层策略，完美平衡了真实场景泛化能力与物理逻辑严谨性，规避了单一数据来源的短板，为世界模型的稳定性、真实性、可控性提供了核心支撑。
05 价值跃迁：不止内容生成，更是AI与元宇宙底层基建
Project Eden的落地意义，远超一款3D生成工具，它正在重塑AI交互内容、具身智能、通用AI的底层基建。
在内容创作层面，传统3D交互内容生产需要建模、美术、动画、物理引擎、关卡设计、网络同步等复杂流程，门槛极高。Project Eden大幅降低创作门槛，赋能普通创作者、虚拟社区、AI原生游戏、自然语言驱动的互动内容生产，实现3D交互内容的高效量产。
在AI技术层面，它为通用人工智能、具身智能、多智能体协同训练提供了绝佳的仿真环境。相较于只能生成画面的传统模型，Project Eden可提供持续稳定、规则一致、可反复交互迭代的虚拟世界，让AI智能体能够长期探索、积累交互经验、学习真实世界物理规则，补齐当前行业“真实场景数据短缺、智能体训练场景单一”的核心短板。
结语
Project Eden并未实现通用世界模拟器的终极形态，但它确立了世界模型全新的发展范式：未来的AI世界模型，核心不是“画好画面”，而是“守住世界规则、维护世界状态”。
从像素续写到底层状态持久化，从一次性视觉生成到可迭代、可复用、可多人协同的虚拟世界，VAST的技术突破打通了AI内容生成、空间计算、机器人仿真、多智能体训练的技术边界。随着“可存档、可演化、可交互”的生成式世界逐步成熟，AI行业将从视觉生成时代，正式迈入世界模拟与智能交互的全新阶段。

作者：奇亿娱乐

世界模型首次实现“存档”：VAST Project Eden重构AI世界模拟范式

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →