世界模型首次实现“存档”:VAST Project Eden重构AI世界模拟范式
日期:2026-06-02 13:46:12 / 人气:3

过去一年,世界模型成为AI行业最核心的赛道之一。各类机构纷纷推出相关技术方案,依托文本、动作、镜头指令生成连续视频画面,让AI展现出极强的视觉生成能力,看似具备了“创造虚拟世界”的能力。但行业普遍存在一个核心痛点:绝大多数世界模型只是视频预测器,而非真正的世界模拟器。
这类模型仅能基于像素帧续写画面,无法独立维护客观、持久的世界状态。物体离开镜头即“消失”、切换视角后场景逻辑错乱、多用户视角无法统一等问题,始终无法根治。在此行业瓶颈下,VAST正式发布Project Eden,通过架构级革新实现世界状态独立存储与持续演化,让AI世界模型第一次拥有了“存档、读档、持续迭代”的能力,彻底打破传统视频生成式世界模型的底层局限。
01 行业困局:当下的世界模型,只是“会动的视频”
目前业内主流的世界模型方案主要分为两类,二者均存在结构性缺陷,无法支撑真正的交互式虚拟世界构建。
第一类是动作条件视频生成模型,也是当下最主流的方案。这类模型可根据文本、图像、动作或相机轨迹生成连贯短视频,视觉表现力强、落地门槛低、交互观感直观。但其核心短板在于,全程基于2D像素轨迹预测,场景物体位置、状态、物理逻辑等核心信息,全部隐式压缩在有限的历史帧中,没有独立的世界状态存储单元。
这就导致模型仅能“续写画面”,无法“维护世界”。一旦物体离开相机视野、镜头长时间切换或场景交互复杂化,模型只能凭空“幻想”画面内容,频繁出现物体消失、结构变形、前后逻辑矛盾等问题,短时长流畅、长时长崩坏成为行业通病。
第二类是静态3D场景生成模型。这类技术可以生成可游览的三维空间,相比2D视频生成更贴近真实空间形态。但它仅具备静态空间搭建能力,缺失时间维度推演、物理规则运算和状态转移机制。只能实现“被动观看”,无法支持场景交互、状态改变和持续演化,算不上真正的世界模型。
由此,VAST明确了通用世界模型的两大核心标准,也是行业长期缺失的核心能力:一是精准定义世界当下的客观状态,二是驱动世界状态随时间、动作、交互持续自主演化。唯有同时满足这两点,AI才能从“生成一段画面”进阶为“构建一个可交互、可运营的虚拟世界”。
02 架构革命:三层解耦设计,重构世界模型底层逻辑
Project Eden的核心突破,是彻底颠覆传统模型“像素预测、状态画面耦合”的底层逻辑,采用底层状态推演与视觉呈现原生解耦的三层架构,从根源上解决时空一致性、状态持续性问题,也是其实现“世界存档”的核心依托。整套架构分为结构化状态层、条件接口层、生成式渲染层,三层分工明确、层层协同。
第一层:结构化状态层——独立存在的世界“底层存档”
这是整套系统的核心地基,也是区别于所有传统世界模型的关键。该层构建了一个跨时间持续存在、可交互更新、全视角可查询的全局结构化表征,不依赖任何相机视角、独立于视觉画面存在。不同于高成本的4D点云方案,VAST采用紧凑的隐式表征设计,兼顾语义丰富度与运算效率。
该层全权负责记录世界的客观真相:场景布局、物体位置、材质属性、物理状态、交互变化等所有核心信息全部被持久化存储。无论镜头如何移动、用户是否离开、视角如何切换,底层世界始终持续运转、状态不丢失、逻辑不中断,真正实现了世界的“永久存档”。
第二层:条件接口层——状态与画面的转换枢纽
作为中间转换层,它承担着状态翻译、约束适配的核心作用。能够将底层统一的全局世界状态,根据不同相机位置、观测视角,转化为对应的局部语义信息、几何线索、动态事件约束,为上层渲染提供精准的结构依据。
这一设计从机制上解决了多视角一致性难题:所有用户、所有智能体的渲染画面,均源自同一个底层世界状态,只是呈现的视角不同。彻底杜绝了传统模型“一人一世界、视角不统一”的问题,为多人并发交互奠定了基础。
第三层:生成式渲染层——专注视觉细节的画面输出
传统模型需要同时承担结构推演、逻辑计算、画面生成多重任务,极易出现逻辑漏洞。而Project Eden的渲染层无需猜测场景结构与物体状态,仅专注于视觉细节优化。依托底层稳定的结构约束,精准补全纹理、光照、材质、高频动态细节,高效输出高保真、高一致性的视觉画面。
整体架构实现了逻辑闭环:先推演世界真实状态,再渲染用户可视画面,彻底告别传统“像素续写”模式,从技术上完成了从“视频生成”到“世界模拟”的跨越。
03 三大颠覆性能力:解锁传统模型无法触及的系统级优势
依托三层解耦架构,Project Eden原生解锁了长程持久化、场景可复用、多智能体并发三大核心能力,彻底突破行业技术边界,实现商业化价值的跨越式提升。
1、环境长程持久化:世界拥有真实“长期记忆”
这是“世界存档”最直观的体现。在传统模型中,物体离开镜头即逻辑消失;而在Project Eden中,所有物体、场景的状态都会持久保留在底层结构中,持续遵循物理规则演化。用户转身、退出场景、重新进入后,场景布局、物体状态、交互痕迹完全保留,不会出现凭空消失、随机形变的问题。AI生成内容不再是一次性短视频,而是可反复进入、持续存在的真实虚拟环境。
2、场景自由复用与确定性控制:内容从“一次性生成”到“可持续运营”
传统视频生成是单向、不可逆的时间线,生成结束即定型,无法回退、无法分支、无法复用。Project Eden的底层状态支持自由读写、人工干预和实时修改。用户在场景中完成的建造、破坏、位移、状态调整等所有操作,都会真实写入底层世界存档。后续进入同一场景的所有用户、智能体,均可看到完全一致的场景变化。
这一能力让AI内容生产彻底升级,将一次性的视觉素材,转化为可编辑、可迭代、可多人复用、可长期运营的交互式空间,大幅降低3D互动内容的生产与迭代成本。
3、原生多智能体并发:算力可控,支撑规模化落地
多用户、多智能体交互是传统世界模型的最大痛点。传统方案需要为每个玩家单独维护一套视频生成上下文,用户数量增加会导致算力成本指数级暴涨,且无法保证多视角场景一致性。
Project Eden采用“单状态、多渲染”模式:全局仅维护一份底层世界状态,所有用户、智能体共享统一世界逻辑,仅根据各自视角独立渲染画面。算力成本从指数级增长变为线性增长,在保障交互一致性的同时,解决了多人在线的性能瓶颈,成为行业商业化规模化落地的核心突破。
04 核心数据策略:双态对齐,兼顾泛化性与精准度
技术架构之外,数据体系是世界模型迭代的核心壁垒。VAST针对性打造了双态对齐数据策略,成为支撑Project Eden稳定运行的底层数据底座。所谓双态对齐,即保证底层逻辑推演态(结构、物理、规则)与上层视觉渲染态(高清画面、细节纹理)完全精准匹配。
为此,VAST搭建双层数据体系:L1层级依托自研3D基础模型,对海量互联网无标注2D视频进行反向解构,提取深度信息、相机位姿、几何轨迹,将普通视频转化为双态对齐数据,最大化学习真实世界的场景分布与形态特征,保障模型泛化能力。
L2层级依托游戏引擎批量合成精准数据,产出带有精准3D标注、动作指令、环境变化轨迹的高质量配对数据,让模型深度学习严密的物理演化规则与交互控制逻辑。
“互联网数据拓广度+引擎数据提精度”的双层策略,完美平衡了真实场景泛化能力与物理逻辑严谨性,规避了单一数据来源的短板,为世界模型的稳定性、真实性、可控性提供了核心支撑。
05 价值跃迁:不止内容生成,更是AI与元宇宙底层基建
Project Eden的落地意义,远超一款3D生成工具,它正在重塑AI交互内容、具身智能、通用AI的底层基建。
在内容创作层面,传统3D交互内容生产需要建模、美术、动画、物理引擎、关卡设计、网络同步等复杂流程,门槛极高。Project Eden大幅降低创作门槛,赋能普通创作者、虚拟社区、AI原生游戏、自然语言驱动的互动内容生产,实现3D交互内容的高效量产。
在AI技术层面,它为通用人工智能、具身智能、多智能体协同训练提供了绝佳的仿真环境。相较于只能生成画面的传统模型,Project Eden可提供持续稳定、规则一致、可反复交互迭代的虚拟世界,让AI智能体能够长期探索、积累交互经验、学习真实世界物理规则,补齐当前行业“真实场景数据短缺、智能体训练场景单一”的核心短板。
结语
Project Eden并未实现通用世界模拟器的终极形态,但它确立了世界模型全新的发展范式:未来的AI世界模型,核心不是“画好画面”,而是“守住世界规则、维护世界状态”。
从像素续写到底层状态持久化,从一次性视觉生成到可迭代、可复用、可多人协同的虚拟世界,VAST的技术突破打通了AI内容生成、空间计算、机器人仿真、多智能体训练的技术边界。随着“可存档、可演化、可交互”的生成式世界逐步成熟,AI行业将从视觉生成时代,正式迈入世界模拟与智能交互的全新阶段。
作者:奇亿娱乐
新闻资讯 News
- 排队霸占商圈B1层!爆火的新鲜零...06-02
- 对话文少卿:李克用的相貌“复原...06-02
- 世界模型首次实现“存档”:VA...06-02
- 告别OpenAI叙事:零一万物的A...06-02

