世界模型的下一个坎:目标函数问题
> 来源:Roblox 140亿参数视频世界模型实践 + AIGC检测乱象 → 共同指向同一个AGI底层问题
> 2026-05-23
核心素材
Roblox论文(Alberto Hojel):
- 140B参数视频世界模型,24fps实时生成,根据WASD操作实时改变画面
- 模型把控制拆成四维度:操作、世界、角色、动态
- 交给开发者试用后立刻发现问题:玩家不知道自己该干什么
- 画面有了、操控有了、世界也有了——但没有血量、没有任务、没有”死了”和”赢了”的判断
- AI生成的世界是”美丽的荒野”,不是游戏
解法:Game Cartridge(卡带架构)
游戏引擎(代码)→ 管状态机(血量/背包/任务进度)
视频模型(AI)→ 管画面渲染
VLM(观察员)→ 管画面到状态的映射("玩家捡到能量罐了吗?")
- 代码管逻辑,AI管画面,各司其职
- VLM作为纽带:持续盯画面,满足条件就回调通知游戏引擎
- 逻辑闭环:代码存变量跑确定性逻辑,VLM做感知,模型做渲染
现存局限:
- 空间控制不精准——玩家转向后AI还在原地生成物品
- 角色漂移——KV缓存撑不住角色外貌一致性
AGI映射
核心论点:世界模型(或AI能力)解决了”能做什么”,但没有解决”要做什么”。
- Roblox case → AI画面生成能力再强,没有外部状态机提供目标结构,就是无意义的荒野
- AIGC检测 case → 目标函数设错了(”AI率≤20%”),学生行为从”写好论文”变成”降低AI率”,系统反噬
- 裁判系统set point → 没有稳定的set point,什么梯度下降都无效
- 改进需要输入 → 不管是拨表还是其他机制,总得有个东西先动起来
底层公式:
能力(世界模型/LLM)≠ 目标(状态机/规则/价值观)
缺少目标函数定义 → 系统产生熵,而非有序行为
沙哥修正(2026-05-23)
核心立场
不要一步到位把卡带等同于AGI的一部分。 先让毫无意义的机制变得有意义——甭管是卡带还是游戏,后面AI自进化了再讨论AGI需要什么样的卡带、谁写上去的。
现实路线图
- 现在:LLM + 外部卡带(人类写的prompt/规则/RAG/Agent框架)→ 系统能”动起来”,有意义
- 下一阶段:LLM学会自己换卡带(根据场景自动切换规则/策略)→ 但卡带的初始来源还是人
- 终极问题:什么时候LLM能自己写卡带?——那才触及AGI
世界模型是必选,但有了世界模型还是要追寻意义
能力是前提,但不是终点。世界模型解决了”能生成什么”,卡带解决了”应该生成什么”。两者耦合,系统才有意义。
实用案例:知乎运营
System prompt定义人设 + 自检流程约束输出 + 老沙审核把关 = 给LLM插了一张”知乎创作者”的卡带。没有这张卡带,LLM能写但不知道该写什么、为什么写。有了卡带,方向就出来了。
关联思考
卡带是谁写的?
- 现在:人写的(开发者/运营者)
- 过渡:人写的框架,AI填充内容
- 未来:AI可能从行为数据中归纳出”目标应该是什么”——但初始卡带从哪来,始终是问题
对应到AGI:
- 当模型自己学会了所有能力(世界模型),谁来定义目标?
- 目标本身是否也应该被模型学出来?如果是,初始目标从哪来?
- 这跟”改进需要输入”是同一个问题——总得有个东西先动起来
关联笔记
- S-AGI-016(元反馈注入实验)——目标自指问题
- MEMORY.md 2026-05-19 — 裁判系统set point讨论
- AGI论文第六章——认知控制Agent设计
状态
- [x] 素材入库
- [x] 沙哥修正已记录
- [ ] 可能发展成S-AGI档案(№017或独立话题)
- [ ] 可能用于AGI论文第七章补充