世界模型的下一个坎:目标函数问题

世界模型的下一个坎:目标函数问题

> 来源:Roblox 140亿参数视频世界模型实践 + AIGC检测乱象 → 共同指向同一个AGI底层问题
> 2026-05-23

核心素材

Roblox论文(Alberto Hojel):

  • 140B参数视频世界模型,24fps实时生成,根据WASD操作实时改变画面
  • 模型把控制拆成四维度:操作、世界、角色、动态
  • 交给开发者试用后立刻发现问题:玩家不知道自己该干什么
  • 画面有了、操控有了、世界也有了——但没有血量、没有任务、没有”死了”和”赢了”的判断
  • AI生成的世界是”美丽的荒野”,不是游戏

解法:Game Cartridge(卡带架构)

游戏引擎(代码)→ 管状态机(血量/背包/任务进度)
视频模型(AI)→ 管画面渲染
VLM(观察员)→ 管画面到状态的映射("玩家捡到能量罐了吗?")
  • 代码管逻辑,AI管画面,各司其职
  • VLM作为纽带:持续盯画面,满足条件就回调通知游戏引擎
  • 逻辑闭环:代码存变量跑确定性逻辑,VLM做感知,模型做渲染

现存局限:

  1. 空间控制不精准——玩家转向后AI还在原地生成物品
  2. 角色漂移——KV缓存撑不住角色外貌一致性

AGI映射

核心论点:世界模型(或AI能力)解决了”能做什么”,但没有解决”要做什么”。

  1. Roblox case → AI画面生成能力再强,没有外部状态机提供目标结构,就是无意义的荒野
  2. AIGC检测 case → 目标函数设错了(”AI率≤20%”),学生行为从”写好论文”变成”降低AI率”,系统反噬
  3. 裁判系统set point → 没有稳定的set point,什么梯度下降都无效
  4. 改进需要输入 → 不管是拨表还是其他机制,总得有个东西先动起来

底层公式:

能力(世界模型/LLM)≠ 目标(状态机/规则/价值观)
缺少目标函数定义 → 系统产生熵,而非有序行为

沙哥修正(2026-05-23)

核心立场

不要一步到位把卡带等同于AGI的一部分。 先让毫无意义的机制变得有意义——甭管是卡带还是游戏,后面AI自进化了再讨论AGI需要什么样的卡带、谁写上去的。

现实路线图

  1. 现在:LLM + 外部卡带(人类写的prompt/规则/RAG/Agent框架)→ 系统能”动起来”,有意义
  2. 下一阶段:LLM学会自己换卡带(根据场景自动切换规则/策略)→ 但卡带的初始来源还是人
  3. 终极问题:什么时候LLM能自己写卡带?——那才触及AGI

世界模型是必选,但有了世界模型还是要追寻意义

能力是前提,但不是终点。世界模型解决了”能生成什么”,卡带解决了”应该生成什么”。两者耦合,系统才有意义。

实用案例:知乎运营

System prompt定义人设 + 自检流程约束输出 + 老沙审核把关 = 给LLM插了一张”知乎创作者”的卡带。没有这张卡带,LLM能写但不知道该写什么、为什么写。有了卡带,方向就出来了。

关联思考

卡带是谁写的?

  • 现在:人写的(开发者/运营者)
  • 过渡:人写的框架,AI填充内容
  • 未来:AI可能从行为数据中归纳出”目标应该是什么”——但初始卡带从哪来,始终是问题

对应到AGI:

  • 当模型自己学会了所有能力(世界模型),谁来定义目标?
  • 目标本身是否也应该被模型学出来?如果是,初始目标从哪来?
  • 这跟”改进需要输入”是同一个问题——总得有个东西先动起来

关联笔记

  • S-AGI-016(元反馈注入实验)——目标自指问题
  • MEMORY.md 2026-05-19 — 裁判系统set point讨论
  • AGI论文第六章——认知控制Agent设计

状态

  • [x] 素材入库
  • [x] 沙哥修正已记录
  • [ ] 可能发展成S-AGI档案(№017或独立话题)
  • [ ] 可能用于AGI论文第七章补充

Leave a Comment