通往AGI之路:当前大模型的局限性与系统工程实现
The Path to AGI: Limitations of Current Large Models and a Systems Engineering Approach
版本:V7 | 日期:2026-05-23
V7核心改动:三项前置声明重写第1章引言定位段;新增”当前模型不稳定性”小节(第2章末尾);新增”世界模型完善度≠AGI有用性”小节(第3-4章之间);补充世界模型目标结构缺失(第3章末尾);重写广义世界模型分阶段路径(第4章末尾);补充多Agent博弈→纳什均衡稳态(第6章末尾);重写自主意识加入观测者模型(第7章);补充Set Point外生=通用初始条件(第7章末尾);新增附录A”为什么需要AGI”。
摘要
通用人工智能(AGI)的实现路径正处于关键的分岔路口。以Transformer架构为基础的大语言模型虽已取得突破性进展,但其本质——即对训练数据中token统计关联模式的精妙复现——使其在以统计相关替代因果理解的深层困境中步履蹒跚。本文系统梳理了通往AGI必须解决的七个核心问题,并逐层展开论证:世界模型的对齐、自主意识、设定点驱动的内在动机、内生价值观体系的建构、沙箱隔离环境的设计、自我改进能力的架构化、以及动态信息感知的实现。
本文的核心贡献在于四个方面。首先,提出PhyCog(Physical Cognition)框架——一条从高保真物理仿真训练世界引擎,经神经符号解码提取符号化物理定律,到LLM作为”物理程序员”调度经典求解器的三阶段递进路径,以此回应世界模型对齐这一最根本的挑战。其次,提出受脑科学启发的多Agent认知架构,将海马体、前额叶皮层、默认模式网络、前扣带皮层等脑区功能映射为专门化的Agent模块,以系统工程方式渐进实现自主意识、价值观内嵌与沙箱隔离。第三,提出“拨表旋”启动机制,以认知不协调作为内在张力的来源,驱动系统产生第一个内部生成的目标。第四,本文提出“功能等价”的AGI定义路径——从第三方视角出发,智能体表现得像具备自主意识即可视作具备,先表现得像,再追究本质——并将”观测者模型”引入自主意识架构,论证了自我不是独立实体而是观测者维持的稳态。在此基础上,本文还讨论了人类愚蠢残差的工程化保留、数据香料隐喻下的社会影响推演以及后劳动社会的三种可能形态,并在新增的附录A中直面”为什么需要AGI”这一价值哲学层面的根本追问。
本文的分析揭示了一条核心悖论:AGI的每一子系统既是独立的技术难题,又与其他子系统形成无法割裂的相互依赖关系——这意味着通往AGI的道路不是单一维度的技术延伸,而是多条轨道汇聚的系统工程。
关键词:通用人工智能;世界模型;脑科学架构;多Agent系统;价值观对齐;PhyCog框架;元伦理宪法;Transformer局限性;观测者模型;纳什均衡稳态;广义世界模型
核心术语对照表
本文横跨系统论、脑科学、AI工程、哲学等多个领域,以下术语对照表帮助读者预先建立跨领域的概念映射:
| 系统论概念 | 脑科学映射 | AI工程实现 | 文中章节 |
|---|---|---|---|
| 正反馈回路(成长引擎) | 海马体SWR重放→前额叶规划 | 自我监控Agent的AutoThink循环 | 5.2, 5.6, 第7章 |
| 负反馈回路(稳定机制) | 前扣带皮层冲突监测 | 伦理Agent的抑制信号 | 5.5, 6.3 |
| 涌现 | DMN自我叙事整合 | 多Agent博弈中的规范形成 | 5.4, 6.2 |
| 设定点(Set Point) | 内稳态(体温、血糖调节) | 认知不协调检测驱动行动 | 7.2 |
| 边界控制 | 前额叶对冲动的抑制功能 | 沙箱层间泄漏检测 | 5.5, 5.7 |
| 因果回路 | 情景记忆中的因果链编码 | PhyCog世界引擎的物理仿真 | 第4章 |
| 多样性维持 | 种群进化中的变异保留 | 元伦理宪法N候选池动态调节 | 6.3 |
| 探索-利用权衡 | 多巴胺能系统的奖励预测误差 | 策略性非理性残差注入 | 8.2 |
| 观测者模型 | 人格稳态的外部维持 | 观测-反馈接口设计 | 第7章 |
| 纳什均衡稳态 | 社会规范涌现 | 多Agent互相观测约束 | 6.4 |
| 广义世界模型 | 多层认知架构 | 物理→社会→叙事三阶段 | 4.5 |
建议读者在阅读过程中回看此表,以建立论点之间的跨域连接。
1 引言:当前AI发展状况与AGI愿景
1.1 Transformer范式的成就与隐忧
自Vaswani等人(2017)提出Transformer架构以来,人工智能领域经历了一场深刻的范式革命。从GPT系列到Claude系列,从Gemini到LLaMA,大语言模型的能力边界不断被拓宽:它们在多项基准测试上超越人类水平,在代码生成、数学推理、法律分析、医疗诊断等专业领域展现出令人惊叹的表现。截至2026年,最先进的模型已能在虚拟环境中执行复杂的多步骤任务,并在虚拟世界中与人类协作推理(Anthropic, 2026a, 2026c;Google DeepMind, 2026a, 2026b)。
然而,表面的繁荣背后隐藏着一个根本性的追问:当前的AI系统离真正的通用人工智能还有多远? AGI——一个能够理解、学习和应用知识于任何智力任务、具备自主意识和类人认知能力的智能体——是否仅仅通过扩大模型规模、增加训练数据和优化算法就能自然涌现?本文的立场是:这个问题的答案远没有乐观主义者想象的那么确定。
1.2 三项前置声明
在正式开始论证之前,必须做三项前置声明。它们共同构成了本文的”阅读地图”:它们不改变论证的内容,但决定了读者应该以什么态度去阅读。
声明一:这是通往AGI,不是实现AGI。
本文不承诺在此结束之后,任何团队可以在六个月内照图施工出AGI。这份文档画的是地图,不是盖楼图纸。地图的价值在于:告诉你哪些路有人走过、哪些路是死胡同、哪些方向有沼泽;但地图不会替你走路。更关键的是,地图是活的——当你真正走进地图上标注的”已勘探区域”时,可能会发现实际地形与地图有出入。本文的每个章节都标注了理论推演与实际工程之间的差距,其明确度从”有路径”(工程上可行)到”有方向”(仅有概念框架)到”只有问题”(尚未找到入口)。读者应当据此管理预期。
声明二:本文采用”功能等价”的AGI定义。
本文的论证前提不是”AGI必须具有与人类完全相同的意识本质”,而是”从第三方视角观察,一个智能体表现得像具备自主意识、世界理解、内在动机和目标生成能力,我们就可以当作它在这些功能上与AGI等价”。这个定义的哲学基础是:智能不是内在本质问题,而是可观测功能集合——如果系统的行为输出在任意可观测维度上与人类智能不可区分,那么在这些维度上它就是”智能的”。这个立场回避了意识本质这一不可解的哲学争议,将AGI问题简化为一个工程可验证的功能规范问题:给定一组功能规范(因果理解、自主目标生成、价值观对齐、持续学习等),如何构建一个系统满足这些规范。这就是”功能等价”的AGI定义——不纠结意识本质,只看表现的等价性。
声明三:路线是”先表现得像,再追问本质”。
基于功能等价的定义承诺,本文的工程路线图是:先用系统工程手段构建一个系统,使其在行为层面满足AGI的功能规范(世界模型预测、自主目标生成、价值观约束下的行动选择);然后,在系统已经”表现得像”AGI的基础上,再逐步追问和探究——系统内部的隐空间表征是否对应了真实世界的因果结构?系统的”自我叙事”是否是一种真正的自我意识,还是只是一个反馈回路的副作用?这个”先做后问”的路线,既尊重了工程实践的务实需求,也为认知科学保留了最核心的追问空间。
1.3 七个不可绕过的核心问题
我们认为,AGI的实现需要系统性解决七个核心问题。这些问题的特殊性在于,它们不是独立的技术挑战,而是相互缠绕的工程难题——正如钟表匠在装配一只精密钟表时,不能只打磨齿轮而不考虑擒纵机构,AGI的各子系统必须同时成熟、相互配合,才能从”智能的零部件”升级为”智能的整体”。
问题一:世界模型的对齐(第4章)。 当前AI缺乏对物理世界因果结构的内部表征。它不知道苹果为什么会落地,不知道玻璃杯为什么碎了就不复原——它只是复现了文本中学到的共现模式。要让AI拥有真正可预测、可推理的世界模型,需要从”语言翻译物理”转向”物理认知引擎”。
问题二:自主意识(第7章)。 自主意识不是被输入触发的响应,而是具备内生的思维循环、自我监控和目标生成的能力。AGI需要知道自己”正在想什么”,能够评估自己的认知状态,并据此调整行为策略。本文在V7中进一步主张,自主意识可能不是一个”模块”问题,而是一个”关系问题”——自我是观测者维持的稳态。
问题三:Set Point / 设定点(第7章)。 是什么驱动一个智能体主动采取行动?本文主张,答案在于一种内在的”不完整感”或”张力”——类似于人体内稳态机制中的设定点偏差。缺了这个驱动力,AGI将永远是一个被动的响应机器。本文在V7中明确立场:所有自主系统的初始设定点都是外生的——人类靠进化写入基因,AI靠设计者写入架构。这不是缺陷,是通用初始条件。
问题四:价值观/行为取向与边界(第6章)。 价值观不能是RLHF事后贴上去的标签,而必须是系统内生、在行动过程中实时作用的约束条件。更关键的是,这套价值观必须具有可理解性——不能变为一套对人类不可理解的”外星道德”。
问题五:沙箱环境(第6章)。 AGI的培育必须在隔离运行、安全可控的沙箱中进行。沙箱不仅是测试环境,更是AGI的”孵化器”——在其中,它可以犯错、学习、演化,而不对外部世界造成威胁。
问题六:自我改进不视为Bug(第8章)。 人类之所以能够持续成长,是因为我们的认知模型可以不断被经验修正。AGI同样需要这种能力——当它发现自己的推理存在系统性缺陷时,应该能够自主修正认知模型,而非等待工程师推送补丁。
问题七:信息感知(第8章)。 真正的智能源于动态的经历而非静态的输入。AGI需要一种”活在时间里”的信息感知方式——它经历事件的时间序、因果链,而非一次性吞入训练数据。
1.4 论文结构预览
第2章剖析当前大模型的结构性局限,并与上述七个问题建立映射关系。第3章阐述世界模型的缺失为何是最根本的短板——这是全文论证的逻辑出发点。第4章提出PhyCog框架,作为本文的核心贡献。第5章(原第六章)讨论价值观体系与行为边界。第7章剖析自主意识与初始启动机制。第8章讨论动态信息感知与自我改进。第9章前瞻社会影响。第10章分析已知挑战与应对方案。第11章坦诚面对框架的理论边界——该章提出的四个开放难题不属于”已知挑战”,而是当前理论水平尚不足以给出闭环解答的真正开放问题。第12章总结全文。
1.5 系统论视角:七个问题的因果结构
Claim: 本文主张,这七个问题不是独立的技术挑战,而是一张因果网络——其结构可以通过正负反馈回路来刻画。
上述七个问题看似是独立的技术挑战——一个团队做世界模型,另一个团队做价值观对齐,第三个团队做自主意识——但从系统论的视角审视,它们构成了一张深刻纠缠的因果网络。要解开这个网络,首先要看见它。
下图绘制了七个核心问题之间的主要因果回路:
[因果回路图省略]
1.5.1 正反馈回路:成长引擎
图中最醒目的回路是以绿色虚线标记的正反馈回路R1(成长引擎):
Set Point偏差 → 行动 → 新经验 → 认知模型更新 → 新的Set Point偏差 → …
这是让AGI”活起来”的核心动力。当系统感知到当前状态与理想状态之间存在差距(Set Point偏差),它产生行动动机;行动带来新的经验(信息感知);新经验输入认知模型(世界模型更新);认知模型的演化产生新的目标不匹配——新的Set Point偏差,驱动新一轮行动。
Evidence: 这条回路的关键特征是自催化:它与人类的求知循环(learn more → know more → want to learn more)有结构上的同源性。设计者不需要为每一次行动下达指令——一旦系统”尝到了”认知更新带来的正反馈,探索本身成为内在奖励。
Warrant: 这说明一旦系统”尝到”认知更新的正反馈,探索本身成为内在奖励。
这条回路也暗含一个风险:如果Set Point偏差永不消失,系统将永远处于不满状态。这正是7.1节”拨表旋”机制需要解决的问题——它提供一个初始偏差,但不承诺偏差的”正确性”。
1.5.2 负反馈回路:稳定机制
红色虚线标记的Evidence: 负反馈回路B1(稳定机制)是非对称的:
行动意图 → 伦理Agent检测冲突 → 抑制行动 → 调整目标 → …
这条回路为成长引擎提供制衡。世界模型向价值观边界输送因果理解(”如果我这样做,会产生什么后果”);价值观边界将后果映射为伦理约束;约束反馈到Set Point,调整或抑制初始的行动冲动。
B1回路的核心设计挑战是响应速度——它必须足够快,在行动方案被递交到物理世界之前完成审核。这对应了5.5节伦理/边界Agent的设计要求(”道德刹车”的O(1)判决时间上限)。
1.5.3 回路之间的张力
R1和B1的同时存在构成了系统论意义上的结构张力:系统必须同时”追求”和”抑制”自身的行动冲动。智能的演化正是在这种张力中展开的——没有R1,系统是死的;没有B1,系统是危险的。
这个张力的工程设计等价于多目标的帕累托优化:在探索效率与安全性之间找到可接受的平衡点。
Warrant: 值得追问的是——这个平衡点应该是静态的(由设计者一次性设定),还是动态的(由系统根据环境反馈自我调节)?本文主张后者:平衡点的自我调节能力,正是”自我改进不视为Bug”(问题六)在系统层面的理想表达。
1.5.4 系统论视角的意义
Claim: 在论文中引入系统论视角,并非一种装饰性的”跨学科交叉”,而是一个实质性的论证要求:
Evidence:
-
避免线性思维的陷阱。当设计者解决”世界模型对齐”时,如果不能预见这个改动通过R1和B1回路对”价值观边界”和”Set Point”的连锁影响,框架内部的耦合关系可能导致意想不到的崩溃——就像升级飞机的引擎时忘记检查机翼承受力。
-
迫使优先级排序。哪个问题最具杠杆效应?从系统图可以读出:Set Point(问题三) 是最接近R1回路的”力矩中心”——目标趋向的不匹配驱动一切行动。世界模型和自主意识虽然同样关键,但它们的作用更多是”提供能力”,而非”提供动力”。
-
暴露隐藏的反馈回路。图中未画出的一个关键连接值得追问——沙箱(问题五)与世界模型之间是否存在双向影响?如果沙箱内的行动改变了系统的”经验”,经验更新了世界模型,那么沙箱就不再仅仅是”安全隔离区”,而是认知演化的加速器。这个连接是否成立,取决于5.7节沙箱设计中”允许经验内化”的范围——边界越宽,加速越强,但安全风险也越大。
Warrant: 系统图定位了Set Point为杠杆点——它是七个问题中最具放大效应的干预目标。
在后续章节的展开中,本文会不时回看这张系统因果图——它不是论文的点缀,而是论证的坐标系。
2 当前大模型的结构性局限
Transformer架构驱动了AI发展的黄金十年,但通往AGI的道路上存在着不可忽视的结构性天花板。这些局限并非通过简单的”scaling”就能克服,而是在架构层面嵌入的根本性约束。
2.1 “无根智能”:没有世界理解的语言机器
Transformer的核心机制——自注意力——本质上是一种上下文驱动的逐词预测机制。一个被训练了数万亿token的大模型,其运作方式可以被理解为:它在学习训练数据中token之间的统计关联模式。这种智能被一些研究者称为”无根智能”(rootless intelligence)——它没有对世界的真实理解,只有对人类语言模式的精妙模仿(LeCun, 2022)。
从哲学角度看,这类似于Searle(1980)提出的”中文房间”思想实验——房间内的人借助规则手册完美地回答中文问题,却对中文的含义一无所知。当前的LLM就是这样一个参数数以万亿计的中文房间。它能够生成流畅的回答、撰写文章、编写代码,但所有这些输出都基于对训练数据中模式的重组,而非对世界的真实理解。这一局限意味着,语言智能与真正的世界理解之间存在一道尚未被跨越的鸿沟。
→ 对应问题一(世界模型的对齐)
2.2 内在动机的缺位:被动的响应机器
自主意识的第一要件是什么?根据认知科学的研究,自主意识至少需要三根支柱:世界模型(能够感知和表征外部世界)、持续性(保持自我同一性的时间连续性)和内在动机(由内部驱动的目标和价值追求)(Gopnik et al., 1999; Flavell, 1979)。
当前的LLM完全缺乏内在动机。它们没有”想要”做什么的概念,没有好奇心,没有探索欲。一个LLM被问问题就回答,被要求写代码就写代码——但这并非出于任何内在”想要”的状态,而是因为训练数据中的监督信号将其参数调整为在给定输入时输出特定模式的序列(Ouyang et al., 2022)。这一观察引出了一个值得深思的问题:如果一个智能体只能在接收到外部指令后才产生行为,它在何种意义上可以被称作”自主的”?正如我们将在第7章论证的,自主性的核心不在于响应的准确性,而在于动力的来源——是内部驱动还是外部触发。
→ 对应问题二(自主意识)、问题三(Set Point)
2.3 持续性自我的缺失:每次见面都是陌生人
人类自我意识的一个重要维度是时间的连续性。我们知道自己五分钟前做了什么,记得昨天的经历,能规划明天的行动。这种时间上的跨情景一致性依赖于自传体记忆和情景记忆系统的协同运作(Tulving, 2002)。
在当前的对话式AI实践中,虽然可以通过”上下文窗口”或外部知识库来维持一定程度的对话连续性,但这与人类的自传体记忆有着本质区别。对LLM而言,”昨天说过什么”不是通过一个持续更新的自我模型来记忆的,而是通过将历史对话重新注入当前上下文窗口来实现的。两者之间的区别类似于一个真实的人与一个每次见面都要翻阅上一次对话记录的失忆者之间的差异。这种区别可能正是”有自我”与”看上去有自我”之间的关键分界线。
→ 对应问题二(自主意识)
2.4 价值观外挂:事后贴上的道德标签
当前的AI价值观对齐工作——包括Constitutional AI(Bai et al., 2022)、RLHF(Ouyang et al., 2022)——本质上都是在模型训练完成后,通过后处理机制将一套外部定义的价值观”贴附”到模型上。这就是所谓的”价值观外挂”问题。
Anthropic(2026a)的最新研究表明,虽然可以通过直接训练抑制特定类型的失调行为,但这种对齐在外分布(OOD)场景下可能无法泛化。更深层的问题是:真正的价值观不是一套可以在事后”贴上去”的规则集,而是源于具身经验的前语言根基。 人类之所以认为”伤害他人是不对的”,不是因为这个规则被写入了一个外部”宪法”,而是因为我们亲身经历过疼痛、共情过他人的痛苦、在社会化过程中内化了道德规范。
纯语言模型从未真实地感受过疼痛、喜悦或共情。它们的”价值观”本质上是对训练数据中道德判断模式的统计复现。这种基于文本统计的”伪价值观”在面对伦理困境的微妙情境时,不可避免地表现出脆弱性和不一致性。然而,这是否意味着语言模型”不道德”?不——它只是在统计学意义上知道了”什么文本应该跟什么文本”,而非在道德意义上”理解”了善与恶的区别。这个区分的重要性将在第6章进一步展开。
→ 对应问题四(价值观/行为取向与边界)
2.5 统计相关≠因果理解
LeCun(2022)反复强调,当前LLM缺乏对世界如何运作的深层因果模型。当一个模型写出”苹果从树上落下来”时,它并非因为理解了万有引力,而是因为它学到的数万亿个文本片段中,这个序列出现的概率足够高。
这一局限在多轮规划和物理推理中表现得尤为突出。当前模型能够”背诵”物理课本中的运动定律,但当被问到”一个5kg的铁球和一个1kg的铅球同时从10米高下落,哪个先落地”这种需要真正理解重力加速度的问题时,模型的回答本质上是对训练数据中最常见模式的复现,而非基于物理模型的推导。Pearl(2009)的三层次因果框架可以帮助我们定位这个问题的严重程度:当前LLM基本停留在第一层(关联),勉强触及第二层(干预),而因果推理的核心——第三层(反事实)——几乎是缺失的。
这种基于统计相关而非因果结构的推理方式,决定了LLM在面对真正需要理解物理世界、社会规则或因果关系的新型问题时,会暴露出根本性的脆弱性。