深度分析 | 人工智能 | 2026年3月3日

深度分析：从解题到探索，AI研究型智能体如何重塑科学与工程范式

Google DeepMind的Aletheia在数学开放问题上取得突破，Code2World与VideoWorld 2引领世界模型技术路线多元化。这不仅是技术的进步，更标志着人工智能从“执行工具”向“探索伙伴”的范式转移。

核心洞察

范式跨越：人工智能能力边界正从“解决已知问题”系统性推向“探索未知领域”，数学研究智能体Aletheia解决了Erdős猜想数据库中的真实开放问题，标志着AI正式踏入基础科学研究的前沿。
工具化革命：新一代智能体的核心突破在于深度工具调用与长程验证循环。无论是数学证明还是GUI预测，将任务分解为可执行、可验证的工具链，是实现复杂、开放式任务的关键。
世界模型路径分化：Code2World放弃像素预测转向代码生成，VideoWorld 2从视频直接学习控制策略，表明构建“世界模型”的技术路线正从单一感知模仿走向多元化、结构化与实用化。
人机协作新阶段：从“人指挥机器”到“机器提出假设，人类验证与深化”，AI研究智能体将重塑科研工作流，催生“增强型科学家”这一新角色。

一、从解题者到探索者：AI研究智能体的范式转移

过去几年，人工智能在数学奥林匹克竞赛（IMO）中达到金牌水平已不再是新闻。然而，解决精心设计、边界清晰的竞赛题，与在浩瀚无垠、充满未知的学术前沿进行独立研究，存在着本质区别。后者要求智能体具备文献检索与理解、长链条逻辑推理、在假设空间中进行创造性探索，以及最重要的——对“未知的未知”保持敏感并制定探索策略的能力。

Google DeepMind近期推出的数学研究智能体Aletheia，正是这一范式转移的里程碑。它并非仅仅优化了某个已知算法的性能，而是将目标直接对准了数学界的“圣杯”之一——Erdős猜想数据库中的开放问题。该数据库收录了数百个由传奇数学家保罗·埃尔德什提出或相关的未解猜想，是纯数学研究的前沿阵地。Aletheia在其中自主解决了四道开放问题，这并非在标准测试集上刷分，而是产出了经得起学术共同体审视的真实研究成果。

分析视角一：自主性与新颖性的量化——科研管理学的AI启示

一个容易被忽略但极具深意的细节是，Aletheia团队同步提出了一个用于量化“AI辅助数学成果的自主性和新颖性”的框架。这绝非技术附录，而是一份面向未来的“宣言”。它预示着，由AI参与甚至主导的科研产出将变得如此频繁，以至于学术界需要一套新的评价体系来界定贡献。这类似于开源软件中的贡献度统计，但应用于知识生产的最核心领域。这套框架可能引发连锁反应：未来学术论文的作者署名规范、基金项目的成果认定、甚至诺贝尔奖级别的发现中如何界定AI的“贡献”，都将成为亟待讨论的新议题。

Aletheia的技术内核，被概括为“生成-验证-修正”的端到端循环与密集的工具调用。这听起来简洁，实则是对传统AI推理范式的升级。它不再是一次性生成答案，而是构建了一个可以自我迭代、自我纠正的探索系统。工具调用使其能够接入符号计算系统、定理证明器、学术数据库，将自然语言的模糊指令转化为精确的数学操作。这种“工具增强型推理”正是实现从“解题”到“研究”跨越的技术桥梁。

二、世界模型的技术路线大爆发：从感知模仿到结构生成

当研究型智能体在抽象数学空间探索时，另一条技术主线——世界模型——则在具象的物理和数字世界预测中蓬勃发展。然而，当前的技术生态呈现出一个显著特征：方法论的高度多元化，标志着该领域已走出早期模仿学习的单一路径。

Code2World：放弃像素，拥抱代码——GUI理解的范式创新

让AI智能体操作图形用户界面（GUI），一个核心挑战是预测交互后的界面状态。传统方法要么依赖文本描述丢失细节，要么试图直接生成像素图像导致结构混乱且不可控。Code2World项目提出了一个革命性的思路转换：将“预测下一个界面画面”重新定义为“生成能渲染出该界面的前端代码（如HTML）”。

这一转变的深刻之处在于，它将一个感知问题转化为了一个结构生成问题。界面本质上是代码规则的视觉呈现，代码才是其确定性的根源。通过将数万组GUI交互轨迹反编译为高保真的HTML训练数据，并采用渲染结果作为强化学习的奖励信号，一个仅80亿参数的模型就能在界面预测任务上媲美GPT-5等巨型多模态模型。更关键的是，这种结构化预测能直接提升下游任务性能，例如将Android设备导航成功率提升近10%。这为开发轻量、高效且可解释的GUI智能体开辟了新道路。

分析视角二：仿真成本与数据效率——世界模型落地的隐形战场

Code2World和VideoWorld 2的进展，共同指向了AI系统开发中一个日益尖锐的矛盾：对高保真仿真环境或海量现实数据的需求与高昂成本之间的矛盾。Code2World通过代码生成规避了对像素级仿真渲染的依赖，VideoWorld 2则试图从现有视频中“榨取”控制策略，减少对昂贵机器人试错的依赖。这反映出一个趋势：下一代AI系统的竞争力，不仅取决于模型架构的先进性，更取决于其“数据利用效率”和“仿真成本控制能力”。能够用更廉价、更丰富的数据形式（如代码、网络视频）进行训练的体系，将在规模化部署中占据巨大优势。

VideoWorld 2：从观察中直接学习行动哲学

与此同时，VideoWorld 2代表了另一条颇具野心的路径：跳过对物理世界的显式建模，直接从海量人类活动视频中学习控制策略。其核心理念是，视频中不仅记录了视觉变化，更隐含着达成目标的行动序列与物理约束。该项目在真实世界的手工任务上实现了70%的成功率提升，并且能迁移到机器人操作中，这表明其学习到的策略具备一定的泛化性和物理合理性。

这种方法与Code2World的“结构化”思路形成有趣对比：一个追求可解释、确定性的代码抽象，另一个则拥抱从复杂数据中直接涌现出的隐式策略。两者并存，说明“世界模型”并非一个有待攻克的单一目标，而是一个工具箱，不同工具适用于不同场景。未来，最强大的智能体或许能根据任务上下文，在“代码推理”、“物理仿真”和“视频隐式学习”等多种世界理解模式间自由切换。

三、未来影响与挑战：增强型科学与人机共生

这些进展汇聚在一起，描绘出一幅清晰的图景：通用人工智能（AGI）的前进路径，正日益依赖于“专业化研究智能体”和“多元化世界模型”的协同进化。其影响将层层外溢：

首先，基础科研将进入“增强时代”。数学家、物理学家、生物学家将拥有一个不知疲倦、能遍历巨大假设空间的“副脑”。AI不会立即取代科学家，但会彻底改变科研的工作流。人类科学家将更多地扮演“战略制定者”、“灵感提供者”和“成果评审者”的角色，而将大量繁琐的假设验证、文献梳理、计算实验交给智能体。这可能会加速一些长期停滞领域的突破，也可能催生出全新的、人类独自难以想象的交叉学科。

其次，软件工程与机器人自动化将迎来新革命。像Code2World这样的技术成熟后，自动化测试、UI自动化生成、甚至根据自然语言描述自动构建应用程序都将成为可能。VideoWorld 2的技术路径则让机器人更容易通过观察人类来学习复杂技能，降低机器人编程和训练的门槛。

分析视角三：智能体的“价值观对齐”问题从社会层面向认知层面延伸

当AI智能体开始进行前沿探索时，一个更深层的挑战浮现出来：如何确保其探索方向和价值判断与人类一致？这不仅仅是防止生成有害内容那么简单。在数学研究中，智能体可能偏爱某种优雅但冷僻的证明路径，而忽略更具应用潜力的方向；在科学探索中，它可能因数据偏差而走向伦理上有争议的领域（如某些生物武器研究）。这意味着，AI对齐（Alignment）的研究必须从输出结果的过滤，前置到对智能体探索过程、好奇心驱动机制乃至“科学品味”的引导与塑造上。为研究型智能体注入负责任的“科研伦理”，将是下一个关键课题。

最后，挑战同样严峻。如何评估和信任AI产生的新知识？如何防止智能体在探索中陷入“幻觉”或无意义的循环？如何设计人机交互界面，让人类科学家能够有效理解和引导智能体的复杂推理过程？此外，这些强大工具可能进一步加剧科研资源分配的马太效应，以及引发关于知识产权和成果归属的法律与伦理争论。

总而言之，Aletheia解决数学猜想、Code2World重构GUI预测，这些都不是孤立的技术突破。它们共同标志着人工智能发展进入了“深水区”——从在人类划定的赛道中竞赛，转向与人类并肩，向未知的黑暗地带投射探照灯。这趟旅程的终点，或许不是取代人类的超级智能，而是一个由“增强型人类”与“专业化智能体”紧密协作、共同拓展认知边界的全新文明图景。