LeetCode C++近满分!Autogenesis要给智能体装上自进化操作系统
发布日期:2026-06-03 11:19 点击次数:61


大模子智能体正在快速演进。从器用调用、网页浏览、多智能体相助,到 MCP、A2A 等条约的出现,Agent 系统似乎依然领有了越来越强的外部勾搭智商。
但一个中枢问题仍然悬而未决:要是智能体不仅要调用器用,还要在运行过程中安全地修改我方、优化我方、进化我方,现存条约确实够用吗?
近日,来自南洋理工大学、斯坦福大学和普林斯顿大学等机构的一个结合团队建议了一个面向智能体自我进化的双层条约架构Autogenesis Protocol(AGP),并基于该条约构建了Autogenesis System(AGS)。
AGS 不错在践诺任务过程中动态注册、检索、修改和复用智能体里面资源,包括 Prompt、Agent、Tool、Environment 和 Memory,已毕可跟踪、可回滚、可审计的闭环自进化。

论文标题:Autogenesis: A Self-Evolving Agent Protocol论文一语气:https://arxiv.org/abs/2604.15034GitHub:https://github.com/DVampire/Autogenesis
本文第一作家是南洋理工大学张文涛,斯坦福大学赵哲和香港城市大学温海斌,主要陆续所在包括智能体自进化、强化学习,大谈话模子等,通讯作家为普林斯顿大学王梦迪诠释,南洋理工大学安波诠释和普林斯顿大学尹明陆续员。
刻下的智能体系统依然具备较强的任求践诺智商,但许多系统仍然高度依赖预先预定好的器用、固定的使命流等。
这带来了三个过错问题:
第一,系统组件高度耦合。Prompt、器用、操心、环境和 Agent 逻辑时常被写死在合并个框架中。一朝任务变化,系统时常需要东说念主工修改代码或重写使命流。
第二,穷困生命周期和版块料理。智能体要是在运行过程中修改 Prompt、器用代码或操心内容,如何知说念智能体到底改了什么?为什么改?改坏了能不可回滚?
第三,自进化仍然偏 “训导主见”。许多系统所谓的自我更正,实质上是让模子反想一下、改一下 Prompt 或代码。但这种改换穷困和解接口、穷困审计机制,也难以复现和安全推广。
换句话说,现存智能体生态依然有了 “勾搭条约”,但还穷困真确面向自进化的条约。
Autogenesis Protocol(AGP)的中枢野心格外认知:
将自进化拆成两层:
Resource Substrate Protocol Layer(RSPL)资源基底条约层认真界说 “什么东西不错被进化”。Self-Evolution Protocol Layer(SEPL)自进化条约层则认真界说 “如何安全地进化”。

以前的智能体系统时常把 Prompt、器用、Agent 代码、操心和环境径直混在践诺逻辑里。AGP 则把它们一皆抽象成条约注册资源,并为每个资源配备显式情状、生命周期、版块接口和可演化象征。论文将五类资源当作 RSPL 的中枢实体:Prompt、Agent、Tool/MCP/Skill、Environment、Memory。
也即是说,在 AGP 中,这些智能体的必要组件都形成了不错被注册、检索、更新、回滚和审计的条约级资源。
这让智能体系统从 “代码工程” 迈向了 “资源治理”。
在 Autogenesis 中,RSPL 相当于智能体自进化的 “操作系统底座”。
它为每类资源提供和解的落魄文料理器和做事接口,因循注册、调用、版块料理、回滚、合约生成、践诺跟踪等操作。
论文中强调,RSPL 的资源自己是 “被迫” 的:它们不会我方悄悄修改我方。统共情状变化都必须通过更高层的 SEPL 接口完成。这么一来,系统既能进化,又不会形成不可控的黑箱。
这亦然 AGP 永诀于宽泛器用条约的过错:它不是只让模子 “调用器用”,而是让统共这个词智能体系统的里面组件都参预可治理、可审计、可演化的情状。
要是说 RSPL 界说了 “哪些资源不错进化”,那么 SEPL 就界说了 “进化应该解任怎样的圭表”。
Autogenesis 将自进化步地化为一个闭环操作经由:
Reflect → Select → Improve → Evaluate → Commit
更鬈曲的是,每一次修改都不是径直写进系统,而是通过 RSPL 的版块化接口完成。也即是说,Autogenesis 的自进化不是一句 “请你更正我方” 的 Prompt,生成的不是一个节略的 patch, 而是一套可组合、可跟踪、可回滚的条约操作。
此外,SEPL 并不绑定某一种优化过错。Reflection Optimizer、TextGrad、Reinforce++、GRPO 等不同优化战略,都不错被映射到合并个 SEPL 操作接口中。
这意味着 AGP 不仅仅一个系统已毕,而更像是一个面向畴昔自进化 Agent 的通用条约框架。
在条约之上,论文还进一步构建了一个多智能体系统Autogenesis System(AGS)。
AGS 是一个自进化多智能体系统,Planning Agent 和多个子智能体都当作一等参与者注册,通过圭表化音讯进行通讯。这么每个智能体都不错被替换、更新或进化,而不会松弛统共这个词系统。
AGS 中包含多个典型子智能体,青青草视频在线观看包括 Planning Agent,Deep Researcher Agent,Browser-use Agent ,Deep Analyzer Agent,Vibe Coding Agent
AGS 的使命流不错轮廓为:先陆续,再并行践诺;边践诺,边记载轨迹;发现失败后触发自进化;进化得胜后,新智商坐窝参预资源注册表,并被后续任务复用。
在 GAIA 基准测试中,AGS 展现出格外强的通用任务措置智商。论文求教裸露,在 GAIA Validation 上,AGS 的 Agent-Evo 版块达到93.33%平均准确率;在 GAIA Test 上达到89.04%,比较 Vanilla baseline 的 79.07% 耕作了12.61%。其中 Level 3 难题耕作尤其显赫,从 61.22% 耕作到 81.63%,相对耕作33.34%。

在 HLE(Humanity’s Last Exam)全量测试中,AGS 也取得了59.6%的收获,论文图表裸露其排行第二,仅次于 Claude Mythos Preview。

在 GPQA-Diamond、AIME24 和 AIME25 等科学与数学推理任务中,AGS 进一步考证了自进化的普适性。

为了评估推理期自进化在代码任务中的收尾,论文还构建了一个基于 LeetCode 的算法编程 Benchmark,包含 100 说念近期发布的问题,并在 Python3、C++、Java、Go、Kotlin 五种谈话上进行测试。
收尾格外亮眼:

其中 C++ 和 Java 的发挥尤其隆起,接近 “刷满” 100 题。
更过错的是,自进化不仅仅提高通过率,还显赫减少了编译造作、运行造作、超时和造作谜底等践诺攻击问题。论文指出,Solution-Evo 在五种谈话中均带来 pass rate 耕作,C++、Java、Go、Kotlin 等编译型谈话还得回判辨运行时优化。
这标明 Autogenesis 不仅仅会 “想得更好”,也会 “写得更稳、更快”。
Autogenesis 的兴味,不单在于刷新了某些 Benchmark 分数,而在于它把 Agent 系统中一个更底层的问题提了出来:当智能体不再仅仅践诺任务,而是运行修改 Prompt、调用或生成 Tool、更新 Memory、调养 Agent 活动时,这些变化应该如何被料理?
要是穷困和解机制,所谓 “自我更正” 很容易形成一次次临时 patch:改了什么不明晰,为什么改不明晰,收尾是否确实变好不明晰,出错后也难以回滚。
Autogenesis 给出的谜底是把自进化纳入条约化治理。
通过 AGP,智能体的各个组件被和解注册为可料理资源,通过 RSPL,系统明确 “哪些资源不错被演化”;通过 SEPL,系统把自我修改纳入表中的反想、遴选、更正、评估、提交的闭环经由。
因此,Autogenesis 真确强调的不是让 Agent 领有更多器用,而是让 Agent 领有一套大略安全料理自身变化的机制。
畴昔的通用智能体,可能不仅仅 “器用更多、落魄文更长、模子更强”,还需要具备一种更鬈曲的智商:知说念我方那里不够好,并能以可控、可审计、可回滚的方式抓续变得更好。


