當前位置：首頁 > 元宇宙 > AI

復旦大學AgentGym-RL框架：小模型大智慧，AI智能體學會復雜任務長期規劃

來源：責編：時間：2025-09-23 11:20:44 35觀看

導讀復旦大學研究團隊近期在人工智能訓練領域取得重大突破，開發出一套名為AgentGym-RL的創新訓練框架。該框架通過模擬人類漸進式學習過程，成功讓僅含70億參數的小型AI模型在復雜任務中展現出超越千億參數商業模型的性能。

復旦大學研究團隊近期在人工智能訓練領域取得重大突破，開發出一套名為AgentGym-RL的創新訓練框架。該框架通過模擬人類漸進式學習過程，成功讓僅含70億參數的小型AI模型在復雜任務中展現出超越千億參數商業模型的性能。這項成果已發表在arXiv平臺，開源代碼和數據集同步在GitHub公開。

傳統AI訓練存在顯著局限：多數系統只能處理單次交互的簡單任務，面對需要多步驟規劃的復雜場景時表現欠佳。研究團隊形象地比喻，現有AI就像只會背書的學生，缺乏真正的理解和創新能力。在需要持續互動的任務中，這些系統往往因訓練不穩定而崩潰，如同初學者同時學習駕駛和導航般手忙腳亂。

AgentGym-RL框架創造性地設計了五大訓練環境，構建起AI的"虛擬游樂園"。網頁導航環境模擬真實網站交互，要求AI完成購物、論壇管理等任務；深度搜索環境訓練信息檢索能力，需整合多個信息源得出結論；數字游戲環境采用文本版Minecraft，考驗策略規劃和資源管理；具身任務環境通過虛擬空間導航，測試空間推理能力；科學任務環境則專注實驗設計和數據分析。

研究團隊開發的ScalingInter-RL訓練方法堪稱框架核心。該方法采用漸進式策略，初期限制AI與環境的交互次數，使其專注掌握基礎技能，如同教練先讓學員在空曠場地熟悉駕駛。隨著訓練深入，逐步增加交互復雜度，鼓勵探索更高級策略。這種"先易后難"的模式有效解決了傳統強化學習中的探索-利用平衡難題。

實驗數據顯示，經過AgentGym-RL訓練的70億參數模型性能提升達33.65個百分點。在網頁導航任務中，該模型準確率達26%，超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任務表現更為突出，取得38.25分的整體得分，接近頂級開源模型DeepSeek-R1-0528的40.25分。在數字游戲最高難度級別，該模型是少數獲得非零分數的系統之一。

研究團隊發現，增加測試時的計算資源能顯著提升模型表現。當交互回合數從2次增加到30次時，模型準確率穩步上升；并行采樣次數從1次增至64次，成功率提升最高達7.05個百分點。這表明，對于AI智能體而言，戰略性地投入更多計算資源進行推理，比單純增加模型參數更有效。

算法比較實驗揭示了訓練方法的重要性。GRPO算法在多個任務中表現優于REINFORCE++，使用GRPO訓練的30億參數模型性能甚至超過使用REINFORCE++訓練的70億參數模型。研究還發現，訓練初期嚴格限制交互次數能確保穩定性，后期逐步放開則有助于學習復雜策略，這種動態調整策略取得了最佳效果。

案例分析生動展示了訓練成果。在網頁導航任務中，經過強化學習的模型遇到"頁面未找到"錯誤時，會主動回退到主頁使用搜索功能，而基礎模型則陷入無效點擊循環。具身導航任務中，訓練后的模型能系統性探索環境，遇到阻礙時選擇替代路徑，基礎模型則常在已探索區域徘徊。

環境結構對學習效果的影響研究帶來重要啟示。在規則明確的模擬環境中，如數字游戲和科學實驗，強化學習效果最為顯著，模型得分提升幅度接近50個百分點。而在更開放的網頁導航和深度搜索環境中，提升幅度相對溫和。這表明訓練初期應優先選擇結構化環境，逐步引入復雜場景。

這項研究不僅在技術上取得突破，更體現了方法創新的重要性。通過漸進式訓練和多樣化環境設計，小規模模型也能獲得強大能力。開源框架的發布為全球研究者提供了研究基礎，促進了AI智能體技術的普及。研究顯示，中國在AI基礎研究領域的創新能力正不斷提升，為國際AI社區貢獻了新的智慧。

對技術細節感興趣的讀者可訪問項目GitHub頁面獲取完整代碼和數據集，或查閱arXiv平臺上的完整論文（編號：arXiv:2509.08755v1）。這項研究將推動AI從簡單問答向真正理解復雜任務、制定長期計劃的智能伙伴發展，在網頁操作、信息搜索、科學研究等領域展現廣闊應用前景。

更多>同類資訊Meta實驗室新突破：AI模型開啟"自我對弈"模式，不依賴數據也能持續進化09-23聯發科天璣9500首推雙NPU架構，讓AI常駐手機開啟主動服務新體驗09-23DeepSeek-V3.1升級至Terminus版優化語言一致性及Agent能力09-23斯坦福等高校聯手：用LMEnt套件追蹤AI語言模型知識學習軌跡09-23AI搜索的數學邊界：當最強大模型遇上"簡單問題"的隱秘困局09-23中科院團隊創新CARVE法：破解AI視覺“分心”難題，助模型精準聚焦09-23Plaud攜三款AI紀要新品入局大陸市場，多模態交互與長續航成亮點09-23DeepSeek線上模型升級至V3.1-Terminus，輸出更穩Agent能力再提升09-23DeepSeek-V3.1升級至V3.1-Terminus：語言更一致，代理更強大，輸出更穩定09-23上海人工智能實驗室牽頭！科學智能戰略科技力量聯盟正式成立09-23DeepSeek-V3.1-Terminus發布：修復Bug，編程與搜索智能體能力再升級09-23科學智能戰略科技力量聯盟成立共探AI賦能多學科創新發展路徑09-23中國電信引領6G新突破：首個6G計費項目獲3GPP正式批準09-23DeepSeek-V3.1-Terminus更新登場！修復關鍵Bug，Agent能力躍升，V4還會遠嗎？09-23百度智能云千帆開源Qianfan-VL視覺模型，多尺寸適配，全自研芯片賦能高效計算09-23點擊查看更多 +全站最新

?9月狹義乘用車零售預計達215萬輛，新能源車滲透率或超58%引關注?

6.88萬起極狐T1實測：空間越級配置足，小電車市場殺出“全能王”？

?雷軍官宣小米17系列9月25日發布，盧偉冰稱產品力跨代升級且對標iPhone17?

?小米17系列9月25日發布在即，雷軍年度演講《改變》將揭秘芯片與汽車故事?

?雷軍宣布：9月25日小米17系列發布，同期將舉辦第6次年度演講聊芯片與汽車故事?

小米SU7標準版11.7萬輛召回：OTA升級背后的智能駕駛安全與行業新挑戰熱門內容

寒武紀回應訂單不實傳聞：產品多行業部署，存貨增長因云端備貨
熱度攀升！千億科技龍頭頻獲機構調研，業務增長透露哪些行業新動向？
蘋果加速AI布局，或收購兩家法國AI初創企業
蘋果秋季發布會亮相iPhone 17系列："史上最薄"Air登場，Pro Max 2TB版定價17999元
蘋果加速布局中國市場！Apple Intelligence和新版Siri或年底至明年上線
?小米16系列或提前登場，首發驍龍8 Elite Gen5，9月機圈大戰一觸即發?
均勝電子新品亮相：AI頭部總成、全域控制器等完善機器人產品矩陣
國金證券：A股第三輪重估腳步臨近，三類資產投資方向值得關注
蘋果AI布局加速，或將斥巨資收購歐洲兩大AI初創企業
18歲涂津豪：從DeepSeek實習生到Nature封面作者，以少年之力叩響AI新章
WAVE SUMMIT大會新動態：文心大模型X1.1上線，多項能力顯著躍升
華為智能手表登頂全球，蘋果需直面挑戰求變革
?字節跳動千人芯片團隊架構調整，轉至新加坡子公司Picoheart引關注?
華為Mate系列2025年選購指南：三款高性價比機型技術解析與場景適配
${亞馬遜發布"2025產品創新出海品牌五十強"：出口跨境電商規模達2.15萬億

本欄最新

第22屆東博會AI元素亮眼：數字智能體引路機器人炫技展風采

AI云競爭下半場：華為以超節點、企業Agent等破局，誰能領跑產業？

2025網安周：每日互動劉宇談AI時代，知識安全成關鍵，共筑數字新未來

中國大模型DeepSeek首登Nature封面，R1訓練成本僅約208萬引關注

華為全聯接大會2025啟幕，發布全球最強算力超節點與集群

有鹿機器人+連合直租：以智能租賃模式，開啟高端場景清潔新未來

本文鏈接：http://www.yifxia.cn/showinfo-45-27964-0.html復旦大學AgentGym-RL框架：小模型大智慧，AI智能體學會復雜任務長期規劃

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Orange Research DivMerge技術：智能拼裝AI模型，解鎖多任務處理新境界

下一篇： Meta實驗室新突破：AI模型開啟"自我對弈"模式，不依賴數據也能持續進化

標簽：

熱門焦點

數字虛擬人23年最新變化！

作者：小資來源：米塔之家自2021年元宇宙“爆炸”后，作為現實世界連接元宇宙的媒介之一，大批虛擬人跑步入場。到了2022年底，據天眼查數據顯示，我國目前企業名稱或經營范圍
在元宇宙賣酸奶，這波聯動燃爆了！

來源：品牌頭版或許，每個人心中都住著一個小饞孩。可能是童年時百吃不厭，覺得新奇又有趣的跳跳糖；可能是味道香甜，咬下一口嘎嘣脆的扁桃仁；還有可能，是某種不知為什么，就是很愛吃的
元宇宙這一年：技術加速落地，助傳統行業走向新階段

美國當地時間1月8日，2023年CES（消費電子展覽會）完美落幕。而在這項一年一度的科技圈盛事中，元宇宙仍是主角和焦點之一。索尼在1月6日發布了備受關注的PS VR 2頭顯
Terra鏈上TVL躍升至第二

據DefiLlama數據顯示，當前,Terra鏈上應用鎖倉的加密資產價值（TVL）為172.1億美元，在公鏈板塊中已躍升至第二，超越了幣安智能鏈TVL的118億美元，TVL排名居首的仍為以太
知識產權可能在元宇宙中“消失”？

開篇老雅痞先來劃重點：一些公司開始采取積極的方式來保護他們在元宇宙的知識產權。耐克、愛馬仕和米拉麥克斯最近提起訴訟，聲稱NFT侵犯了他們的知識產權。Inside
為什么元宇宙將永遠改變體育和你的生活？

自從Facebook更名為Meta以來，Metaverse這個詞已經被大家所熟知。但是當Metaverse仍然被許多人視為一個虛擬的平行世界時，一些項目已經顯示出Metaverse將如何永遠
Meta 呼吁行業合作建立元宇宙網絡基礎設施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基礎設施，以支持其蓬勃發展的元宇宙野心。“元宇宙”成為 2021 年的主要流行語之一，這在很大程度上是由 Facebo
頭像類NFTs的統治能持續多久？

在過去的一兩年里，NFTs在互聯網世界中掀起了一場風暴。今天，當我們想到NFTs時，我們主要想到的是那些充斥著我們的社交媒體屏幕的數字卡通--無聊猿、punks 和介于
虛擬鄧麗君后，數字人賽道開啟3.0時代

“如果右腦時代來臨，虛擬世界將是對人類才華的無限放大。” 郭曉喆稱，開發數字人形象時，自己的團隊在內部“卷”了一下：“當我們翻閱大量歷史典籍的時候，蘇小妹找到

国产欧美日韩三区_偷窥自拍亚洲色图精选_久久大片网站_成人在线黄色_成人亚洲免费视频_99久久久精品_国产美女自拍_韩国19禁主播vip福利视频_色综合视频一区二区三区日韩_日本在线观看一区二区

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

復旦大學AgentGym-RL框架：小模型大智慧，AI智能體學會復雜任務長期規劃

數字虛擬人23年最新變化！

在元宇宙賣酸奶，這波聯動燃爆了！

元宇宙這一年：技術加速落地，助傳統行業走向新階段

Terra鏈上TVL躍升至第二

知識產權可能在元宇宙中“消失”？

為什么元宇宙將永遠改變體育和你的生活？

Meta 呼吁行業合作建立元宇宙網絡基礎設施

頭像類NFTs的統治能持續多久？

虛擬鄧麗君后，數字人賽道開啟3.0時代

最新推薦

猜你喜歡

熱門推薦

相關資訊