復旦大學研究團隊近期在人工智能訓練領域取得重大突破,開發出一套名為AgentGym-RL的創新訓練框架。該框架通過模擬人類漸進式學習過程,成功讓僅含70億參數的小型AI模型在復雜任務中展現出超越千億參數商業模型的性能。這項成果已發表在arXiv平臺,開源代碼和數據集同步在GitHub公開。
傳統AI訓練存在顯著局限:多數系統只能處理單次交互的簡單任務,面對需要多步驟規劃的復雜場景時表現欠佳。研究團隊形象地比喻,現有AI就像只會背書的學生,缺乏真正的理解和創新能力。在需要持續互動的任務中,這些系統往往因訓練不穩定而崩潰,如同初學者同時學習駕駛和導航般手忙腳亂。
AgentGym-RL框架創造性地設計了五大訓練環境,構建起AI的"虛擬游樂園"。網頁導航環境模擬真實網站交互,要求AI完成購物、論壇管理等任務;深度搜索環境訓練信息檢索能力,需整合多個信息源得出結論;數字游戲環境采用文本版Minecraft,考驗策略規劃和資源管理;具身任務環境通過虛擬空間導航,測試空間推理能力;科學任務環境則專注實驗設計和數據分析。
研究團隊開發的ScalingInter-RL訓練方法堪稱框架核心。該方法采用漸進式策略,初期限制AI與環境的交互次數,使其專注掌握基礎技能,如同教練先讓學員在空曠場地熟悉駕駛。隨著訓練深入,逐步增加交互復雜度,鼓勵探索更高級策略。這種"先易后難"的模式有效解決了傳統強化學習中的探索-利用平衡難題。
實驗數據顯示,經過AgentGym-RL訓練的70億參數模型性能提升達33.65個百分點。在網頁導航任務中,該模型準確率達26%,超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任務表現更為突出,取得38.25分的整體得分,接近頂級開源模型DeepSeek-R1-0528的40.25分。在數字游戲最高難度級別,該模型是少數獲得非零分數的系統之一。
研究團隊發現,增加測試時的計算資源能顯著提升模型表現。當交互回合數從2次增加到30次時,模型準確率穩步上升;并行采樣次數從1次增至64次,成功率提升最高達7.05個百分點。這表明,對于AI智能體而言,戰略性地投入更多計算資源進行推理,比單純增加模型參數更有效。
算法比較實驗揭示了訓練方法的重要性。GRPO算法在多個任務中表現優于REINFORCE++,使用GRPO訓練的30億參數模型性能甚至超過使用REINFORCE++訓練的70億參數模型。研究還發現,訓練初期嚴格限制交互次數能確保穩定性,后期逐步放開則有助于學習復雜策略,這種動態調整策略取得了最佳效果。
案例分析生動展示了訓練成果。在網頁導航任務中,經過強化學習的模型遇到"頁面未找到"錯誤時,會主動回退到主頁使用搜索功能,而基礎模型則陷入無效點擊循環。具身導航任務中,訓練后的模型能系統性探索環境,遇到阻礙時選擇替代路徑,基礎模型則常在已探索區域徘徊。
環境結構對學習效果的影響研究帶來重要啟示。在規則明確的模擬環境中,如數字游戲和科學實驗,強化學習效果最為顯著,模型得分提升幅度接近50個百分點。而在更開放的網頁導航和深度搜索環境中,提升幅度相對溫和。這表明訓練初期應優先選擇結構化環境,逐步引入復雜場景。
這項研究不僅在技術上取得突破,更體現了方法創新的重要性。通過漸進式訓練和多樣化環境設計,小規模模型也能獲得強大能力。開源框架的發布為全球研究者提供了研究基礎,促進了AI智能體技術的普及。研究顯示,中國在AI基礎研究領域的創新能力正不斷提升,為國際AI社區貢獻了新的智慧。
對技術細節感興趣的讀者可訪問項目GitHub頁面獲取完整代碼和數據集,或查閱arXiv平臺上的完整論文(編號:arXiv:2509.08755v1)。這項研究將推動AI從簡單問答向真正理解復雜任務、制定長期計劃的智能伙伴發展,在網頁操作、信息搜索、科學研究等領域展現廣闊應用前景。
更多>同類資訊Meta實驗室新突破:AI模型開啟"自我對弈"模式,不依賴數據也能持續進化09-23聯發科天璣9500首推雙NPU架構,讓AI常駐手機開啟主動服務新體驗09-23DeepSeek-V3.1升級至Terminus版 優化語言一致性及Agent能力09-23斯坦福等高校聯手:用LMEnt套件追蹤AI語言模型知識學習軌跡09-23AI搜索的數學邊界:當最強大模型遇上"簡單問題"的隱秘困局09-23中科院團隊創新CARVE法:破解AI視覺“分心”難題,助模型精準聚焦09-23Plaud攜三款AI紀要新品入局大陸市場,多模態交互與長續航成亮點09-23DeepSeek線上模型升級至V3.1-Terminus,輸出更穩Agent能力再提升09-23DeepSeek-V3.1升級至V3.1-Terminus:語言更一致,代理更強大,輸出更穩定09-23上海人工智能實驗室牽頭!科學智能戰略科技力量聯盟正式成立09-23DeepSeek-V3.1-Terminus發布:修復Bug,編程與搜索智能體能力再升級09-23科學智能戰略科技力量聯盟成立 共探AI賦能多學科創新發展路徑09-23中國電信引領6G新突破:首個6G計費項目獲3GPP正式批準09-23DeepSeek-V3.1-Terminus更新登場!修復關鍵Bug,Agent能力躍升,V4還會遠嗎?09-23百度智能云千帆開源Qianfan-VL視覺模型,多尺寸適配,全自研芯片賦能高效計算09-23點擊查看更多 +全站最新
?9月狹義乘用車零售預計達215萬輛,新能源車滲透率或超58%引關注?
6.88萬起極狐T1實測:空間越級配置足,小電車市場殺出“全能王”?
?雷軍官宣小米17系列9月25日發布,盧偉冰稱產品力跨代升級且對標iPhone17?
?小米17系列9月25日發布在即,雷軍年度演講《改變》將揭秘芯片與汽車故事?
?雷軍宣布:9月25日小米17系列發布,同期將舉辦第6次年度演講聊芯片與汽車故事?
小米SU7標準版11.7萬輛召回:OTA升級背后的智能駕駛安全與行業新挑戰熱門內容
第22屆東博會AI元素亮眼:數字智能體引路 機器人炫技展風采
AI云競爭下半場:華為以超節點、企業Agent等破局,誰能領跑產業?
2025網安周:每日互動劉宇談AI時代,知識安全成關鍵,共筑數字新未來
中國大模型DeepSeek首登Nature封面,R1訓練成本僅約208萬引關注
華為全聯接大會2025啟幕,發布全球最強算力超節點與集群
有鹿機器人+連合直租:以智能租賃模式,開啟高端場景清潔新未來
本文鏈接:http://www.yifxia.cn/showinfo-45-27964-0.html復旦大學AgentGym-RL框架:小模型大智慧,AI智能體學會復雜任務長期規劃
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com