當前位置：首頁 > 元宇宙 > AI

GPT-5 編程測評“表面不及格”：實際 63.1% 的任務沒交卷，全算上成績比 Claude 高一倍

來源：責編：時間：2025-09-25 15:00:17 43觀看

導讀 Scale AI 的新軟件工程基準 SWE-BENCH PRO，出現反轉！表面上看，“御三家”集體翻車，沒一家的解決率超過 25%：GPT-5、Claude Opus 4.1、Gemini 2.5 分別以 23.3%、22.7%、13.5% 的解決率“榮”登前三。但深入數據背

Scale AI 的新軟件工程基準 SWE-BENCH PRO，出現反轉！

表面上看，“御三家”集體翻車，沒一家的解決率超過 25%：

GPT-5、Claude Opus 4.1、Gemini 2.5 分別以 23.3%、22.7%、13.5% 的解決率“榮”登前三。

但深入數據背后，則暗藏玄機。

前 OpenAI 研究員 Neil Chowdhury 表示，如果只看已提交的任務，GPT-5 能達到 63% 的準確率，比 Claude Opus 4.1 的 31%，高了近一倍！

（這怎么不算 G 又贏！？）

換句話說，GPT-5 在擅長的題目上依舊穩健，與老基準 SWE-Bench-Verified 的 74.9% 差距不大，而 Claude 跟其他模型則直接拉垮到底。

那么，究竟是什么基準測試，讓這些頂級模型如此狼狽？

SWE-BENCH PRO

先說結論，不是模型變菜了，而是題變難了。

與平均正確率高達 70% 的 SWE-Bench-Verified 相比，SWE-BENCH PRO 嚴格得可不止一星半點。

一方面，作為 OpenAI 于 2024 年 8 月發布的測試集，SWE-Bench-Verified 中的很多代碼庫已被用作大語言模型的預訓練語料，存在著數據污染的風險。

另一方面，SWE-Bench-Verified 還包含不少瑣碎的問題，例如 500 個問題中有 161 個只需一兩行修改。

這與工業軟件工程中通常涉及的跨多文件、數百行修改的場景差距較大，從而無法真正反映實際開發場景中所面臨的挑戰。

基于此，SWE-BENCH PRO 主打全新題目，以確保模型在訓練階段從未接觸過測試內容，從而更真實地考驗模型的實際能力。

涵蓋 1865 個商業應用、B2B 服務和開發者工具的多元化代碼庫

具體來說，SWE-BENCH PRO 將這些代碼庫構建為以下三個子集：

公共集：來自采用 copy-left 許可證的 11 個公共代碼庫的 731 個問題。

商業集：來自 276 個源自初創公司代碼庫的問題。

保留集：來自采用 copy-left 許可證的 12 個公共代碼庫的 858 個問題。

（注：公共集將在 HuggingFace 上發布，商業集和保留集保持私有，商業集的測試結果會公開，保留集用于驗證模型是否過擬合。每個問題由任務描述、相關測試集和可運行環境構成。）

這些從強 Copyleft 許可證（GPL）代碼庫和真實的初創公司獲取的商業代碼庫能夠有效地解決 SWE-Bench-Verified 存在的數據污染問題。

為了確保任務的復雜性，研究團隊還排除了像 1-10 行代碼編輯這樣瑣碎的編輯，保留了需要進行大量多文件修改的問題。

此外，為了防止模型對任何單一代碼庫產生過擬合，這些代碼庫都處于活躍狀態并覆蓋消費者應用、B2B 服務和開發者工具平臺。

接下來，就讓我們看看研究者是如何在這些問題上進行測試的。

human in the loop 的測試環節

為了將模型評估的重點放在當模型獲得充分細節后，能否實現給定的修復或補丁上。

研究團隊在 SWE-Bench Verified 的基礎上，將 SWE-BENCH PRO 中的每個問題都經過了人工增強，并加入了問題陳述、需求說明以及接口信息。

首先，研究團隊提供一個待解決問題的問題陳述并在必要時補充上下文信息。

其次，針對潛在的歧義問題，對于每個問題，列出了一系列需求并指定相應的類和函數。

之后，在環境方面，每個任務都在一個容器化的、用于特定語言的環境中進行評估。

在測試階段，研究通過 fail2pass 測試驗證問題是否已解決，通過 pass2pass 測試確保現有功能保持完整。

其中，為了確保測試質量，fail2pass 測試會經過人工篩選，去掉與任務不相關或過于寬泛的測試。

對于偶爾失敗的測試，則會運行三次，以確保結果穩定。

實驗結論

正如我們開頭提到的，大語言模型在 SWE-BENCH PRO 上的解決率僅為中等水平，遠低于 SWE-Bench Verified 中的 70% 。

其中，在公共集上，GPT-5 和 Claude Opus 4.1 分別實現了 23.3% 和 22.7% 的最高解決率，顯著優于小規模模型，Claude Sonnet 4 也達到了 16.3% 的解決率。

不過，像 DeepSeek Qwen-3 32B 和 GPT-4o 這樣的老模型表現就多少有點不盡人意了，僅為 3.4% 和 3.9%。

在商業集上，即便是最優模型的得分也低于 20%。

這表明當前模型在解決真實商業場景中的問題時，能力仍然非常有限。

針對這一苦澀的實驗結果，研究人員展開了進一步的分析，結論如下：

首先，編程語言的難度、代碼庫以及模型的種類被視為影響模型表現的關鍵因素。

Go 和 Python 通常表現較好，一些模型在這些語言上的解決率超過 30%，而 JavaScript 和 TypeScript 則波動較大，從 0% 到超過 30% 不等。

不同代碼庫的解決率差異也很明顯，一些代碼庫普遍偏低（低于 10%），另一些則超過 50%。

前沿模型如 Claude Opus 4.1 和 GPT-5 在大多數編程語言和代碼庫中表現穩定，小規模模型則更易出現接近零的解決率。

其次，不同的模型的失敗原因往往各不相同。

OPUS 4.1 的主要失敗模式是語義理解不足，錯誤解答占 35.9%，語法錯誤占 24.2%，表明其技術執行能力較強，但在問題理解和算法正確性方面存在挑戰。

GPT-5 的結果顯示在工具使用的有效性上可能存在差異，但錯誤解答相對較少。

SONNET 4 的主要失敗模式是上下文溢出（35.6%）和顯著的無休止文件讀取行為（17.0%），表明其在上下文管理和文件導航策略上存在局限。

GEMINI 2.5 的失敗模式則較為均衡，涵蓋工具錯誤（38.8%）、語法錯誤（30.5%）和錯誤解答（18.0%），顯示其在多個維度上保持了一定能力。

QWEN3 32B 作為開源模型，表現出最高的工具錯誤率（42.0%），凸顯了集成化工具使用對于高效代理的重要性。

不難看出，GPT-5 雖然延續了以往“會就會，不會就不會”的答題策略，但面對高企的未回答率（63.1%），它的表現仍然不夠看。

那么，誰會成為第一個突破 30% 的大模型呢？

參考鏈接

[1]https://x.com/vbingliu

[2]https://scale.com/leaderboard/swe_bench_pro_public

[3]https://x.com/ChowdhuryNeil/status/1969817448229826798

[4] https://scale.com/research/swe_bench_pro

本文來自微信公眾號：量子位（ID：QbitAI），作者：henry

本文鏈接：http://www.yifxia.cn/showinfo-45-28057-0.htmlGPT-5 編程測評“表面不及格”：實際 63.1% 的任務沒交卷，全算上成績比 Claude 高一倍

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：奧爾特曼預告 ChatGPT 新產品：Pro 會員也要額外收費，這次不計成本投入算力

下一篇： Plaud 正式進駐中國大陸，Plaud Note Pro 等三款 AI 錄音硬件全面發售

標簽：

熱門焦點

藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

日前，天下秀數字科技集團正式公布了2022年報及2023年一季報。報告顯示，2022年天下秀實現營收41.29億元，同比下滑8.48%；歸母凈利潤1.8億元，同比下滑49.2%，幾乎出現了盈利腰斬的態勢
茅臺的元宇宙App火了，也被罵慘了

元宇宙從概念走向大眾生活，并不是一件簡單的事情。技術、世界觀、填充內容、載體形式，每一個環節都需要層層疊疊的邏輯。但正如賽博朋克奠基人威廉·吉布
“元宇宙第一股”Roblox首份年報未達預期，摩根大通成為首家進入元宇宙的銀行

今日《元宇宙新鮮事》有：“元宇宙第一股”Roblox首份年報未達預期致盤后股價暴跌15.28%；YouTube宣布進軍區塊鏈和元宇宙；摩根大通成為首家進入元宇宙的銀行。【中
2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

傳感器是由敏感元件和轉換元件構成，能夠感受規定的檢測量(物理量、化學量、生物量等)，并按照一定規律將檢測量轉化成可用的輸出信號的器件和裝置，進而滿足信息的
「國產良心」NFT嘲諷了誰？

2月23日，一個名為「國產良心」的NFT項目被許多活躍的加密用戶注意到。該項目的官網風格尤為「不正經」，它絲毫沒有避諱自己的小作坊出身，還將「中國人不騙中國人
傳統互聯網與區塊鏈場景下數據權利法律分析

數據權益的復雜性在于數據涉及多環節多主體、內容不同質且與不同場景緊密聯系、對軟硬件技術環節緊密相關等方面的復雜性。在傳統互聯網與區塊鏈模式下，數據處
MR——元宇宙平臺的下一代入口

作為“元宇宙”的領頭羊，Meta的一舉一動都受到業內的高度關注。華爾街見聞提及，2月17日周四，Facebook母公司Meta在透露，其混合現實技術（MR）將在幾年后實現，讓人們對元
3月份值得關注的5個NFT項目

2021年，我們見證了一個新的創造者經濟的誕生。它是在區塊鏈上誕生的。自從NFT成為流行文化的中心舞臺以來，有些藝術家們已經成為了NFT的超級明星，在幾個月的時間
元宇宙不完全是想出來的，而是實打實做出來的

沈陽強調，元宇宙不完全是想出來的，而是靠實打實做出來的；互聯網向三維化升級是已經明確的大方向，這意味著大量的資金和技術會持續涌入。跨入2022年，元宇宙并沒有“

国产欧美日韩三区_偷窥自拍亚洲色图精选_久久大片网站_成人在线黄色_成人亚洲免费视频_99久久久精品_国产美女自拍_韩国19禁主播vip福利视频_色综合视频一区二区三区日韩_日本在线观看一区二区

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

GPT-5 編程測評“表面不及格”：實際 63.1% 的任務沒交卷，全算上成績比 Claude 高一倍

藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

茅臺的元宇宙App火了，也被罵慘了

“元宇宙第一股”Roblox首份年報未達預期，摩根大通成為首家進入元宇宙的銀行

2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

「國產良心」NFT嘲諷了誰？

傳統互聯網與區塊鏈場景下數據權利法律分析

MR——元宇宙平臺的下一代入口

3月份值得關注的5個NFT項目

元宇宙不完全是想出來的，而是實打實做出來的

最新推薦

“平均時代”：ChatGPT模仿秀的隱喻

2030年的元宇宙產業將會如何發展？

數字經濟、數據要素與數字治理

Interface正大光明的“跑路”，社區成員贊格局大

從4個方面解析2022年加密行業趨勢

知名藝術家打造去中心化“好萊塢”：一部電影一個DAO

猜你喜歡

熱門推薦

相關資訊