国产欧美日韩三区_偷窥自拍亚洲色图精选_久久大片网站_成人在线黄色_成人亚洲免费视频_99久久久精品_国产美女自拍_韩国19禁主播vip福利视频_色综合视频一区二区三区日韩_日本在线观看一区二区

當前位置:首頁 > 元宇宙 > AI

GPT-5 編程測評“表面不及格”:實際 63.1% 的任務沒交卷,全算上成績比 Claude 高一倍

來源: 責編: 時間:2025-09-25 15:00:17 43觀看
導讀 Scale AI 的新軟件工程基準 SWE-BENCH PRO,出現反轉!表面上看,“御三家”集體翻車,沒一家的解決率超過 25%:GPT-5、Claude Opus 4.1、Gemini 2.5 分別以 23.3%、22.7%、13.5% 的解決率“榮”登前三。但深入數據背

Scale AI 的新軟件工程基準 SWE-BENCH PRO,出現反轉!Zmy28資訊網——每日最新資訊28at.com

表面上看,“御三家”集體翻車,沒一家的解決率超過 25%:Zmy28資訊網——每日最新資訊28at.com

GPT-5、Claude Opus 4.1、Gemini 2.5 分別以 23.3%、22.7%、13.5% 的解決率“榮”登前三。Zmy28資訊網——每日最新資訊28at.com

Zmy28資訊網——每日最新資訊28at.com

但深入數據背后,則暗藏玄機。Zmy28資訊網——每日最新資訊28at.com

前 OpenAI 研究員 Neil Chowdhury 表示,如果只看已提交的任務,GPT-5 能達到 63% 的準確率,比 Claude Opus 4.1 的 31%,高了近一倍!Zmy28資訊網——每日最新資訊28at.com

Zmy28資訊網——每日最新資訊28at.com

(這怎么不算 G 又贏!?)Zmy28資訊網——每日最新資訊28at.com

換句話說,GPT-5 在擅長的題目上依舊穩健,與老基準 SWE-Bench-Verified 的 74.9% 差距不大,而 Claude 跟其他模型則直接拉垮到底。Zmy28資訊網——每日最新資訊28at.com

那么,究竟是什么基準測試,讓這些頂級模型如此狼狽?Zmy28資訊網——每日最新資訊28at.com

SWE-BENCH PRO

先說結論,不是模型變菜了,而是題變難了。Zmy28資訊網——每日最新資訊28at.com

與平均正確率高達 70% 的 SWE-Bench-Verified 相比,SWE-BENCH PRO 嚴格得可不止一星半點。Zmy28資訊網——每日最新資訊28at.com

一方面,作為 OpenAI 于 2024 年 8 月發布的測試集,SWE-Bench-Verified 中的很多代碼庫已被用作大語言模型的預訓練語料,存在著數據污染的風險。Zmy28資訊網——每日最新資訊28at.com

另一方面,SWE-Bench-Verified 還包含不少瑣碎的問題,例如 500 個問題中有 161 個只需一兩行修改。Zmy28資訊網——每日最新資訊28at.com

這與工業軟件工程中通常涉及的跨多文件、數百行修改的場景差距較大,從而無法真正反映實際開發場景中所面臨的挑戰。Zmy28資訊網——每日最新資訊28at.com

基于此,SWE-BENCH PRO 主打全新題目,以確保模型在訓練階段從未接觸過測試內容,從而更真實地考驗模型的實際能力。Zmy28資訊網——每日最新資訊28at.com

Zmy28資訊網——每日最新資訊28at.com

涵蓋 1865 個商業應用、B2B 服務和開發者工具的多元化代碼庫

具體來說,SWE-BENCH PRO 將這些代碼庫構建為以下三個子集:Zmy28資訊網——每日最新資訊28at.com

公共集:來自采用 copy-left 許可證的 11 個公共代碼庫的 731 個問題。Zmy28資訊網——每日最新資訊28at.com

商業集:來自 276 個源自初創公司代碼庫的問題。Zmy28資訊網——每日最新資訊28at.com

保留集:來自采用 copy-left 許可證的 12 個公共代碼庫的 858 個問題。Zmy28資訊網——每日最新資訊28at.com

(注:公共集將在 HuggingFace 上發布,商業集和保留集保持私有,商業集的測試結果會公開,保留集用于驗證模型是否過擬合。每個問題由任務描述、相關測試集和可運行環境構成。)Zmy28資訊網——每日最新資訊28at.com

這些從強 Copyleft 許可證(GPL)代碼庫和真實的初創公司獲取的商業代碼庫能夠有效地解決 SWE-Bench-Verified 存在的數據污染問題。Zmy28資訊網——每日最新資訊28at.com

為了確保任務的復雜性,研究團隊還排除了像 1-10 行代碼編輯這樣瑣碎的編輯,保留了需要進行大量多文件修改的問題。Zmy28資訊網——每日最新資訊28at.com

此外,為了防止模型對任何單一代碼庫產生過擬合,這些代碼庫都處于活躍狀態并覆蓋消費者應用、B2B 服務和開發者工具平臺。Zmy28資訊網——每日最新資訊28at.com

接下來,就讓我們看看研究者是如何在這些問題上進行測試的。Zmy28資訊網——每日最新資訊28at.com

human in the loop 的測試環節

為了將模型評估的重點放在當模型獲得充分細節后,能否實現給定的修復或補丁上。Zmy28資訊網——每日最新資訊28at.com

研究團隊在 SWE-Bench Verified 的基礎上,將 SWE-BENCH PRO 中的每個問題都經過了人工增強,并加入了問題陳述、需求說明以及接口信息。Zmy28資訊網——每日最新資訊28at.com

首先,研究團隊提供一個待解決問題的問題陳述并在必要時補充上下文信息。Zmy28資訊網——每日最新資訊28at.com

Zmy28資訊網——每日最新資訊28at.com

其次,針對潛在的歧義問題,對于每個問題,列出了一系列需求并指定相應的類和函數。Zmy28資訊網——每日最新資訊28at.com

Zmy28資訊網——每日最新資訊28at.com

之后,在環境方面,每個任務都在一個容器化的、用于特定語言的環境中進行評估。Zmy28資訊網——每日最新資訊28at.com

在測試階段,研究通過 fail2pass 測試驗證問題是否已解決,通過 pass2pass 測試確保現有功能保持完整。Zmy28資訊網——每日最新資訊28at.com

其中,為了確保測試質量,fail2pass 測試會經過人工篩選,去掉與任務不相關或過于寬泛的測試。Zmy28資訊網——每日最新資訊28at.com

對于偶爾失敗的測試,則會運行三次,以確保結果穩定。Zmy28資訊網——每日最新資訊28at.com

實驗結論

正如我們開頭提到的,大語言模型在 SWE-BENCH PRO 上的解決率僅為中等水平,遠低于 SWE-Bench Verified 中的 70% 。Zmy28資訊網——每日最新資訊28at.com

Zmy28資訊網——每日最新資訊28at.com

其中,在公共集上,GPT-5 和 Claude Opus 4.1 分別實現了 23.3% 和 22.7% 的最高解決率,顯著優于小規模模型,Claude Sonnet 4 也達到了 16.3% 的解決率。Zmy28資訊網——每日最新資訊28at.com

不過,像 DeepSeek Qwen-3 32B 和 GPT-4o 這樣的老模型表現就多少有點不盡人意了,僅為 3.4% 和 3.9%。Zmy28資訊網——每日最新資訊28at.com

Zmy28資訊網——每日最新資訊28at.com

在商業集上,即便是最優模型的得分也低于 20%。Zmy28資訊網——每日最新資訊28at.com

這表明當前模型在解決真實商業場景中的問題時,能力仍然非常有限。Zmy28資訊網——每日最新資訊28at.com

Zmy28資訊網——每日最新資訊28at.com

針對這一苦澀的實驗結果,研究人員展開了進一步的分析,結論如下:Zmy28資訊網——每日最新資訊28at.com

首先,編程語言的難度、代碼庫以及模型的種類被視為影響模型表現的關鍵因素。Zmy28資訊網——每日最新資訊28at.com

Go 和 Python 通常表現較好,一些模型在這些語言上的解決率超過 30%,而 JavaScript 和 TypeScript 則波動較大,從 0% 到超過 30% 不等。Zmy28資訊網——每日最新資訊28at.com

不同代碼庫的解決率差異也很明顯,一些代碼庫普遍偏低(低于 10%),另一些則超過 50%。Zmy28資訊網——每日最新資訊28at.com

前沿模型如 Claude Opus 4.1 和 GPT-5 在大多數編程語言和代碼庫中表現穩定,小規模模型則更易出現接近零的解決率。Zmy28資訊網——每日最新資訊28at.com

其次,不同的模型的失敗原因往往各不相同。Zmy28資訊網——每日最新資訊28at.com

Zmy28資訊網——每日最新資訊28at.com

OPUS 4.1 的主要失敗模式是語義理解不足,錯誤解答占 35.9%,語法錯誤占 24.2%,表明其技術執行能力較強,但在問題理解和算法正確性方面存在挑戰。Zmy28資訊網——每日最新資訊28at.com

GPT-5 的結果顯示在工具使用的有效性上可能存在差異,但錯誤解答相對較少。Zmy28資訊網——每日最新資訊28at.com

SONNET 4 的主要失敗模式是上下文溢出(35.6%)和顯著的無休止文件讀取行為(17.0%),表明其在上下文管理和文件導航策略上存在局限。Zmy28資訊網——每日最新資訊28at.com

GEMINI 2.5 的失敗模式則較為均衡,涵蓋工具錯誤(38.8%)、語法錯誤(30.5%)和錯誤解答(18.0%),顯示其在多個維度上保持了一定能力。Zmy28資訊網——每日最新資訊28at.com

QWEN3 32B 作為開源模型,表現出最高的工具錯誤率(42.0%),凸顯了集成化工具使用對于高效代理的重要性。Zmy28資訊網——每日最新資訊28at.com

不難看出,GPT-5 雖然延續了以往“會就會,不會就不會”的答題策略,但面對高企的未回答率(63.1%),它的表現仍然不夠看。Zmy28資訊網——每日最新資訊28at.com

那么,誰會成為第一個突破 30% 的大模型呢?Zmy28資訊網——每日最新資訊28at.com

Zmy28資訊網——每日最新資訊28at.com

參考鏈接Zmy28資訊網——每日最新資訊28at.com

[1]https://x.com/vbingliuZmy28資訊網——每日最新資訊28at.com

[2]https://scale.com/leaderboard/swe_bench_pro_publicZmy28資訊網——每日最新資訊28at.com

[3]https://x.com/ChowdhuryNeil/status/1969817448229826798Zmy28資訊網——每日最新資訊28at.com

[4] https://scale.com/research/swe_bench_proZmy28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:henryZmy28資訊網——每日最新資訊28at.com

本文鏈接:http://www.yifxia.cn/showinfo-45-28057-0.htmlGPT-5 編程測評“表面不及格”:實際 63.1% 的任務沒交卷,全算上成績比 Claude 高一倍

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 奧爾特曼預告 ChatGPT 新產品:Pro 會員也要額外收費,這次不計成本投入算力

下一篇: Plaud 正式進駐中國大陸,Plaud Note Pro 等三款 AI 錄音硬件全面發售

標簽:
  • 熱門焦點
Top 国产伦精品一区二区三区在线观看| 国产成人精品综合在线| 久草免费在线观看| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 欧美1区| 国产麻豆精品高清在线播放| 亚洲 男人 天堂| 你懂的国产精品| 青青青草视频在线观看| 毛片高清| 国产伦精品一区三区视频| 国产一区二区精品| 国产国语对白一级毛片| 亚洲wwwwww| 成人免费一级纶理片| 国产网站免费| 国产国语在线播放视频| 国产a视频精品免费观看| 欧美大片毛片aaa免费看| 国产91丝袜高跟系列| 91麻豆高清国产在线播放| 日韩av成人| 日本在线www| 99久久精品费精品国产一区二区| 国产综合成人观看在线| 成人a大片高清在线观看| 黄视频网站免费观看| 国产视频在线免费观看| 国产视频一区二区在线观看| a级毛片免费观看网站| 国产精品免费久久| 国产伦精品一区二区三区在线观看| 久久精品大片| 欧美a级大片| 99久久精品费精品国产一区二区| 精品视频在线观看视频免费视频| 久草免费资源| 久久精品免视看国产明星| 国产一区精品| 国产伦久视频免费观看视频| a级精品九九九大片免费看| 精品国产香蕉伊思人在线又爽又黄| 一级片片| 韩国三级香港三级日本三级la | 国产成a人片在线观看视频| 99久久精品费精品国产一区二区| 韩国三级香港三级日本三级| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 欧美激情一区二区三区在线| 国产91素人搭讪系列天堂| 国产网站免费视频| 国产成人精品综合| 99久久视频| 天堂网中文字幕| 日本在线不卡视频| 日韩在线观看视频黄| 午夜欧美成人香蕉剧场| 日韩在线观看视频黄| 亚洲爆爽| 精品视频在线看| 黄视频网站在线免费观看| 韩国三级视频网站| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 日韩中文字幕一区| 尤物视频网站在线| 99色视频| 99色视频在线观看| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 欧美激情伊人| 国产伦精品一区三区视频| 91麻豆高清国产在线播放| 欧美电影免费| 午夜精品国产自在现线拍| 精品视频免费观看| 日韩中文字幕在线播放| 一级女性全黄生活片免费| 欧美1区2区3区| 99色视频在线| 精品视频免费观看| 日本免费乱理伦片在线观看2018| 成人免费观看视频| 欧美a级大片| 中文字幕一区二区三区 精品| 久久久久久久免费视频| 人人干人人插| 国产网站免费观看| 99久久网站| 欧美大片毛片aaa免费看| 成人在免费观看视频国产| 精品国产一区二区三区久| 日本免费区| 国产精品1024永久免费视频| 青青青草视频在线观看| 欧美激情一区二区三区视频 | 91麻豆精品国产自产在线| 亚欧视频在线| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 欧美另类videosbestsex久久 | 日韩中文字幕一区| 欧美电影免费看大全| 黄视频网站免费看| 日韩专区亚洲综合久久| 精品视频一区二区三区免费| 免费毛片播放| 美女免费毛片| 91麻豆国产| 99热视热频这里只有精品| 91麻豆国产福利精品| 国产一区二区精品| 国产91精品露脸国语对白| 国产精品自拍在线观看| 成人免费观看视频| 国产国语对白一级毛片| 欧美另类videosbestsex高清 | 欧美另类videosbestsex高清 | 欧美日本国产| 欧美国产日韩久久久| 欧美激情一区二区三区视频高清 | 国产一区二区精品久久91| 国产成人啪精品| 久久国产一区二区| 国产麻豆精品免费视频| 国产91精品一区二区| 久久国产精品自由自在| 久久99中文字幕| 一本高清在线| 欧美激情在线精品video| 欧美激情一区二区三区视频高清 | 成人影视在线观看| 欧美国产日韩在线| 午夜在线亚洲男人午在线| 欧美a级大片| 99久久精品国产免费| 欧美爱色| 黄视频网站在线观看| 尤物视频网站在线观看| 久久国产影院| 一本高清在线| 中文字幕一区二区三区 精品| 韩国毛片免费| 韩国毛片免费| 国产成人精品综合| 免费国产在线视频| 国产不卡在线观看视频| 国产不卡精品一区二区三区| 欧美激情一区二区三区在线| 日韩字幕在线| 午夜欧美成人香蕉剧场| 国产不卡高清在线观看视频 | 日韩av成人| 日本伦理网站| 欧美另类videosbestsex视频| 美女免费毛片| 日韩在线观看免费| a级精品九九九大片免费看| 毛片的网站| 国产a视频| 91麻豆精品国产片在线观看| 四虎影视库| 欧美一区二区三区在线观看| 久久精品人人做人人爽97| 日韩字幕在线| 91麻豆精品国产高清在线| 精品视频一区二区三区免费| 午夜精品国产自在现线拍| 韩国三级一区| 日韩免费在线视频| 精品视频一区二区| 国产成人精品综合在线| 国产91素人搭讪系列天堂| 亚洲第一页色| 九九久久99综合一区二区| 免费国产在线视频| 午夜家庭影院| 你懂的日韩| 一 级 黄 中国色 片| 久久国产精品自线拍免费| 国产高清视频免费观看| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 色综合久久天天综合| 国产原创中文字幕| 久久国产一区二区| 尤物视频网站在线观看| 免费国产一级特黄aa大片在线| 久久成人综合网| 国产网站免费| 精品视频在线看 | 精品毛片视频| 久久国产一区二区| 日韩一级黄色大片| 你懂的日韩| 久草免费资源| 国产一区二区精品在线观看| 成人影院一区二区三区| 日本特黄特黄aaaaa大片| 亚欧乱色一区二区三区| 99色视频| 亚洲精品影院一区二区| 日韩在线观看免费| 亚洲精品永久一区|