近日,AI界傳出了一則令人矚目的消息。據(jù)AI云服務(wù)商Hyperbolic的聯(lián)合創(chuàng)始人兼CTO Yuchen Jin在社交平臺上的爆料,研究員Keller Jordan僅憑一篇博客文章就成功加入了OpenAI,并且可能正在利用文章中提及的神經(jīng)網(wǎng)絡(luò)隱藏層優(yōu)化器Muon來訓(xùn)練GPT-5。
Jin在爆料中感慨道,許多研究人員,包括曾經(jīng)的自己,都曾誤以為在頂級學(xué)術(shù)會議上發(fā)表論文才是最終目標(biāo)。然而,發(fā)表論文并不等同于產(chǎn)生實(shí)際影響力。Keller Jordan發(fā)布的Muon優(yōu)化器僅以博客形式問世,卻幫助他叩開了OpenAI的大門,并有可能在GPT-5的訓(xùn)練中大放異彩。

Jordan的這篇博客發(fā)表于2024年12月,題為《Muon:神經(jīng)網(wǎng)絡(luò)隱藏層的優(yōu)化器》。文章詳細(xì)介紹了Muon的設(shè)計理念及其在多個實(shí)驗(yàn)中的優(yōu)異表現(xiàn)。從職場社交平臺領(lǐng)英的信息可以確認(rèn),Jordan正是在博客發(fā)布后不久加入了OpenAI,這無疑進(jìn)一步證實(shí)了他的研究成果得到了業(yè)界的認(rèn)可。

Muon作為一種針對神經(jīng)網(wǎng)絡(luò)隱藏層二維參數(shù)的優(yōu)化器,在設(shè)計和應(yīng)用上都有其獨(dú)到之處。它通過采用SGD-momentum生成的更新,并在應(yīng)用于參數(shù)之前對每個更新應(yīng)用Newton-Schulz迭代作為后處理步驟,從而實(shí)現(xiàn)了更新矩陣的近似正交化。這一創(chuàng)新設(shè)計使得Muon在多個實(shí)驗(yàn)中都取得了顯著優(yōu)于傳統(tǒng)優(yōu)化器AdamW的表現(xiàn)。
具體而言,Muon在CIFAR-10數(shù)據(jù)集上的訓(xùn)練速度記錄從3.3秒提高到了2.6秒,準(zhǔn)確率達(dá)到了94%;在FineWeb競賽任務(wù)上的訓(xùn)練速度記錄也提高了1.35倍。在擴(kuò)展到更大規(guī)模的模型時,Muon仍然能夠持續(xù)顯示訓(xùn)練速度的提升。這些實(shí)證成果無疑為Muon在OpenAI中的應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ)。


除了在設(shè)計上的創(chuàng)新,Jordan在博客中還對神經(jīng)網(wǎng)絡(luò)優(yōu)化研究中的證據(jù)標(biāo)準(zhǔn)提出了犀利批評。他指出,當(dāng)前的研究文獻(xiàn)中充斥著大量聲稱能夠擊敗AdamW的優(yōu)化器,但這些優(yōu)化器往往因?yàn)榛€欠調(diào)而未能得到廣泛采用。為了糾正這種情況,Jordan建議研究界應(yīng)該要求新方法在競爭性訓(xùn)練任務(wù)中取得成功,以確保其有效性和可靠性。
隨著Jordan加入OpenAI并可能參與GPT-5的訓(xùn)練工作,Muon這一全新優(yōu)化器有望成為GPT-5中的重要技術(shù)。然而,關(guān)于Muon的未來發(fā)展仍有許多未知因素,包括其是否能夠在更大規(guī)模的訓(xùn)練中擴(kuò)展應(yīng)用,以及在大型GPU集群中的正確分布等。或許在GPT-5的研究中,這些問題都將得到解答。
舉報 0收藏 0打賞 0評論 0分享 0 更多>同類資訊
4G/5G物聯(lián)網(wǎng)賦能,戶外停車場如何實(shí)現(xiàn)智慧升級?4G/5G 網(wǎng)絡(luò)的高速率特性,使得車牌識別數(shù)據(jù)、控制指令等信息能夠快速傳輸,提高了系統(tǒng)的響應(yīng)速度;低延遲特性則確保了車輛進(jìn)出的及時性和流暢性。通過在每個停車位安裝地磁傳感器和車牌識別設(shè)備,并利用工業(yè)路由器和物…06-17
納秒級精度!SYN3307型GNSS馴服晶振模塊引領(lǐng)技術(shù)新變革西安同步電子科技有限公司匠心打造的 SYN3307 型 GNSS馴服晶振模塊,憑借其集成化設(shè)計與智能馴服技術(shù),為無人機(jī)、雷達(dá)、衛(wèi)星通訊等關(guān)鍵領(lǐng)域提供了穩(wěn)定可靠的時空基準(zhǔn)解決方案。隨著 5G、物聯(lián)網(wǎng)、自動駕駛…06-17
構(gòu)建高可用服務(wù)器架構(gòu):保障業(yè)務(wù)連續(xù)性的關(guān)鍵策略服務(wù)器高可用性架構(gòu)的核心目標(biāo)是確保系統(tǒng)在面對硬件故障、軟件錯誤、網(wǎng)絡(luò)問題甚至人為失誤時,仍能持續(xù)運(yùn)行并提供服務(wù)。 在設(shè)計高可用性架構(gòu)時,還需要考慮監(jiān)控和告警機(jī)制。通過采用冗余設(shè)計、分布式架構(gòu)、監(jiān)控告警機(jī)制以…06-17
石頭科技2024年度權(quán)益分派實(shí)施,多圖揭秘分配詳情!06-17
富士X-E5沉浸式體驗(yàn)來襲,X-Pro系列也即將回歸?【CNMO科技消息】根據(jù)Petapixel的一篇采訪報道,富士膠片的產(chǎn)品開發(fā)負(fù)責(zé)人透露了公司對這兩款產(chǎn)品的未來規(guī)劃和設(shè)計理念。為了滿足這一需求,X-E5不僅增加了新的膠片模擬撥盤,還在保持XE系列一貫簡約優(yōu)雅…06-17
小米高速吹風(fēng)機(jī)PRO,短發(fā)星人新寵?體驗(yàn)后直呼:真香!自從剪了短發(fā)之后,就需要天天洗頭,之前的吹風(fēng)機(jī)太重,噪音大,而且吹干速度也慢,新入手的小米高速吹風(fēng)機(jī)PRO,能快速吹干頭發(fā),不僅顏值在線還嘎嘎好用,巖石灰的的配色好美,吹風(fēng)機(jī)不大,也很輕。用了小米的這款高速吹…06-17
混凝土臂架泵車底盤:未來智能化趨勢與日常保養(yǎng)秘籍06-17
華為WATCH 5:以鴻蒙AI引領(lǐng)智能手表新風(fēng)尚06-17羅永浩數(shù)字人直播首秀大獲成功,AI講解近10萬字,老羅直呼效果驚人!06-17
華為Pura 80系列首銷火爆,何剛親自交付新機(jī),影像美學(xué)再升級!06-17拼多多概念股16日大漲,主力資金凈流入超4億,元隆雅圖領(lǐng)跑6月16日,拼多多概念上漲3.31%,今日主力資金流入4.11億元,概念股22只上漲,3只下跌。 主力資金凈流入居前的分別為元隆雅圖(2.76億元)、美登科技(4733.67萬元)、每日互動(4331.93萬…06-17
華為Pura80系列新機(jī)發(fā)布:影像躍遷,自研升級,6月14日起陸續(xù)開售!6月11日下午,華為Pura80系列及全場景新品發(fā)布會如期而至,備受矚目的「華為Pura80系列」正式亮相,共帶來了四款旗艦新機(jī),從標(biāo)準(zhǔn)版到Pro、Pro+再到Ultra,不僅更新了旗艦手機(jī)的硬件堆料,也在影…06-17
贛鋒鋰業(yè)領(lǐng)銜,上海新設(shè)資源再生科技公司,注冊資本高達(dá)1億!06-17
廣州灣區(qū)半導(dǎo)體產(chǎn)業(yè)集團(tuán)增資近三成,總額躍升至33.36億06-17
小英上位后,雙方是否已切斷所有公司關(guān)聯(lián)?06-17點(diǎn)擊查看更多 +全站最新
6-7月新機(jī)潮來襲,小米魅族等國產(chǎn)中高端機(jī)型誰更亮眼?
小米月末新品大爆炸:YU7 SUV攜手AI眼鏡,智能生態(tài)再升級!
智能眼鏡卷土重來,能否借AI之力引領(lǐng)科技新風(fēng)尚?
emoji表情跨平臺大不同,蘋果安卓用戶如何避免溝通誤會?
Win11意外“穿越”?開機(jī)聲變回Windows Vista經(jīng)典旋律
數(shù)碼博主的日常神器:揭秘他們的EDC裝備,感受科技魅力熱門內(nèi)容
構(gòu)建高可用服務(wù)器架構(gòu):保障業(yè)務(wù)連續(xù)性的關(guān)鍵策略
石頭科技2024年度權(quán)益分派實(shí)施,多圖揭秘分配詳情!
富士X-E5沉浸式體驗(yàn)來襲,X-Pro系列也即將回歸?
小米高速吹風(fēng)機(jī)PRO,短發(fā)星人新寵?體驗(yàn)后直呼:真香!
混凝土臂架泵車底盤:未來智能化趨勢與日常保養(yǎng)秘籍
華為WATCH 5:以鴻蒙AI引領(lǐng)智能手表新風(fēng)尚
本文鏈接:http://www.yifxia.cn/showinfo-16-160385-0.html靠博客文章入職OpenAI,Keller Jordan的Muon優(yōu)化器或助力GPT-5訓(xùn)練
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com