月之暗面公司近日正式推出了其最新研發(fā)的Kimi-k2 thinking模型,這款具備通用智能體能力和深度推理功能的思考模型,標(biāo)志著AI技術(shù)在復(fù)雜問題解決領(lǐng)域邁出了重要一步。該模型通過多輪工具調(diào)用機(jī)制,能夠高效應(yīng)對編程、數(shù)學(xué)及邏輯推理等領(lǐng)域的挑戰(zhàn)性任務(wù)。
作為Kimi K2系列的最新迭代,此次發(fā)布的模型在7月11日首發(fā)的10000億參數(shù)基礎(chǔ)上,通過9月5日發(fā)布的Kimi K2-0905版本實現(xiàn)了核心能力升級。新版本不僅強(qiáng)化了智能編碼能力,支持256K長文本處理,還將API輸出速度提升至每秒60-100Token,并兼容Claude Code技術(shù)標(biāo)準(zhǔn)。在定價策略上,基礎(chǔ)版每百萬輸入token(緩存未命中)收費4元,輸出收費16元;針對高速運算場景推出的turbo版本,輸入價格提升至8元,輸出價格達(dá)58元。
在實際測試環(huán)節(jié),研發(fā)團(tuán)隊重點考察了模型在三個關(guān)鍵領(lǐng)域的能力表現(xiàn)。在編程測試中,要求生成包含導(dǎo)航欄、主體展示區(qū)及兩個特色功能的開源模型分享網(wǎng)站原型。生成的HTML頁面不僅完整實現(xiàn)了所有功能模塊,搜索框、按鈕等交互元素均可正常使用,點擊上傳模型按鈕會彈出文件格式及大小限制提示。整個項目生成耗時約3分鐘,消耗9K token,但在多次測試中偶爾出現(xiàn)程序崩潰現(xiàn)象。
數(shù)學(xué)能力測試選取了2025年國際數(shù)學(xué)奧林匹克競賽最具挑戰(zhàn)性的第六題。基礎(chǔ)版模型經(jīng)過4分鐘運算,在21188字的思考過程中給出了4048的錯誤答案(正確答案為2112),消耗23.5K token。升級至turbo版本后,雖然運算時間縮短至2分鐘,但token消耗量激增至38.5K,且答案依然錯誤。面對另一道IMO競賽題時,模型在深度思考10余分鐘后停止運算,兩次嘗試均卡在47000字左右的思考節(jié)點未能給出答案。由于缺乏圖片識別能力,復(fù)雜數(shù)學(xué)公式的輸入成為制約模型表現(xiàn)的瓶頸。
在邏輯推理測試中,模型展現(xiàn)出較強(qiáng)的基礎(chǔ)認(rèn)知能力,能夠快速識別并規(guī)避常見邏輯陷阱。面對進(jìn)階型推理題目時,模型可在1分鐘內(nèi)給出準(zhǔn)確答案,單次推理消耗約16.6K token。測試表明,該模型在處理需要多步驟推導(dǎo)的復(fù)雜問題時,仍存在運算穩(wěn)定性不足的問題。
值得關(guān)注的是,就在月之暗面發(fā)布新模型前兩天,阿里云剛推出Qwen 3系列最強(qiáng)推理模型Qwen3-Max-Thinking的早期預(yù)覽版。兩家科技企業(yè)接連在智能推理領(lǐng)域發(fā)力,反映出當(dāng)前AI行業(yè)競爭焦點正從基礎(chǔ)能力建設(shè)轉(zhuǎn)向復(fù)雜問題解決能力的深度開發(fā)。隨著智能體技術(shù)成為行業(yè)主流發(fā)展方向,模型的推理運算能力將成為衡量AI實用價值的核心指標(biāo)。
本文鏈接:http://www.yifxia.cn/showinfo-24-185768-0.htmlKimi-k2 thinking模型發(fā)布!編程表現(xiàn)出色,IMO數(shù)學(xué)題求解遇挑戰(zhàn)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: vivo S50系列入網(wǎng)引關(guān)注:雙尺寸設(shè)計+90W快充,Pro mini版性能躍升