當(dāng)人類走進(jìn)便利店尋找特定飲料時(shí),即便貨架上商品琳瑯滿目,我們也能迅速鎖定目標(biāo)。這種看似簡(jiǎn)單的視覺(jué)定位能力,對(duì)人工智能而言卻是一道難題。中國(guó)科學(xué)院計(jì)算技術(shù)研究所的研究團(tuán)隊(duì)針對(duì)這一挑戰(zhàn),提出了一種名為CARVE的創(chuàng)新解決方案,有效提升了AI在復(fù)雜場(chǎng)景中的視覺(jué)推理能力。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有AI視覺(jué)語(yǔ)言模型在處理復(fù)雜圖像時(shí),注意力容易分散。就像人在嘈雜環(huán)境中難以集中精神一樣,AI面對(duì)包含大量視覺(jué)元素的圖片時(shí),往往會(huì)被無(wú)關(guān)信息干擾,導(dǎo)致任務(wù)執(zhí)行效率下降。這種注意力分散的程度與圖像的視覺(jué)復(fù)雜度密切相關(guān),研究團(tuán)隊(duì)通過(guò)量化分析證實(shí),圖像的紋理復(fù)雜度和顏色復(fù)雜度越高,AI的注意力就越難以集中。
CARVE方法的核心在于構(gòu)建了一種對(duì)比注意力機(jī)制。該方法不需要對(duì)現(xiàn)有AI模型進(jìn)行重新訓(xùn)練,而是通過(guò)設(shè)計(jì)兩種不同的觀察指令來(lái)引導(dǎo)模型。首先讓AI以通用指令(如"描述圖片")觀察圖像,此時(shí)模型的注意力主要受圖像本身特征影響;再讓AI以具體任務(wù)指令(如"找出紅色標(biāo)簽的瓶子")觀察同一圖像,此時(shí)注意力會(huì)結(jié)合任務(wù)需求進(jìn)行調(diào)整。通過(guò)對(duì)比這兩次注意力分布的差異,CARVE能夠準(zhǔn)確識(shí)別出與任務(wù)真正相關(guān)的視覺(jué)區(qū)域。
研究團(tuán)隊(duì)從數(shù)學(xué)角度證明了這種對(duì)比機(jī)制的有效性。他們發(fā)現(xiàn)AI的注意力分布可以分解為兩個(gè)獨(dú)立因素的乘積:一個(gè)是完全由圖像視覺(jué)特征決定的"視覺(jué)噪音因子",另一個(gè)是由任務(wù)需求決定的"語(yǔ)義信號(hào)因子"。在通用指令下,語(yǔ)義信號(hào)因子趨于均勻分布,注意力主要由視覺(jué)噪音主導(dǎo);而在具體任務(wù)指令下,語(yǔ)義信號(hào)因子會(huì)在相關(guān)區(qū)域顯著增強(qiáng)。CARVE通過(guò)簡(jiǎn)單的數(shù)學(xué)運(yùn)算,成功分離出這兩個(gè)因子,有效抑制了視覺(jué)噪音的干擾。
實(shí)驗(yàn)結(jié)果顯示,CARVE方法在多個(gè)標(biāo)準(zhǔn)測(cè)試集上均取得了顯著成效。特別是在處理能力有限的開源模型時(shí),性能提升幅度最高達(dá)到75%。以LLAVA1.5-7B模型為例,在專門測(cè)試復(fù)雜場(chǎng)景小目標(biāo)定位能力的V*數(shù)據(jù)集上,其準(zhǔn)確率從38.7%提升至66.5%,提升幅度達(dá)71.83%。在需要識(shí)別圖像中文字信息的TextVQA數(shù)據(jù)集上,同一模型的準(zhǔn)確率也從47.8%提升至58.2%。
與其他視覺(jué)增強(qiáng)方法的對(duì)比測(cè)試進(jìn)一步驗(yàn)證了CARVE的優(yōu)勢(shì)。在TextVQA數(shù)據(jù)集上,CARVE以58.2%的準(zhǔn)確率領(lǐng)先于所有對(duì)比方法,包括基于SAM分割的方法(49.42%)、YOLO目標(biāo)檢測(cè)方法(48.84%)和CLIP視覺(jué)-語(yǔ)言匹配方法(48.55%)。雖然CARVE的處理時(shí)間(1.34秒/張)略長(zhǎng)于YOLO等快速方法,但顯著快于需要復(fù)雜分割的SAM方法(3.33秒/張),且無(wú)需任何模型訓(xùn)練,具有更好的實(shí)用性。
研究團(tuán)隊(duì)深入分析了CARVE的工作機(jī)制,發(fā)現(xiàn)使用網(wǎng)絡(luò)深層注意力信息比淺層更有效,這與AI注意力在不同網(wǎng)絡(luò)層次的演化規(guī)律一致。在淺層網(wǎng)絡(luò)中,AI的注意力呈現(xiàn)全局掃描特征;隨著網(wǎng)絡(luò)加深,注意力逐漸聚焦到關(guān)鍵區(qū)域。CARVE通過(guò)對(duì)比機(jī)制,幫助模型在網(wǎng)絡(luò)深層實(shí)現(xiàn)更有效的注意力收斂。
CARVE方法展現(xiàn)出了良好的魯棒性。研究測(cè)試了不同的圖像掩碼生成參數(shù),發(fā)現(xiàn)在保留圖像20%-60%區(qū)域、選擇2-3個(gè)主要區(qū)域的設(shè)置下,模型性能提升最為穩(wěn)定。過(guò)度激進(jìn)的掩碼策略(如只保留20%以下區(qū)域或僅選擇一個(gè)區(qū)域)反而會(huì)導(dǎo)致性能下降,因?yàn)榭赡軄G失重要視覺(jué)信息。
盡管CARVE取得了顯著進(jìn)展,但研究團(tuán)隊(duì)也指出了其局限性。該方法會(huì)增加一定的計(jì)算開銷,雖然通過(guò)早期終止推理和注意力緩存等優(yōu)化策略,計(jì)算效率已得到提升,但在實(shí)時(shí)應(yīng)用場(chǎng)景中仍需進(jìn)一步優(yōu)化。CARVE的效果依賴于通用指令的選擇,研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)確定了最優(yōu)指令,但在不同語(yǔ)言和文化背景下可能需要調(diào)整。對(duì)于極端復(fù)雜的場(chǎng)景,如包含數(shù)百個(gè)小物體的密集圖像,CARVE可能仍需結(jié)合其他技術(shù)手段。
這項(xiàng)研究為提升AI視覺(jué)推理能力提供了新思路。通過(guò)模擬人類"先瀏覽再聚焦"的視覺(jué)認(rèn)知模式,CARVE幫助AI模型在復(fù)雜環(huán)境中更準(zhǔn)確地定位關(guān)鍵信息。隨著技術(shù)的不斷完善,這類方法有望在醫(yī)療影像分析、輔助視覺(jué)系統(tǒng)、教育輔導(dǎo)等多個(gè)領(lǐng)域發(fā)揮重要作用,使AI的視覺(jué)理解能力更接近人類水平。
更多>同類資訊Plaud攜三款A(yù)I紀(jì)要新品入局大陸市場(chǎng),多模態(tài)交互與長(zhǎng)續(xù)航成亮點(diǎn)09-23DeepSeek線上模型升級(jí)至V3.1-Terminus,輸出更穩(wěn)Agent能力再提升09-23DeepSeek-V3.1升級(jí)至V3.1-Terminus:語(yǔ)言更一致,代理更強(qiáng)大,輸出更穩(wěn)定09-23上海人工智能實(shí)驗(yàn)室牽頭!科學(xué)智能戰(zhàn)略科技力量聯(lián)盟正式成立09-23DeepSeek-V3.1-Terminus發(fā)布:修復(fù)Bug,編程與搜索智能體能力再升級(jí)09-23科學(xué)智能戰(zhàn)略科技力量聯(lián)盟成立 共探AI賦能多學(xué)科創(chuàng)新發(fā)展路徑09-23中國(guó)電信引領(lǐng)6G新突破:首個(gè)6G計(jì)費(fèi)項(xiàng)目獲3GPP正式批準(zhǔn)09-23DeepSeek-V3.1-Terminus更新登場(chǎng)!修復(fù)關(guān)鍵Bug,Agent能力躍升,V4還會(huì)遠(yuǎn)嗎?09-23百度智能云千帆開源Qianfan-VL視覺(jué)模型,多尺寸適配,全自研芯片賦能高效計(jì)算09-23人工智能投資新視角:大模型進(jìn)階智能體,場(chǎng)景化應(yīng)用前景展望今天分享的是:人工智能專題:從大模型到智能體——人工智能+場(chǎng)景的投資展望 報(bào)告共計(jì):31頁(yè) 《人工智能專題:從大模型到智能體——人工智能+場(chǎng)景的投資展望》報(bào)告首先探討“什么是真正的人工智能”,指出大語(yǔ)言模型如…09-23京東王競(jìng)凡:智能機(jī)器人高速發(fā)展,中國(guó)機(jī)器人市場(chǎng)2028年或達(dá)千億來(lái)源:睿見(jiàn)Economy 9月16日-17日,聚合智能產(chǎn)業(yè)發(fā)展大會(huì)(2025)在武漢市舉行,主題為“協(xié)同融合創(chuàng)新鏈產(chǎn)業(yè)鏈推動(dòng)聚合智能產(chǎn)業(yè)發(fā)展”。 王競(jìng)凡指出,目前智能機(jī)器人處于一個(gè)前所未有的高速發(fā)展道路,智…09-23上海創(chuàng)智學(xué)院周年慶發(fā)布模速空間AI工作站 助力教育大模型終端化應(yīng)用會(huì)上,學(xué)院正式發(fā)布標(biāo)桿成果——模速空間AI工作站,該設(shè)備搭載上海“啟創(chuàng)·InnoSpark”人工智能教育大模型,以“端側(cè)算力+教育大模型+場(chǎng)景化應(yīng)用”三位一體架構(gòu),為教育領(lǐng)域注入智能新動(dòng)能。該工作站由英和智臨…09-23國(guó)內(nèi)AI大模型邁向“用起來(lái)”階段,央(國(guó))企集約共享大模型前景與挑戰(zhàn)并存通信世界網(wǎng)消息(CWW)目前,國(guó)內(nèi)AI大模型產(chǎn)業(yè)正從“百模大戰(zhàn)”的“建起來(lái)”階段,向“行業(yè)爆發(fā)”的“用起來(lái)”階段過(guò)渡。權(quán)威機(jī)構(gòu)發(fā)布的數(shù)據(jù)顯示,2025年一季度國(guó)內(nèi)大模型市場(chǎng)規(guī)模預(yù)計(jì)突破495億元人民幣,但AI…09-23百度智能云開源Qianfan-VL視覺(jué)模型,多尺寸適配+自研芯片助力多場(chǎng)景應(yīng)用在 ScienceQA 等專業(yè)問(wèn)答測(cè)試中,精準(zhǔn)度表現(xiàn)突出;多模態(tài)任務(wù)如 RefCOCO 等,物體識(shí)別與關(guān)聯(lián)能力優(yōu)異;同時(shí),在各類通用基準(zhǔn)測(cè)試?yán)铮噍^主流模型,整體表現(xiàn)也頗為亮眼,充分彰顯出在視覺(jué)理解通用能力上…09-23工業(yè)互聯(lián)網(wǎng)浪潮涌動(dòng) 中國(guó)電信云網(wǎng)融合賦能工業(yè)智能化升級(jí)長(zhǎng)期以來(lái),中國(guó)電信立足自身優(yōu)勢(shì),堅(jiān)持以云網(wǎng)融合為核心抓手,在持續(xù)夯實(shí)工業(yè)智能底座、筑牢產(chǎn)業(yè)數(shù)字化根基的同時(shí),不斷加大科技創(chuàng)新力度,通過(guò)技術(shù)突破與模式創(chuàng)新,為工業(yè)企業(yè)提供全鏈條智能化解決方案,有效賦能工業(yè)生產(chǎn)全…09-23點(diǎn)擊查看更多 +全站最新
?9月狹義乘用車零售預(yù)計(jì)達(dá)215萬(wàn)輛,新能源車滲透率或超58%引關(guān)注?
6.88萬(wàn)起極狐T1實(shí)測(cè):空間越級(jí)配置足,小電車市場(chǎng)殺出“全能王”?
?雷軍官宣小米17系列9月25日發(fā)布,盧偉冰稱產(chǎn)品力跨代升級(jí)且對(duì)標(biāo)iPhone17?
?小米17系列9月25日發(fā)布在即,雷軍年度演講《改變》將揭秘芯片與汽車故事?
?雷軍宣布:9月25日小米17系列發(fā)布,同期將舉辦第6次年度演講聊芯片與汽車故事?
小米SU7標(biāo)準(zhǔn)版11.7萬(wàn)輛召回:OTA升級(jí)背后的智能駕駛安全與行業(yè)新挑戰(zhàn)熱門內(nèi)容
第22屆東博會(huì)AI元素亮眼:數(shù)字智能體引路 機(jī)器人炫技展風(fēng)采
AI云競(jìng)爭(zhēng)下半場(chǎng):華為以超節(jié)點(diǎn)、企業(yè)Agent等破局,誰(shuí)能領(lǐng)跑產(chǎn)業(yè)?
2025網(wǎng)安周:每日互動(dòng)劉宇談AI時(shí)代,知識(shí)安全成關(guān)鍵,共筑數(shù)字新未來(lái)
中國(guó)大模型DeepSeek首登Nature封面,R1訓(xùn)練成本僅約208萬(wàn)引關(guān)注
華為全聯(lián)接大會(huì)2025啟幕,發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)與集群
有鹿機(jī)器人+連合直租:以智能租賃模式,開啟高端場(chǎng)景清潔新未來(lái)
本文鏈接:http://www.yifxia.cn/showinfo-45-27970-0.html中科院團(tuán)隊(duì)創(chuàng)新CARVE法:破解AI視覺(jué)“分心”難題,助模型精準(zhǔn)聚焦
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: AI搜索的數(shù)學(xué)邊界:當(dāng)最強(qiáng)大模型遇上"簡(jiǎn)單問(wèn)題"的隱秘困局
下一篇: Plaud攜三款A(yù)I紀(jì)要新品入局大陸市場(chǎng),多模態(tài)交互與長(zhǎng)續(xù)航成亮點(diǎn)