国产欧美日韩三区_偷窥自拍亚洲色图精选_久久大片网站_成人在线黄色_成人亚洲免费视频_99久久久精品_国产美女自拍_韩国19禁主播vip福利视频_色综合视频一区二区三区日韩_日本在线观看一区二区

當(dāng)前位置:首頁 > 科技  > 知識百科

用自洽性提升大模型推理能力,谷歌解答基準(zhǔn)中75%數(shù)學(xué)問題,比GPT-3提升20%

來源: 責(zé)編: 時(shí)間:2023-08-07 16:30:09 333觀看
導(dǎo)讀 盡管語言模型在一系列 NLP 任務(wù)中取得了顯著的成功,但它們的推理能力往往不足,僅靠擴(kuò)大模型規(guī)模不能解決這個(gè)問題。基于此,Wei et al. (2022) 提出了思維提示鏈(chain of though

盡管語言模型在一系列 NLP 任務(wù)中取得了顯著的成功,但它們的推理能力往往不足,僅靠擴(kuò)大模型規(guī)模不能解決這個(gè)問題。基于此,Wei et al. (2022) 提出了思維提示鏈(chain of thought prompting),提示語言模型生成一系列短句,這些短句模仿一個(gè)人在解決推理任務(wù)時(shí)可能采用的推理過程。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在來自 Google Research 的研究者們提出了一種稱為「自洽性(self-consistency)」的簡單策略,它顯著提高了大型語言模型的推理準(zhǔn)確率。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

vyM28資訊網(wǎng)——每日最新資訊28at.com

論文地址:https://arxiv.org/pdf/2203.11171.pdfvyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

該論文的作者之一、Google Brain 的創(chuàng)始成員 Quoc Le 今天在推特上發(fā)文表示:這種自洽方法能夠解決 GSM8K 基準(zhǔn)中 75% 的數(shù)學(xué)問題,大幅超越現(xiàn)有方法。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

vyM28資訊網(wǎng)——每日最新資訊28at.com

圖源:https://twitter.com/quocleix/status/1513632492124663808vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

簡單來說,復(fù)雜的推理任務(wù)通常有多個(gè)能得到正確答案的推理路徑,自洽方法通過思維提示鏈從語言模型中采樣一組不同的推理路徑,然后返回其中最自洽的答案。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

vyM28資訊網(wǎng)——每日最新資訊28at.com

該方法在一系列算術(shù)和常識推理基準(zhǔn)上評估自洽性,可以穩(wěn)健地提高各種語言模型的準(zhǔn)確性,而無需額外的訓(xùn)練或輔助模型。當(dāng)與最近的大型語言模型 PaLM-540B 結(jié)合使用時(shí),自洽方法將多個(gè)基準(zhǔn)推理任務(wù)的性能提高到 SOTA 水平。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

該方法是完全無監(jiān)督的,預(yù)訓(xùn)練語言模型直接可用,不需要額外的人工注釋,也不需要任何額外的訓(xùn)練、輔助模型或微調(diào)。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

該研究在三種大型語言模型上評估一系列算術(shù)推理和常識推理任務(wù)的自洽性,包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者發(fā)現(xiàn),對于這幾種規(guī)模不同的語言模型,自洽方法都能顯著提高其推理能力。與通過貪心解碼(Wei et al., 2022)生成單一思維鏈相比,自洽方法有助于在所有推理任務(wù)中顯著提高準(zhǔn)確性,如下圖 2 所示。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

vyM28資訊網(wǎng)——每日最新資訊28at.com

多樣化推理路徑上的自洽vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

人類的一個(gè)突出特征是思維方式不同。人們會(huì)很自然地假設(shè),在需要深思熟慮的任務(wù)中,可能有幾種解決方法,所有這些方法都會(huì)得出相同的正確答案。因此,研究者建議可以通過從語言模型解碼器采樣以在語言模型中模擬這一過程。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

如下表 1 所示,一個(gè)模型可以為一個(gè)數(shù)學(xué)問題生成多個(gè)可能的回答,這些回答最終得出相同的正確答案(如輸出 2、4 和 5)。由于語言模型不是完美的推理器,模型也可能產(chǎn)生錯(cuò)誤的推理路徑或者在某一個(gè)推理步驟中出錯(cuò)(例如輸出 1 和 3 中),這種解決方案不太可能得出相同的答案( 表 1 中的 26 和 14)。 vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

也就是說,當(dāng)假設(shè)推理過程正確,即使它們是多樣化的,在最終答案中往往比不正確的推理過程具有更高的一致性。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

vyM28資訊網(wǎng)——每日最新資訊28at.com

研究者提出通過一種自洽(self-consistency)方法來利用這種直覺。具體步驟如下:vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

首先,使用一組手動(dòng)編寫的思維鏈?zhǔn)纠龑φZ言模型進(jìn)行提示;接著,從語言模型的解碼器中采樣一組候選輸出,生成一組不同的候選推理路徑;最后,通過在生成的答案中選擇最自洽的答案來集成結(jié)果。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

在實(shí)驗(yàn)調(diào)查中,研究者發(fā)現(xiàn)思維鏈提示與相結(jié)合,會(huì)比單獨(dú)使用僅考慮單一生成路徑的思維鏈產(chǎn)生好得多的結(jié)果。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)果vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

研究者進(jìn)行了一系列實(shí)驗(yàn),以在不同的算術(shù)和常識推理基準(zhǔn)上將提出的自洽方法與現(xiàn)有方法進(jìn)行比較。結(jié)果發(fā)現(xiàn),該方法極大地提高了每種語言模型的推理準(zhǔn)確性,涵蓋了廣泛的模型尺度。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

具體地,他們評估了不同推理路徑上的自洽性,即自洽性(多路徑)(Multipath)。結(jié)果取 10 次運(yùn)行的平均值,在每次運(yùn)行中獨(dú)立于解碼器對 40 個(gè)輸出進(jìn)行采樣。比較的基線是貪心解碼單個(gè)思想鏈,稱為貪心解碼(Single-path),之前已被用于大型語言模型中的解碼。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

算術(shù)推理結(jié)果如下表 2 所示。對于 LaMDA-137B,自洽性策略在每個(gè)任務(wù)上較貪心解碼(Single-path)均實(shí)現(xiàn)了顯著的性能提升,在 AddSub、ASDiv、AQuA 和 GSM8K 任務(wù)上獲得接近 10% 絕對準(zhǔn)確率提升,在 MultiArith 和 SVAMP 任務(wù)上分別提升了 23.9% 和 14.4%。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

對于更大的 PaLM540B 模型,自洽性策略顯著提升性能,在 ASDiv、AQuA、SVAMP 和 GSM8K 上實(shí)現(xiàn)了 7.9%、12.5%、7.6% 和 17.9% 的顯著增益。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

vyM28資訊網(wǎng)——每日最新資訊28at.com

常識推理結(jié)果如下表 3 所示。對于 LaMDA-137B 模型,自洽性策略顯著提升所有任務(wù)的準(zhǔn)確率,其中 StrategyQA 和 CommonsenseQA 的絕對準(zhǔn)確率提升了 2%-5%,ARC easy set 和 ARC challenge set 的絕對準(zhǔn)確率分別提升了 4.0% 和 4.7%。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

同樣地,更大的 PaLM540B 模型也實(shí)現(xiàn)了持續(xù)收益,StrategyQA 上提升了 6.3%,ARC-challenge 上提升了 3.5%。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

vyM28資訊網(wǎng)——每日最新資訊28at.com

下圖 3 中通過對來自解碼器的不同數(shù)量的推理路徑進(jìn)行采樣,展示了自洽性與貪心解碼(Single-path)的性能比較。可以看到,采樣更多數(shù)量(如 40 個(gè))的推理路徑始終會(huì)產(chǎn)生更好的性能,再次強(qiáng)調(diào)了在推理路徑中引入多樣性的重要性。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

vyM28資訊網(wǎng)——每日最新資訊28at.com

該研究將自洽方法和基于集成的方法進(jìn)行小樣本學(xué)習(xí)來比較二者的性能。結(jié)果如下表 5 所示,與自洽方法相比,基于集成的方法獲得的增益要小得多。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

vyM28資訊網(wǎng)——每日最新資訊28at.com

另一種提高生成質(zhì)量的常用方法是采樣排序(sample-and-rank),其中從解碼器中采樣多個(gè)序列,然后根據(jù)每個(gè)序列的對數(shù)概率或基于額外訓(xùn)練的重排序器進(jìn)行排序。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

該研究使用 GPT-3 模型得到了如下圖 4 所示的結(jié)果。雖然采樣排序方法通過額外的采樣序列和排序提高了準(zhǔn)確性,但與自洽方法相比,增益要小得多。vyM28資訊網(wǎng)——每日最新資訊28at.com

 vyM28資訊網(wǎng)——每日最新資訊28at.com

vyM28資訊網(wǎng)——每日最新資訊28at.com

更多細(xì)節(jié)內(nèi)容請參閱論文原文。vyM28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.yifxia.cn/showinfo-119-2270-0.html用自洽性提升大模型推理能力,谷歌解答基準(zhǔn)中75%數(shù)學(xué)問題,比GPT-3提升20%

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 飛機(jī)“黑匣子”數(shù)據(jù)緣何上云難?

下一篇: 裁員、收縮、過冬,云計(jì)算怎么了?

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 分布式系統(tǒng)中的CAP理論,面試必問,你理解了嘛?

    對于剛剛接觸分布式系統(tǒng)的小伙伴們來說,一提起分布式系統(tǒng),就感覺高大上,深不可測。而且看了很多書和視頻還是一臉懵逼。這篇文章主要使用大白話的方式,帶你理解一下分布式系統(tǒng)
  • 十個(gè)簡單但很有用的Python裝飾器

    裝飾器(Decorators)是Python中一種強(qiáng)大而靈活的功能,用于修改或增強(qiáng)函數(shù)或類的行為。裝飾器本質(zhì)上是一個(gè)函數(shù),它接受另一個(gè)函數(shù)或類作為參數(shù),并返回一個(gè)新的函數(shù)或類。它們通常用
  • 使用LLM插件從命令行訪問Llama 2

    最近的一個(gè)大新聞是Meta AI推出了新的開源授權(quán)的大型語言模型Llama 2。這是一項(xiàng)非常重要的進(jìn)展:Llama 2可免費(fèi)用于研究和商業(yè)用途。(幾小時(shí)前,swyy發(fā)現(xiàn)它已從LLaMA 2更名為Lla
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人員可能會(huì)涉及各種各樣的安全任務(wù),包括但不限于:開發(fā)某些安全工具的插件,滿足自己特定的安全需求;自定義github搜索工具,快速查找所需的安全資料、漏洞poc、exp
  • 2天漲粉255萬,又一賽道在抖音爆火

    來源:運(yùn)營研究社作者 | 張知白編輯 | 楊佩汶設(shè)計(jì) | 晏談夢潔這個(gè)暑期,旅游賽道徹底火了:有的「地方」火了——貴州村超旅游收入 1 個(gè)月超過 12 億;有的「博主」火了&m
  • 小米公益基金會(huì)捐贈(zèng)2500萬元馳援北京、河北暴雨救災(zāi)

    8月2日消息,今日小米科技創(chuàng)始人雷軍在其微博上發(fā)布消息稱,小米公益基金會(huì)宣布捐贈(zèng)2500萬元馳援北京、河北暴雨救災(zāi)。攜手抗災(zāi),京冀安康!以下為公告原文
  • 華為Mate60系列模具曝光:采用碩大圓形后置相機(jī)模組+拼接配色方案

    據(jù)此前多方爆料,今年華為將開始恢復(fù)一年雙旗艦戰(zhàn)略,除上半年推出的P60系列外,往年下半年的Mate系列也將迎來更新,有望在9-10月份帶來全新的華為Mate60
  • 回歸OPPO兩年,一加贏了銷量,輸了品牌

    成為OPPO旗下主打性能的先鋒品牌后,一加屢創(chuàng)佳績。今年618期間,一加手機(jī)全渠道銷量同比增長362%,憑借一加 11、一加 Ace 2、一加 Ace 2V三款爆品,一加
  • 與兆芯合作 聯(lián)想推出全新旗艦版筆記本電腦開天N7系列

    聯(lián)想與兆芯合作推出全新聯(lián)想旗艦版筆記本電腦開天 N7系列。這個(gè)系列采用兆芯KX-6640MA處理器平臺,KX-6640MA 處理器是采用了陸家嘴架構(gòu),16nm 工藝,4 核 4 線
Top 午夜激情视频在线播放| 国产a免费观看| 久久精品大片| 四虎影视久久久| 欧美另类videosbestsex视频| 成人影院久久久久久影院| 国产伦精品一区二区三区在线观看| 亚久久伊人精品青青草原2020| 国产麻豆精品hdvideoss| 精品国产亚一区二区三区| 久久国产精品只做精品| 二级片在线观看| 欧美激情一区二区三区在线播放| 黄视频网站免费看| 亚州视频一区二区| 成人a大片高清在线观看| 国产伦精品一区二区三区在线观看| 国产视频一区二区在线观看| 深夜做爰性大片中文| 香蕉视频久久| 国产网站免费观看| 可以免费看毛片的网站| 国产福利免费视频| 久久国产精品自由自在| 你懂的在线观看视频| 日韩av成人| 久久国产精品只做精品| 精品国产一区二区三区久久久蜜臀 | 精品久久久久久免费影院| 成人在激情在线视频| 欧美电影免费看大全| 色综合久久天天综合观看| 欧美激情一区二区三区在线| 国产高清视频免费观看| 午夜在线影院| 欧美a级片视频| 可以免费看污视频的网站| 你懂的日韩| 亚欧成人乱码一区二区| 午夜家庭影院| 欧美激情影院| 你懂的在线观看视频| 国产视频网站在线观看| 国产精品免费久久| 免费一级片在线| 精品国产一区二区三区精东影业| 日韩专区亚洲综合久久| 欧美18性精品| 精品国产一区二区三区精东影业| 色综合久久天天综线观看| 欧美另类videosbestsex高清| 久久国产精品只做精品| 99久久精品国产片| 亚洲第一视频在线播放| 国产原创中文字幕| 精品国产亚一区二区三区| 亚洲 国产精品 日韩| 亚洲www美色| 国产麻豆精品高清在线播放| 国产不卡高清在线观看视频| 国产不卡福利| 精品视频在线观看一区二区| 成人高清护士在线播放| 欧美a免费| 青草国产在线| 国产精品自拍一区| 九九九国产| 999精品影视在线观看| 精品国产一区二区三区久久久蜜臀| 四虎影视久久久| 免费一级生活片| 精品国产一区二区三区国产馆| 久久国产精品只做精品| 国产视频一区在线| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 麻豆午夜视频| 91麻豆精品国产综合久久久| 四虎久久影院| 毛片的网站| 国产麻豆精品免费密入口| 四虎影视库| 黄色免费三级| 美女免费精品高清毛片在线视| 午夜激情视频在线播放| 国产一区二区精品久久91| 日韩专区亚洲综合久久| 国产网站免费观看| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 国产麻豆精品免费密入口| 午夜激情视频在线播放| 亚洲女人国产香蕉久久精品 | 日本伦理片网站| 四虎久久精品国产| 国产视频网站在线观看| 高清一级毛片一本到免费观看| 91麻豆精品国产片在线观看| 午夜激情视频在线观看| 国产麻豆精品免费密入口| 中文字幕97| 国产伦精品一区三区视频| 国产不卡在线播放| 亚洲 激情| 国产一区二区精品久久| 欧美大片一区| 99热精品在线| 尤物视频网站在线观看| 一级女性全黄久久生活片| 成人高清视频免费观看| 亚洲女人国产香蕉久久精品 | 美女免费毛片| 黄视频网站在线看| 精品国产一区二区三区精东影业| 久久精品免视看国产明星| 国产美女在线一区二区三区| 精品久久久久久中文字幕一区| 青青久热| 高清一级毛片一本到免费观看| 欧美a级v片不卡在线观看| 国产一区二区精品| 青青青草影院| 九九干| 青青久热| 日韩免费片| 精品视频一区二区| 精品国产一区二区三区国产馆| 久久国产一区二区| 久久99青青久久99久久| 国产一区二区精品久久| 日韩专区亚洲综合久久| 成人免费一级毛片在线播放视频| 99色视频在线| 一级女性大黄生活片免费| 亚洲精品久久玖玖玖玖| 国产伦精品一区三区视频| 麻豆午夜视频| 国产网站麻豆精品视频| 91麻豆爱豆果冻天美星空| 成人免费观看的视频黄页| 成人免费福利片在线观看| 国产亚洲精品成人a在线| 精品国产香蕉在线播出 | 日本伦理片网站| 国产视频一区在线| 亚洲第一页乱| 美国一区二区三区| 午夜激情视频在线播放| 久久久久久久久综合影视网| 精品久久久久久综合网| 国产一区二区高清视频| 国产综合91天堂亚洲国产| 久久99中文字幕久久| 日韩专区亚洲综合久久| 成人影院久久久久久影院| 韩国毛片免费大片| 91麻豆精品国产片在线观看| 午夜家庭影院| 国产成人精品影视| 一本高清在线| 久久99爰这里有精品国产| 91麻豆tv| 尤物视频网站在线观看| 99色视频在线观看| 黄视频网站在线免费观看| 九九免费高清在线观看视频| 精品久久久久久影院免费| 日韩在线观看免费完整版视频| 日韩中文字幕一区| 九九干| 精品视频在线观看一区二区| 国产欧美精品| 久久99这里只有精品国产| 超级乱淫黄漫画免费| 日韩免费在线观看视频| 日韩专区在线播放| 国产视频久久久久| 免费国产一级特黄aa大片在线| 毛片的网站| 欧美激情伊人| 国产不卡福利| 国产亚洲免费观看| 高清一级片| 日韩一级黄色| 国产激情视频在线观看| 美国一区二区三区| 国产91精品一区| 欧美a级片视频| 国产亚洲精品aaa大片| 国产亚洲免费观看| 国产麻豆精品视频| 国产91精品系列在线观看| 精品视频免费看| 四虎影视久久久免费| 99久久精品国产免费| 99久久精品国产片| 黄视频网站免费| a级精品九九九大片免费看| 国产高清在线精品一区a| 欧美日本韩国| 可以免费看污视频的网站| 欧美国产日韩在线|