近日,快手首次提出生成式強(qiáng)化學(xué)習(xí)出價(jià)技術(shù),并將其應(yīng)用于大規(guī)模廣告系統(tǒng)中。該項(xiàng)技術(shù)顯著提升了廣告競(jìng)價(jià)的智能化水平,實(shí)現(xiàn)了出價(jià)策略從傳統(tǒng)“依賴單步狀態(tài)決策”到新一代“序列決策”的關(guān)鍵跨越,在為廣告主帶來(lái)更高投放回報(bào)的同時(shí),也提升了平臺(tái)整體收益,真正實(shí)現(xiàn)了雙贏。2025年至今,該技術(shù)已成功推動(dòng)快手廣告收入提升3%,成效顯著。
廣告出價(jià):實(shí)時(shí)競(jìng)價(jià)中的“智能大腦”
在實(shí)時(shí)競(jìng)價(jià)(RTB)廣告系統(tǒng)中,出價(jià)模塊作為連接廣告主與流量的核心樞紐,需要在多重約束條件下實(shí)現(xiàn)廣告投放效果的最優(yōu)化。
這一過(guò)程面臨三大挑戰(zhàn)。首先是既要控制支出,又要追求效益。廣告主不僅需要將單日花費(fèi)嚴(yán)格控制在預(yù)算范圍內(nèi),還應(yīng)力求降低每次轉(zhuǎn)化的成本,實(shí)現(xiàn)成本效益的雙重優(yōu)化。
其次是,未來(lái)環(huán)境的不確定性。系統(tǒng)難以預(yù)知即將到來(lái)的流量狀況與競(jìng)爭(zhēng)對(duì)手行為,因此必須依賴實(shí)時(shí)花費(fèi)與成本等數(shù)據(jù),動(dòng)態(tài)調(diào)整出價(jià)策略以應(yīng)對(duì)波動(dòng)市場(chǎng)。
最后是決策之間的連鎖影響。每一次出價(jià)不僅直接影響廣告的展示與消耗,還會(huì)改變賬戶狀態(tài)(如剩余預(yù)算),進(jìn)而干擾后續(xù)出價(jià)決策,形成一個(gè)連續(xù)且復(fù)雜的序列決策問(wèn)題。
三代技術(shù)革新,快手提出新一代生成式強(qiáng)化學(xué)習(xí)出價(jià)技術(shù)
快手出價(jià)技術(shù)已歷經(jīng)三代演進(jìn):從PID控制——基于當(dāng)前狀態(tài)與目標(biāo)的偏差進(jìn)行調(diào)節(jié),響應(yīng)直接但適應(yīng)性有限,難以應(yīng)對(duì)復(fù)雜多變的競(jìng)價(jià)環(huán)境;到第二代MPC預(yù)測(cè)模型——能夠預(yù)測(cè)短期未來(lái)并優(yōu)化動(dòng)作,但預(yù)測(cè)范圍有限,易陷局部最優(yōu);再到第三代強(qiáng)化學(xué)習(xí)——通過(guò)歷史數(shù)據(jù)學(xué)習(xí)不同狀態(tài)下的最優(yōu)出價(jià)策略,最大化長(zhǎng)期收益,兼顧效果與安全性。
近年來(lái),盡管強(qiáng)化學(xué)習(xí)在自動(dòng)出價(jià)中表現(xiàn)優(yōu)異,但其決策仍依賴單步狀態(tài)信息,對(duì)序列歷史利用不足。而生成式模型擅長(zhǎng)對(duì)序列數(shù)據(jù)進(jìn)行建模和生成,卻不擅長(zhǎng)直接優(yōu)化目標(biāo)收益。
面對(duì)這一挑戰(zhàn),快手創(chuàng)新融合兩類技術(shù),提出生成式強(qiáng)化學(xué)習(xí)出價(jià)技術(shù)——在繼承生成模型序列建模能力的基礎(chǔ)上,引入強(qiáng)化學(xué)習(xí)的目標(biāo)導(dǎo)向優(yōu)化機(jī)制,實(shí)現(xiàn)出價(jià)策略在長(zhǎng)序列決策中的新突破。
兩大核心算法實(shí)現(xiàn)廣告出價(jià)“多維思考”,助推智能決策升級(jí)
在將生成模型應(yīng)用于強(qiáng)化出價(jià)策略的過(guò)程中,主要面臨兩大挑戰(zhàn):一是對(duì)高質(zhì)量數(shù)據(jù)集的依賴較強(qiáng),限制了泛化能力;二是生成模型難以直接優(yōu)化序列整體收益,導(dǎo)致出價(jià)策略與廣告主全局目標(biāo)存在偏差。

針對(duì)這些挑戰(zhàn),快手提出了GAVE和CBD兩大創(chuàng)新算法。GAVE算法融合了Score-based RTG機(jī)制與價(jià)值函數(shù)引導(dǎo)的動(dòng)作探索策略,顯著提升了離線訓(xùn)練中的探索能力,該成果助力團(tuán)隊(duì)榮獲NeurIPS 2024自動(dòng)出價(jià)競(jìng)賽雙賽道冠軍。

CBD算法則聚焦于生成模型與優(yōu)化目標(biāo)的對(duì)齊問(wèn)題,引入“Completer(擴(kuò)散補(bǔ)全)”和“Aligner(偏好對(duì)齊)”雙模塊,通過(guò)補(bǔ)全未來(lái)狀態(tài)軌跡并進(jìn)行校準(zhǔn),使出價(jià)策略更貼合廣告主真實(shí)需求,提升了系統(tǒng)長(zhǎng)程規(guī)劃與決策可解釋性。
2025年至今,生成式強(qiáng)化學(xué)習(xí)出價(jià)技術(shù)已在快手廣告系統(tǒng)中全面部署,并推動(dòng)平臺(tái)廣告收入提升3%。在多項(xiàng)關(guān)鍵客戶指標(biāo)上實(shí)現(xiàn)突破——如在成本控制場(chǎng)景中,消耗提升2.0%,CPA達(dá)標(biāo)率提升1.9%。
展望未來(lái),快手將圍繞兩大方向持續(xù)演進(jìn)。一是構(gòu)建出價(jià)基座大模型,整合多場(chǎng)景數(shù)據(jù)訓(xùn)練通用模型,發(fā)揮規(guī)模效應(yīng);二是發(fā)展出價(jià)推理大模型,引入大語(yǔ)言模型增強(qiáng)推理能力,提升可解釋性與復(fù)雜決策水平。
快手將繼續(xù)推動(dòng)自動(dòng)出價(jià)技術(shù)向更高層次的智能化邁進(jìn),為數(shù)字營(yíng)銷行業(yè)注入創(chuàng)新動(dòng)力。
本文鏈接:http://www.yifxia.cn/showinfo-16-186590-0.html廣告出價(jià)進(jìn)入“自動(dòng)駕駛”時(shí)代,快手提出生成式強(qiáng)化學(xué)習(xí)出價(jià)技術(shù)
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 茅臺(tái)“雙節(jié)”市場(chǎng)調(diào)查:動(dòng)銷穩(wěn)中有進(jìn),真實(shí)消費(fèi)夯實(shí)市場(chǎng)根基
下一篇: 快手“AI創(chuàng)想劇場(chǎng)”成果豐碩,AIGC影像創(chuàng)作營(yíng)在中國(guó)傳媒大學(xué)圓滿舉辦