9 月 22 日消息,谷歌 DeepMind 今天宣布更新核心 AI 安全文件“前沿安全框架”,將“前沿模型可能阻止人類關(guān)閉或修改自己”這一風(fēng)險納入考量。
從外媒 Axios 獲悉,當(dāng)前,一些新 AI 模型在測試中已展現(xiàn)出能制定計劃、甚至用欺騙手段達成目標(biāo)的能力。

新版前沿安全框架增加了一個新的“說服力”類別,旨在應(yīng)對可能強大到足以改變用戶信念的模型。谷歌將此風(fēng)險稱作“有害操控”,即 AI 模型具備強大的操控能力,且可能被濫用,在特定高風(fēng)險場景中系統(tǒng)且顯著地改變?nèi)藗兊男拍詈托袨椤?span style="display:none">2o328資訊網(wǎng)——每日最新資訊28at.com
針對如何防范這種風(fēng)險,谷歌 DeepMind 代表對 Axios 表示:“我們持續(xù)追蹤這一能力,并開發(fā)了全新的評估體系,其中包括人類參與的實驗,用于測量和測試相關(guān)能力?!?span style="display:none">2o328資訊網(wǎng)——每日最新資訊28at.com
DeepMind 每年至少更新一次前沿安全框架,以識別新興威脅,并將其標(biāo)注為“關(guān)鍵能力等級”。谷歌指出,“若缺乏緩解措施,前沿 AI 模型可能在這些能力等級上造成嚴(yán)重危害?!?span style="display:none">2o328資訊網(wǎng)——每日最新資訊28at.com
OpenAI 在 2023 年也推出了類似的準(zhǔn)備度框架,但今年早些時候已將“說服力”從風(fēng)險類別中移除。
本文鏈接:http://www.yifxia.cn/showinfo-45-28059-0.html谷歌 DeepMind 更新前沿安全框架,應(yīng)對模型“阻止自己被人類關(guān)閉”等風(fēng)險
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com