蘋果公司近日宣布推出一項名為《Pico-Banana-400K:面向文本引導圖像編輯的大規模數據集》的研究成果,并同步公開了包含40萬張圖像的完整數據集。該數據集采用非商業性研究許可協議發布,允許全球學術機構和研究人員自由使用,但明確禁止商業用途。這一舉措旨在解決當前圖像編輯領域數據集質量參差不齊、共享性受限等核心問題。
研究團隊指出,盡管近年來圖像生成與編輯技術取得顯著突破,但開放研究仍面臨關鍵瓶頸。現有數據集普遍存在三大缺陷:依賴專有模型生成的合成數據、人工篩選子集規模有限、以及領域偏移與質量控制不一致等問題。這些缺陷直接導致魯棒圖像編輯模型的開發受阻。為突破這一局限,蘋果團隊歷時數月構建了Pico-Banana-400K數據集。
該數據集的構建流程體現了嚴格的篩選機制。研究人員首先從OpenImages數據集中精選涵蓋人物、物體及文字場景的多樣化真實照片,隨后設計了35類圖像修改指令,并劃分為八大編輯類別。具體包括像素與光度調整(如添加復古濾鏡)、以人為中心的編輯(如生成Funko-Pop風格形象)、場景構成編輯(如天氣條件變換)、對象級語義修改(如物體空間關系調整)等。
在技術實現層面,團隊采用谷歌的Gemini-2.5系列模型完成核心工作。每張原始圖像與編輯指令輸入至Nanon-Banana模型(即Gemini 2.5-Flash-Image)生成編輯結果后,需通過Gemini 2.5-Pro模型的雙重驗證:評估編輯是否精準遵循指令,并確保視覺質量達標。只有通過嚴格篩選的樣本才會被納入最終數據集。
數據集的創新性體現在其結構設計上。除包含單輪編輯樣本外,還首次引入多輪連續編輯序列,模擬真實場景中的漸進式修改需求。更值得關注的是"偏好對"樣本的收錄——通過對比成功與失敗的編輯結果,為模型提供區分優質輸出的學習范例。這種設計有助于提升下一代文本引導圖像編輯模型的判斷能力。
研究團隊坦承,當前使用的Nanon-Banana模型在精細空間控制、布局外推及文字排版處理方面仍存在改進空間。但他們強調,Pico-Banana-400K的核心價值在于為行業提供首個可復現、高質量的訓練與評測基準。目前,相關研究論文已上線預印本平臺arXiv,完整數據集則在GitHub平臺向全球研究者開放下載。
本文鏈接:http://www.yifxia.cn/showinfo-48-8987-0.html蘋果推出Pico-Banana-400K數據集,為文本引導圖像編輯模型提供優質訓練資源
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com