DeepSeek 又整出新東西來了,只用到原本十分之一 token,就能存下幾乎一樣的文字信息,這壓縮比,香農(nóng)看了都要流淚,馮·諾伊曼看了都要沉默。
更是直接把一堆老外給釣成了翹嘴。




昨天,DeepSeek 發(fā)布了新模型 DeepSeek-OCR,OCR 這東西咱們都熟悉,就是把圖片里的文字給識別出來。

經(jīng)常用微信的差友應(yīng)該知道,微信客戶端里的圖片,被咱們點(diǎn)開后,是可以直接復(fù)制文字的。
沒錯,這就是一種 OCR 技術(shù)的應(yīng)用。

但是 DeepSeek 這次的 「技能 OCR」則是剛好相反,它可以把大量文字變成一張圖片,作為 AI 的“記憶載體”。
是的,用文字來存儲信息,已經(jīng)不夠滿足它了。
過去的大模型,不管是什么 ChatGPT、Gemini、Llama、Qwen、還是 DeepSeek 過去的自己,在讀取數(shù)據(jù)的用的都是一種方式:文字,也就是平時常說的 token。

我們寫的 Prompt,會被轉(zhuǎn)換成一大堆的 token 給大模型,我們提供的參考資料,會被轉(zhuǎn)換成一大堆的 token 給大模型,就算是能識別圖像的多模態(tài)的大模型,也是要先把圖片轉(zhuǎn)換成了一段文字描述,來交給大模型來做辨認(rèn)才行。
但文字 token 真的就是大模型理解世界的唯一方式么?
DeepSeek 決定試一試新的路子,畢竟,如果咱們把一張圖片和一段文字放在一起,前者明顯可以包含下更多的信息。
比如這個描述,就不夠全面

既然如此,那我們能不能直接用圖片來訓(xùn)練大模型?
于是 DeepSeek 就開始整,結(jié)果發(fā)現(xiàn)這個用圖片訓(xùn)練出來的模型,既中看,又中用。
一方面,它可以用更少的 token,來記住更多的內(nèi)容。
在測試文檔理解能力的任務(wù)里,DeepSeek-OCR 只用了 100 個視覺 token, 就超過了需要 256 個 token 的 GOT-OCR 2.0。
再放狠點(diǎn),它用 不到 800 個視覺 token, 就吊打了平均要 6000+ token 的 MinerU 2.0。

這就意味著、當(dāng)我們讓大模型開始使用圖像的這種方式來記住數(shù)據(jù)了之后,模型就有能力用更少的token資源,來取得更好的表達(dá)效果。
另外,DeepSeek-OCR 還支持多種分辨率和壓縮模式,來適應(yīng)不同復(fù)雜度的文檔:
比如說一張只有圖片背景和標(biāo)題文案的 PPT,可能只需要 64 個 視覺token 就足夠表示了。
如果這頁的文字內(nèi)容比較多,那就會自動切換到 Large 模式,用上多 400 個 視覺token 來記錄。
如果覺得還不夠的話,DeepSeek-OCR 還能支持動態(tài)調(diào)整的 Gundam 模式來記憶圖片,主打一個應(yīng)記就記,分清輕重緩急的記。

而且比起過去只能識別文字的傳統(tǒng)模型來說,DeepSeek-OCR 能記住的數(shù)據(jù)還會更多。
論文里的一張柱狀體,DeepSeek-OCR 能夠自動把它給識別成 Excel 格式給保存下來。

文章里出現(xiàn)的有機(jī)化合物的分子結(jié)構(gòu)圖片,也能自動轉(zhuǎn)化為標(biāo)準(zhǔn)的 SMILES(簡化分子線性輸入規(guī)范)格式存儲。

不但能記住圖片本身,DeepSeek-OCR 還會同時記住這張圖片的位置,記住圖片附近的文字在寫些什么東西。。。
過去很多看不到的二維信息,都會被 DeepSeek-OCR 給再次捕獲。
這玩意的價值有多大,可能大家一下都還沒意識到。
這兩年做大模型,除了顯卡不夠之外的大問題,就是沒有訓(xùn)練的數(shù)據(jù)了。
常規(guī)的數(shù)據(jù)集之前都用過了,想要再搞點(diǎn)高質(zhì)量的數(shù)據(jù)集,要么偷偷去網(wǎng)上爬,要么花大價錢去買,再要么就是想辦法自己合成。

但現(xiàn)在,很多過去沒采集到的數(shù)據(jù),就可以在二維信息里被采集到了。
就比如說很多論文文件,過去,大模型只能學(xué)到里面的文字信息,但是里面的各種圖表,插圖那都是兩眼一摸黑。
但用上了 DeepSeek-OCR 之后,就可以把之前缺的這部分給無痛補(bǔ)上了。

實(shí)際上 DeepSeek 也是這么想的,在論文里還特意提了一嘴,說這個新模型在一張 A100 上,一天可以給大模型采集出 20 萬頁以上的訓(xùn)練數(shù)據(jù)。
所以說,在有了 DeepSeek-OCR 之后,過去的所有數(shù)據(jù)都值得用它來再識別一遍。
毫無疑問,這些數(shù)據(jù),又會成為下一個大模型的養(yǎng)料。
另一方面,用二維的方式來存儲數(shù)據(jù)后,整個模型運(yùn)行起來也變得更省資源了。
咱都知道,我們在用大模型的時候,聊天聊的越久、上下文越長,這個模型就越容易出 bug。
這是因?yàn)榇竽P驮谶\(yùn)行的時候,要處理每一個單詞,和其他所有單詞的關(guān)系。
你把對話的長度增加一倍,整個模型的計算量就增加了四倍,增加了兩倍,那整個模型的計算量就變成了原本的九倍。
這也是為啥現(xiàn)在大模型廠商都在給你限制上下文長度的原因之一,你要是在一個對話里聊的太嗨了的話,成本要直接卷上天去了。

而在用上了圖像記憶之后,DeepSeek 可以把 token 的數(shù)量,壓縮到原本的十分之一。。。
同時,還不會讓性能有太大的損失。
在論文里可以看到,初出茅廬的 DeepSeek-OCR,就能用原本 1/10 的token 數(shù)量,達(dá)到原模型 96.5%的準(zhǔn)確率。
即使哥們再狠點(diǎn),給它壓縮個20倍,模型的準(zhǔn)確率,也還能保持個六成左右。。。

同時,DeepSeek 的研究人員還發(fā)現(xiàn)了一件好玩的事情。
他們會感覺大模型通過不同的清晰度來存儲圖像的方式,其實(shí)和我們?nèi)祟愡z忘信息的方式很像。

對我們?nèi)祟悂碚f,遺忘是一個循序漸進(jìn)的過程。
剛發(fā)生的事情,就有點(diǎn)像是 DeepSeek 用 Gundam 模式存下來的數(shù)據(jù),清晰。
而隨著時間的推移,這件事的重要性也會逐漸降低,存儲它的格式也會從大的 Gundam 一路降級,從 Large 一路降到小的 Tiny,占用的 token 數(shù)量也會越來越少。

把這個概念引入到大模型里的話,咱們就可以把近的聊天記錄,用“4K HDR藍(lán)光” 的格式來存儲,而那些早年不太重要的聊天記錄,則是給壓縮成 480P 的文件保存。
通過這種主動遺忘的方式,是否能讓大模型的上下文能力變得更強(qiáng)呢?
這個想法很有意思,只不過目前就連 DeepSeek 自己也沒能給出一個明確的答案。

不過好在 DeepSeek-OCR 還是和過去一樣開源的,相信這個問題,要不了多久就會變成熱門,整出不少新東西來。
后,提到開源,我還注意到另外一件事。。。
這次研究不但是 DeepSeek 自己的成果,也是開源社區(qū)集體的勝利
比如訓(xùn)練數(shù)據(jù)里,用到了 華為的 Wukong 數(shù)據(jù)集,在生成樣本文字時,借助了 百度的 PaddleOCR,而在圖像特征提取部分,核心組件竟然是 Meta 開源的 SAM,在視覺語義理解層面,還整合了 OpenAI 的 CLIP 模型。

正是這些來自全球的開源成果,被 DeepSeek 重新編織成了一個能“用圖片思考”的 AI。
所以,R2 什么時候會來呢。
本文鏈接:http://www.yifxia.cn/showinfo-17-184425-0.htmlDeepSeek昨天開源的新模型 有點(diǎn)邪門
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com