當前位置：首頁 > 科技 > 資訊

探索醫療科技的未來：達摩院在多模態大模型領域的創新嘗試

來源：責編：時間：2025-06-25 09:38:13 107觀看

導讀在人工智能飛速發展的今天，多模態大語言模型（MLLMs）已在通用視覺理解領域展現出驚人潛力。然而。當AI走進醫院、面對復雜的醫學影像和專業任務時，真正的挑戰才剛剛開始。1.知識

在人工智能飛速發展的今天，多模態大語言模型（MLLMs）已在通用視覺理解領域展現出驚人潛力。然而。當AI走進醫院、面對復雜的醫學影像和專業任務時，真正的挑戰才剛剛開始。

1.知識局限：醫學知識覆蓋不全，僅靠影像遠遠不夠；

2.幻覺頻現：回答看似有理，實則漏洞百出，容易“一本正經地胡說八道”；

3.推理匱乏：面對復雜病情，AI常常缺乏像醫生那樣的推理能力。

為了解決這些難題，阿里巴巴達摩院團隊在醫療領域進行初步嘗試，打造了醫療領域的多模態大模型！

數據底子扎實，懂醫學也懂“常識”：該模型背后是一套覆蓋廣泛的高質量數據處理和合成流程，吸收了海量醫學文本和通用知識內容，通過自動合成技術，構建了高質量的圖文描述、醫學問答和推理樣本。

像醫生一樣進階式學習：模型采用“多階段訓練”策略，從基礎醫學認知，到復雜病例分析，逐步注入專業知識與臨床經驗，模型能力層層躍升。經過訓練，我們希望其更具備基礎的醫學邏輯與推理能力，初步展現出處理真實世界醫療任務的潛力。

考試標準嚴苛，評估體系權威：為確保模型不是“閉門造車”，團隊特別開發了MedEvalKit評估體系，涵蓋多模態問答、文本問答和醫學報告生成等關鍵任務，對接真實醫療場景，全面衡量模型能力與安全性。

成績領先，全面超越主流大模型：在多個權威多模態醫療測試中，32B模型以平均高出第二名7.2個百分點的成績刷新記錄，超越GPT-4.1與Claude Sonnet 4等商用領先模型，展現出強大的專業應用潛力。

當前多模態大模型在醫療領域面臨的挑戰

1. 醫學知識覆蓋不全，深度不足

過于依賴影像-文本對：許多現有工作主要通過對齊醫學影像和相關的文本描述（如放射報告）來學習。這種方式雖然能建立基本的視覺-語言聯系，但對于影像之外的廣闊醫學知識，如藥理學、病理生理學、臨床指南、公共衛生知識等的覆蓋非常有限。

對多模態整合的深度和廣度不足：可能過于偏重某一模態（如X光片），對其他重要醫學影像模態（如病理、內鏡、超聲等）的覆蓋和理解不足。

2. 數據質量參差不齊，易產生“幻覺”

開源數據噪聲大：許多公開的醫學多模態數據集來源于科研論文自動抽取或網絡抓取，不可避免地含有噪聲、不準確信息或冗余內容。

數據合成質量難控：一些工作嘗試通過模型蒸餾等方式合成數據，但如果缺乏有效的監督和質量控制，合成數據可能繼承甚至放大基礎模型的偏見或錯誤，導致模型更容易產生“幻覺”（即生成不符合事實或無意義的內容）。

缺乏細粒度標注：醫學影像的解讀需要精確到細節，但很多數據集的標注較為粗糙，難以支撐模型學習細致的病灶特征和微妙的診斷線索。

3. 缺乏針對復雜醫療場景的推理能力?

簡單問答為主：現有模型在處理簡單的圖像描述或直接問答（如“圖片中是什么器官？”）方面可能表現尚可，但面對需要多步推理、整合多源信息、進行鑒別診斷等復雜醫療場景時，其推理能力往往不足。

“黑箱”特性：許多模型的決策過程不透明，難以解釋其診斷或建議的依據，這在對可靠性和可解釋性要求極高的醫療領域是嚴重缺陷。

4. 評測標準不統一，難以橫向比較

各自為政的評估：不同研究往往在不同的數據集子集、不同的評估指標上進行評測，導致模型之間的性能難以進行公平、直接的比較。

復現困難：許多模型的代碼和數據不完全公開，或者環境配置復雜，使得其他研究者難以復現其結果，阻礙了領域的發展。

為了解決上述問題，我們從數據構造，模型訓練以及評測框架三個層面進行探索。

數據構造?

要讓AI真正“懂醫學”，離不開高質量的數據，但醫學領域的數據不僅少，而且復雜、難獲取。為此，我們構造了一套全流程的醫療多模態數據收集和合成流程。

1. 高質量的數據合成和增強：面對一些簡短、模糊的醫學描述，我們用大模型能力“補全細節”，生成更豐富、更專業的圖文解釋。同時從專業醫學教材和題庫提取圖文信息生成指令數據，提高對嵌入文本的識別能力。此外還合成了大量的醫學視覺問答數據，幫助模型回答診斷和醫學相關的問題。最后我們還設計了CoT醫療推理數據合成流程，生成醫療的推理思維鏈路數據，幫助模型更好理解復雜醫學問題。?

2. 嚴格質量控制：所有數據經過嚴格篩選和清洗，比如圖像和文本去重、答案準確性檢查等，以確保數據的高質量和相關性。

通過以上流程，我們一共得到2.55M條高質量醫療描述數據和2.5M醫療指令數據，同時引入了大量通用域的數據，作為模型訓練基礎。

模型訓練

多模態醫學大模型基于Qwen2.5-VL（7B和32B的Instruct版本）進行持續訓練，為了更好的讓模型深入理解多模態醫療知識，我們設計了以下多階段訓練范式：

1. 醫療淺層對齊：我們先讓模型對醫學影像（如X光、CT、MRI）與對應的醫學描述的理解能力。初步建立醫學影像特征與語言模型表征空間的連接。通過快速適應醫學影像的基本特征，為后續深層融合奠定基礎。

2. 醫療深層對齊：我們使用更復雜、更長的圖文數據，還加入了通用世界知識數據，進行端到端微調。讓模型能深度融合多模態醫學信息，從而有可能處理更細致的醫學內容，比如腫瘤特征、病變位置等，朝著“通用醫生”進行努力。

3. 醫療指令微調：我們使用大規模、多樣化的醫療指令數據（包括VQA、報告生成、OCR、CoT推理等）以及通用的多模態/文本指令數據和醫學文本數據進行端到端微調，增強模型的任務泛化能力和復雜場景的應答能力，使其更貼近實際醫療應用。

4. 面向醫療的強化學習：我們還初步探索了強化學習訓練在對醫療多模態任務提升的潛力。我們構建了約10萬條的醫療可驗證數據集，采用可驗證獎勵強化學習（RLVR）范式，利用GRPO算法進行訓練。期望探索通過獎勵信號引導模型生成更準確、更具邏輯性的醫療推理路徑。

統一的評測框架：MedEvalKit

為解決現有醫療MLLMs 評測標準不一、復現困難的問題，我們開發了一個涵蓋面廣，易于使用，高效評測的醫療評測框架MedEvalKit。

1. MedEvalKit匯集了主流的醫療多模態和文本評測基準，包括：

a. 多模態QA：VQA-RAD, SLAKE, PathVQA, PMC-VQA (v2), OmniMedVQA, MMMU (Health & Medical), MedXpertQA (multimodal)。

b. 文本QA：MMLU (medical subset), PubMedQA, MedMCQA, MedQA-USMLE, MedBullets, MedXpertQA (text), SuperGPQA。

c. 報告生成：MIMIC-CXR, IU-Xray, CheXpert Plus。共計覆蓋16個基準數據集，15.2萬評估樣本和12.1萬張不同的醫學影像。

2. 標準化流程：統一了數據預處理、模型推理接口和后處理協議，支持一鍵式評估。

3. 多維度評估：針對不同任務類型采用特定評估指標（如QA任務的準確率，報告生成任務的ROUGE-L, CIDEr, SembScore, RaTEScore, RadCliQ-v1）。并支持“LLM-as-a-Judge”策略輔助評估，兼顧客觀與主觀評價。

4. 高效與可擴展：支持vLLM進行推理加速；支持多種模型評測；支持多種輸出模式評測（如直接輸出答案評測，先推理后解析答案進行評測等）。

模型結果?

我們使用MedEvalKit上對我們的醫療多模態大模型和當前主流多模態醫療模型進行了全面評估：

1. 醫療多模態問答測試：

a. 32B模型在所有7個多模態基準測試中取得了平均66.6%的準確率，超越了包括GPT-4.1 (63.4%)、Claude Sonnet 4 (61.5%) 和?Gemini-2.5-Flash (65.1%)?在內的所有專有模型和開源模型，并在VQA-RAD, SLAKE, PathVQA, OmniMedVQA, MedXpertQA-Multimodal?等多個數據集上取得最佳成績。

b. 7B模型在<10B參數規模的開源模型中表現最佳，平均準確率達到61.8%，顯著優于其他同類模型。

2. 在醫療文本基準測試和醫學報告生成：我們的模型也表現優異，超越了所有對比的開源模型。

3.??除了標準數據評測外，我們也展示了在醫學影像問答、醫學診斷、醫學知識解釋、公共衛生問題分析以及醫學報告生成等真實場景中的應用潛力。

未來方向

雖然我們的模型在多個權威多模態醫療測試取得領先，然而在使用過程中仍會出現幻象，無法準確識別病種等問題。因此在推動醫療多模態大模型發展的過程中，我們總結出五個值得關注的核心方向，以突破當前技術瓶頸，提升模型在真實臨床中的應用價值：

1. 高質量醫療數據的構建：當前醫學圖文數據稀缺且獲取成本高，未來需投入更多資源構建多樣化、高可信度的數據集，并引入“人在環路”（human-in-the-loop）的自動化評估與優化機制，提升數據質量與產出效率。

2. 更全面的醫療多模態基準：現有醫療基準未能充分反映復雜的真實場景。未來需借鑒HealthBench等框架，打造更具代表性、更實用的醫學多模態評估體系，更準確地衡量模型在臨床中的表現。

3. 擴展模型能力邊界：當前模型對3D影像、超高分辨率病理圖（WSI）、組學數據等的支持仍依賴預處理。未來將發展原生支持新模態的能力，使模型更好地理解CT、MRI、病理、基因組等復雜醫學信息。

4. 面向醫療場景的訓練策略優化：醫學領域推理高度依賴臨床經驗與知識。后續訓練需要更加聚焦醫療語境，開發定制化獎勵函數&過程監督方法，探索針對醫療MLLMs的強化學習方法。讓模型的輸出更契合醫療任務需求，滿足專業醫療場景下復雜的醫療推理需求。

5. 醫療相關專業評估指標引入：雖然MedEvalKit已初步引入醫學任務指標，但當前仍以通用評估標準為主。未來應進一步引入如C-index、臨床療效評分、決策曲線分析等醫學專用指標，同時結合專家人工評審，全面提升模型評估的可信度、實用性與安全保障。

本文鏈接：http://www.yifxia.cn/showinfo-16-163686-0.html探索醫療科技的未來：達摩院在多模態大模型領域的創新嘗試

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：直播間假老酒亂象被曝光，成本幾塊錢標價899，有老酒商建議引入第三方鑒定機構

下一篇：全系標配最新華為全家桶嵐圖FREE+正式預售22.99萬元起

標簽：

熱門焦點

摸魚心法第一章——和配置文件說拜拜

為了能摸魚我們團隊做了容器化，但是帶來的問題是服務配置文件很麻煩，然后大家在群里進行了“親切友好”的溝通圖片圖片圖片圖片對比就對比，簡單對比下獨立配置中心和k8s作為配
如何使用JavaScript創建一只圖像放大鏡？

譯者 | 布加迪審校 | 重樓如果您曾經瀏覽過購物網站，可能遇到過圖像放大功能。它可以讓您放大圖像的特定區域，以便瀏覽。結合這個小小的重要功能可以大大改善您網站的用戶體驗
谷歌KDD'23工作：如何提升推薦系統Ranking模型訓練穩定性

谷歌在KDD 2023發表了一篇工作，探索了推薦系統ranking模型的訓練穩定性問題，分析了造成訓練穩定性存在問題的潛在原因，以及現有的一些提升模型穩定性方法的不足，并提出了一種新
一個注解實現接口冪等，這樣才優雅！

場景碼猿慢病云管理系統中其實高并發的場景不是很多，沒有必要每個接口都去考慮并發高的場景，比如添加住院患者的這個接口，具體的業務代碼就不貼了，業務偽代碼如下：圖片上述代碼有
梁柱接棒兩年，騰訊音樂闖出新路子

文丨田靜出品丨牛刀財經（niudaocaijing）7月5日，企鵝FM發布官方公告稱由于業務調整，將于9月6日正式停止運營，這意味著騰訊音樂長音頻業務走向消亡。騰訊在長音頻領域還在摸索。為
造車兩年股價跌六成，小米的估值邏輯變了嗎？

如果從小米官宣造車后的首個交易日起持有小米集團的股票，那么截至2023年上半年最后一個交易日，投資者將浮虧59.16%，同區間的恒生科技指數跌幅為52.78%
疑似小米14外觀設計圖曝光：后置相機模組變化不大

下半年的大幕已經開啟，而誰將成為下半年手機圈的主角就成為了大家關注的焦點，其中被傳有望拿下新一代驍龍8 Gen3旗艦芯片的小米14系列更是備受大家矚
機構稱Q2全球智能手機出貨量同比下滑11% 蘋果份額依舊第2

7月20日消息，據外媒報道，研究機構的報告顯示，由于需求下滑，今年二季度全球智能手機的出貨量，同比下滑了11%，三星、蘋果等主要廠商的銷量，較去年同期均有下
蘋果140W USB-C充電器：采用氮化鎵技術

據10 月 30 日 9to5 Mac 消息報道，當蘋果推出新的 MacBook Pro 2021 時，該公司還推出了新的 140W USB-C 充電器，附贈在 MacBook Pro 16 英寸機型的盒子里，也支

国产欧美日韩三区_偷窥自拍亚洲色图精选_久久大片网站_成人在线黄色_成人亚洲免费视频_99久久久精品_国产美女自拍_韩国19禁主播vip福利视频_色综合视频一区二区三区日韩_日本在线观看一区二区

探索醫療科技的未來：達摩院在多模態大模型領域的創新嘗試

摸魚心法第一章——和配置文件說拜拜

如何使用JavaScript創建一只圖像放大鏡？

谷歌KDD'23工作：如何提升推薦系統Ranking模型訓練穩定性

一個注解實現接口冪等，這樣才優雅！

梁柱接棒兩年，騰訊音樂闖出新路子

造車兩年股價跌六成，小米的估值邏輯變了嗎？

疑似小米14外觀設計圖曝光：后置相機模組變化不大

機構稱Q2全球智能手機出貨量同比下滑11% 蘋果份額依舊第2

蘋果140W USB-C充電器：采用氮化鎵技術

最新推薦

猜你喜歡

熱門推薦

相關資訊