9 月 22 日消息,Meta 現已公布了 MobileLLM-R1 系列小語言模型,分別提供 1.4 億、3.6 億和 9.5 億不同參數版本,強調能夠在本地移動平臺等輕量級設備上運行。

Meta 表示,MobileLLM-R1 并不是面向聊天機器人的通用模型,而是經過監督式微調(SFT)專門訓練,主要用于解決數學、編程(如 Python、C++)和科學類問題,以最大規模的 MobileLLM-R1 950M 為例,其預訓練數據僅使用了約 2TB 高質量 token,總訓練數據量也不到 5TB,但表現依然出色。在 MATH、GSM8K、MMLU、LiveCodeBench 等多項基準測試中,成績超過了使用 36TB token 數據訓練的 Qwen 3-0.6B。
在對比現有開源小模型時,MobileLLM-R1 950M 在 MATH 測試中的準確率是 Olmo 1.24B 的 5 倍,也是 SmolLM 1.7B 的 2 倍。在編程任務中,其表現同樣優于 Olmo 1.24B 和 SmolLM 1.7B。
目前,開發者可以通過 vLLM 推理引擎運行 MobileLLM-R1,只需在 ModelRegistry 中登記模型架構 Llama4ForCausalLM 即可。該系列模型已以 Apache 2.0 協議開源,并發布在 Hugging Face 平臺(點此訪問)。
本文鏈接:http://www.yifxia.cn/showinfo-45-28062-0.htmlMeta 開源 MobileLLM-R1 系列小語言 AI 模型:參數量不到 10 億、專攻數學編程科學問題
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com