Agent、Agent?Agent!
說起今年的 AI 浪潮,除了年初 DeepSeek 引領的一波強化學習熱,行業(yè)內(nèi)受關注的,莫過于各種各樣的 AI Agent 以及 “ 類 Agent ”。
不知從什么時候開始,Agent 變成了一種萬能公式,什么都可以套進去一下。
但,Agent 真的有那么好嗎?真的有競爭力嗎?
“ Manus 前陣子剛推出的新功能 Wide Research,我覺得非常不具備競爭力,對提高產(chǎn)品競爭力沒有什么用。” 某大型金融企業(yè) AI 技術專家王顯( 化名 )表示。
從 “ 次日即舊 ” 的榜單到被基礎模型一輪升級清場的產(chǎn)品,2025 年的 Agent 創(chuàng)業(yè),熱鬧背后是可憐的留存率與漸趨同質(zhì)的體驗。
幾乎所有 Agent 產(chǎn)品都在講 “ 更聰明、更全能、更自動化 ”,但用戶只試用一次就離開的比例居高不下,Demo 能飛,落地常摔,這是否意味著通用型 Agent 的敘事正在透支?

本文,把鏡頭拉遠,看看泡沫究竟來自資本驅(qū)動、技術錯配,還是場景誤判?
我們將邀請來自大型企業(yè)、創(chuàng)業(yè)公司的多位一線實踐者,以 Manus 近期的新產(chǎn)品 Wide Research 和公司跑路、撤資事件為引,追問國內(nèi)外 Agent 泡沫亂象現(xiàn)實、背后的原因,以及未來 Agent 賽道的生存規(guī)則。
在交流過程中,我們發(fā)現(xiàn),通用與垂直的取舍和統(tǒng)合是決定去留的關鍵。
實際上,今年 Agent 大火, 主要是在 tool-use 上取得突破。
《 知識圖譜:認知智能理論與實戰(zhàn) 》、《 知識增強大模型 》與《 比 RAG 更強- 知識增強 LLM 型應用程式實戰(zhàn) 》作者、大模型技術專家王文廣表示,“ 具體來看,從編程到browser-use,再到 computer-use,以及隨著 MCP 通用接口普及率的提升,Agent 的 tool use 能力得到增強,能夠更高效地從外部獲取信息,以及與外部系統(tǒng)進行交互。”
平安保險技術平臺組負責人張森森進一步解釋道:“ 技術層面上,協(xié)議逐漸成熟,能力外延擴大,可以通過 MCP 協(xié)議等方式應用到更多場景。應用層面上,有些長尾場景得到了覆蓋,比如從瀏覽器信息助手到執(zhí)行動作的轉(zhuǎn)變:過去只是提供答案,現(xiàn)在能幫助完成動作。生態(tài)層面也降低了一些成本。”
“ 過去廠商比拼模型參數(shù),現(xiàn)在還要比拼模型加生態(tài)工具的組合能力,市場競爭焦點已經(jīng)發(fā)生轉(zhuǎn)移。”
但這其中,以 Manus 為代表的通用 Agent 類產(chǎn)品一直飽受爭議。
一方面,資本甚是青睞,另一方面,用戶詬病不止。
直到近,Manus 先是跑路,把公司總部從國內(nèi)搬遷到新加坡,隨后推出了 Wide Research 產(chǎn)品,再之后又被曝出將可能因為安全審查問題被強制撤銷融資。
在整個賽道中,炒作了大半年的 Agent 概念,也開始面臨越來越顯性的質(zhì)疑。
王顯詳細解釋了為何 Wide Research 缺乏競爭力:
“ 第一,Wide Research確實提高了并行處理的效率,但也非常消耗計算資源和調(diào)用額度,所以它的定價非常貴。”
“ 第二,沒有看到它與單體高性能的 Deep Research 在性能準確度、成本效率上的公開對比或測試,所以不能確定它在使用大量并行任務后,效果是否真的得到提升。”
“ 重要的一點是,它仍然沒有解決場景壁壘的問題。”
“ 它沒有專業(yè)數(shù)據(jù)、沒有專屬工具鏈、沒有行業(yè)認證、沒有與業(yè)務深度綁定的集成,也沒有與高價值業(yè)務場景的綁定,也就是任何人都能做。所以,它更偏向工程能力的延伸,而不是在構建場景護城河。”
“ 當然,早期采用淺而寬的策略來獲客沒有問題,但長期來看,Manus無法抵御模型廠商的下沉和垂直廠商的滲透。”
“ 所以在我看來,Manus 自始至今,從產(chǎn)品角度而言,思路是完全失敗的。”
AI 技術專家和創(chuàng)業(yè)者陳為也基本持一致的觀點:
“ Wide Research 的本質(zhì)是 ‘ 規(guī)模化通用任務執(zhí)行器 ’,效率高,但沒有解決 ‘ 決策 ’ 問題。”
“ 用戶會發(fā)現(xiàn),當他們遇到真正復雜的問題時,這個通用 Agent 還是幫不上忙,終不得不轉(zhuǎn)向?qū)I(yè)的垂直產(chǎn)品或人工服務,導致用戶留存率不高。”
如果擴大到任意的通用 Agent,則它們都具備一個看似有吸引力但實則致命的特點:任務范圍模糊。
知言吉智 CEO 付瑞吉表示:“ 任務范圍模糊一定會對產(chǎn)品帶來不利的影響。一方面,當一個 Agent 宣稱能做所有事情時,它往往在任何一個領域都做不到好;另一方面,任務范圍模糊,意味著用戶對于這個 Agent 到底能幫自己解決什么問題也會有困惑,那么這個產(chǎn)品的認知成本就非常高。”

付瑞吉進一步解釋了近期 Agent 泡沫興起的創(chuàng)業(yè)者心態(tài):“ 大模型的出現(xiàn)讓大家覺得開發(fā)門檻降低了,感覺 ‘ 人人都能做 Agent ’。許多開發(fā)者和創(chuàng)業(yè)公司認為將其包裝成一個能解決各種問題的 ‘ 超級助手 ’,能迅速吸引大量 C 端用戶。通用型 Agent 的核心賣點就是 ‘ 解決所有問題 ’。但現(xiàn)實是,目前為止沒有任何一個 Agent 能真正做到這一點。”
王顯更是認為這場泡沫的興起是創(chuàng)業(yè)公司和資本共謀的產(chǎn)物,“ Manus 根本不是在做產(chǎn)品,而是在走資本路線,通過不斷推高市場知名度以獲得更高融資。至于創(chuàng)始人是拿到融資后真正深入場景做產(chǎn)品還是卷錢跑路,只有創(chuàng)始人自己才知道。產(chǎn)品非常失敗,但營銷可以說非常成功。”
付瑞吉補充道:“ 營銷只能負責將大眾的注意力吸引過來,但 Agent 不同于內(nèi)容類的產(chǎn)品( 如短視頻 )只要用戶的注意力就夠了,它還是要解決用戶的實際問題的,如果用戶發(fā)現(xiàn)產(chǎn)品 ‘ 華而不實 ’,則很難留存。”
沐瞳科技大數(shù)據(jù)負責人薛趙明則認為這種產(chǎn)品模式有一定合理性,但還是要區(qū)分 ToC 和 ToB 的邏輯,“ ToC 和 ToB 是兩種邏輯,ToC 需要具備多樣性,這個多樣性也代表了用戶選擇的多樣性,產(chǎn)品力不足的會很快在市場的浪潮中褪去,因為這是一個非常燒錢的賽道,沒有用戶的沉淀和付費是很難長期堅持的。ToB 又是另一個商業(yè)邏輯,必須強調(diào)可落地和可交付,否則便是無用的。”
王顯以 Wide Research 為例解釋了為何通用 Agent 產(chǎn)品現(xiàn)階段對于企業(yè)用戶無用,“ 對于企業(yè)而言,Wide Research 并沒有說明 Agent 是如何分工、如何合作、如何整合各自結果的,它們之間的協(xié)調(diào)協(xié)議和調(diào)度機制也不明確。那我后怎么去做審計呢?作為企業(yè),我必須審計這個過程是否合規(guī),以及在執(zhí)行過程中到底發(fā)生了什么。所以我沒辦法信任它給出的終結果。”
“尤其是在金融行業(yè),我們可能花了很長時間跑出一個結果,如果它直接告訴我買哪只股票、投哪家公司,我不可能只憑這個結果就去執(zhí)行。”
Manus 雖然接受了中外多個基金的投資,但運營主要面向海外市場,而且總部已經(jīng)搬遷到新加坡,其代表的只是 Agent 泡沫的一小部分組成。
但聚焦到國內(nèi),情況也并不樂觀,甚至可以說有太多相似之處。
薛趙明表示,“ 實際上,當前無論是創(chuàng)業(yè)公司,還是一線的云廠商的產(chǎn)品,大部分的產(chǎn)品都還是在一個特定場景下去演示,真正的規(guī)模化落地還是偏少。”
張森森表示:“ 國內(nèi)很多 Agent 產(chǎn)品功能繁多,但基本都是快速堆疊,痛點不聚焦。 比如有大量集成了寫文案、做 PPT、查資料、生成圖片等功能的產(chǎn)品,不乏大廠參與其中。它們都有通用 Agent 的特點,功能多但不精。寫代碼準確率不高,數(shù)據(jù)分析缺少可解釋性,設計產(chǎn)出質(zhì)量參差不齊。初次使用可能覺得新鮮,但要長期依賴則難以實現(xiàn)。很少有明確與工作流、KPI 綁定的可交付結果。”
“ 具體到一些金融類工具型 APP( 公司主體一般沒有正式的金融業(yè)務牌照 ),比如炒股平臺,會提供所謂的智能投顧功能。當我打開某只股票時,它可能提示該股票出現(xiàn)‘紅三兵’,未來可能上漲,但這樣的判斷缺乏準確性。”
“ 因為它只是摘錄過去的一些市場信息,而二級市場的信息來源非常多,決策點也很多,這類產(chǎn)品完全無法體現(xiàn)這些復雜因素。看起來像是做了一個智能投顧,但實際上既沒有真正實現(xiàn)投資組合優(yōu)化、風險控制,也無法對接交易系統(tǒng),無法支撐其宣傳的定位。”
“目前市面上沒有一家能真正把智能投顧功能做好。實際上,大部分經(jīng)紀公司都有相關部門去做這件事。問題在于,一方面他們覺得必須做,另一方面看到大模型似乎能解決問題,就開始投入開發(fā),完成后立刻做宣傳,聲稱接入了大模型并具備某種能力。”
“但這里的問題在于,他們的宣傳能力與實際能力并不匹配,并非能力完全無用,而是存在明顯落差。”
王文廣表示:“ 成功演示的往往是任務中那 20% 的標準化部分,而真正構成工作核心的,是那 80% 的、充滿‘長尾異常’的復雜現(xiàn)實。”
就連大家目前普遍主動或被動接觸過的AI搜索,其實也還很初級,Jina AI 前 CTO 王楠向知危表示,“ Agent 目前能夠多輪使用簡單工具或者單輪使用復雜工具,但是多輪使用復雜工具( 例如搜索工具 )的能力還沒有達到生產(chǎn)可用。從BrowseComp Benchmark 上看,搜索大模型在使用搜索工具方面還有很大的提升空間。這種差距的原因在于大模型在使用通用工具上的能力還沒有迎來ChatGPT時刻。”
白鯨開源 CEO 郭煒向知危總結道,“ 目前整體來看,各種 Agent 產(chǎn)品給人的驚喜度確實不夠。因為現(xiàn)在 Agent 技術本身還沒有進入成熟或真正可用階段,技術生態(tài)不完善。甚至關于Agent 的理念,大家都還沒有想清楚。”
“ 國內(nèi)大多數(shù)所謂的 Agent 其實并不是真正的 Agent,只是為了吸引眼球而這么命名。在我理解中,能夠替代 ToB SaaS 和 ToC APP 的那種 Agent 產(chǎn)品還沒有出現(xiàn)。國內(nèi)品牌都是如此。”
“ 換句話說,現(xiàn)在的 Agent 大多是套了自然語言交互外殼的 RPA( 軟件機器人流程自動化 ),普遍缺乏深度。那為什么不直接用 RPA 呢?RPA 還沒有幻覺。”
這種 “ 名不副實 ”的現(xiàn)象,王文廣指出,是所謂的“智能體洗白”( Agent Washing ),在行業(yè)中已非常普遍。
“ 這是 ‘ 能力泡沫 ’ 的直接產(chǎn)物。公司利用市場對 ‘ Agent ’ 一詞的追捧來吸引投資和用戶。直接的例子是,有權威報道指出,全球幾乎所有在 2022 年底 ChatGPT 之前就在所謂的 RPA 等賽道上有所成就的企業(yè),都在掛智能體的羊頭賣 RPA 的狗肉。”
Gartner 今年 6 月的市場分析報道表明,其在測試的 ‘ 數(shù)千款 ’ 所謂的 Agent 產(chǎn)品中,只有約 130 款真正符合標準。
“ 所以,可以做個簡單的排除法,尋找智能體或大模型落地的供應商,首先排除掉以往做過 RPA 的企業(yè),這可以避免一半的坑。投資也是一樣。”
王文廣還總結了 C 端和 B 端 Agent 泡沫的一般特征,“ ToC 泡沫主要由對 ‘ 通用個人助理 ’ 的夢想驅(qū)動,ToB 泡沫更多是由企業(yè)的提高生產(chǎn)力、降低成本的焦慮所驅(qū)動。”
“ ToC 的這種愿景極具吸引力,容易引發(fā)病毒式傳播和媒體的廣泛關注,從而在短期內(nèi)催生出極高的估值和用戶增長預期,但當產(chǎn)品體驗達不到預期,用戶會毫不猶豫地離開。”
“ ToB 領域則由于企業(yè)軟件的銷售周期長、決策鏈條復雜,并且一旦部署,即使效果不佳,替換成本也相對較高,從而顯得其泡沫更具欺騙性,也更慢地顯現(xiàn)。”
如果將國內(nèi)外的 Agent 泡沫現(xiàn)象綜合起來,則又是另一番景象。
張森森解釋道,“ 國內(nèi)外的 Agent 泡沫表現(xiàn)并不相同。比如美國,其優(yōu)勢是在 B 端,但泡沫不在 B 端,而是在 C 端,一些通用型消費級助手類 Agent 的投資方可能來自硅谷大基金。這些機構在早期投資時,美國對數(shù)據(jù)安全還沒有嚴格限制。但隨著數(shù)據(jù)隱私法比如 GDPR、CCPA 等監(jiān)管措施落地,尤其是在跨境場景下,AI的安全審核要求變高,很多競爭者被迫增加合規(guī)與差異化投入,結果加快了行業(yè)洗牌速度,把不少做通用型 APP 的企業(yè)淘汰出局。”
“ 國內(nèi)的泡沫很特殊,雖然用戶集中在 C 端,但泡沫幾乎只存在于 B 端。原因是 B 端企業(yè)受補貼、國產(chǎn)化等政策影響,同時市場內(nèi)卷嚴重,用戶更注重實用性而非炒作。B 端用戶相對冷靜,因此很多 ToB 初創(chuàng)公司迅速倒閉,一些去年還在討論的公司今年已經(jīng)消失,泡沫破滅速度會很快。”

當前的 Agent 產(chǎn)品普遍缺陷明顯,可以從產(chǎn)品、工程、場景等多方面理解。
產(chǎn)品層面主要是可靠性不足。對于為何大部分 ToC Agent 產(chǎn)品中,90% 的用戶用一次就離開,郭煒表示,“ 這很正常,因為它還不如直接用 APP。真正的 Agent 應該比 APP 更方便、更簡單。”
“ 而如果是 To B 產(chǎn)品,必須比現(xiàn)有軟件更簡單、準確、方便。本來用戶點三下鼠標就能完成的事,現(xiàn)在用 Agent 卻要用自然語言先說一句話,然后再跟它說十句話,才能替代原本三次點擊的工作。這樣的體驗讓人寧愿直接點鼠標。”
王文廣表示,“ 換句話說,根本的原因是,對于大多數(shù)真實世界任務,用戶為驗證和修正 AI Agent 輸出所付出的心智成本和時間成本,超過了 Agent 本身所節(jié)省的成本。”
“ ‘ 通用個人助理 ’ 承諾的是一個科幻級別的未來。其所要處理的任務,如預訂家庭旅行、管理個人財務、安排重要會議,都具有一個共同點:高信任要求。例如,用戶需要確信 Agent 不會訂錯機票、不會泄露財務信息、不會搞砸會議時間。”
“ 然而,當前大模型的 ‘ 幻覺 ’、知識陳舊等問題和 Agent 執(zhí)行的脆弱性,使得其可靠性極低。”
“ 這種 ‘ 高信任要求 ’ 與 ‘ 低可靠性 ’ 之間的巨大鴻溝,或未能穩(wěn)定地跨越從 ‘ 新奇玩具 ’ 跨越到 ‘ 可靠工具 ’,是 C 端通用 Agent 無法獲得用戶長期留存的根本原因。用戶可以容忍一個聊天機器人講錯一個歷史知識,但絕不能容忍一個 Agent 訂錯一張機票。”
而且目前 Agent 產(chǎn)品有從訂閱制走向按結果付費的趨勢,這其實也給通用 Agent 創(chuàng)業(yè)公司帶來了壓力。 “ 這種商業(yè)模式的演進,本質(zhì)上是一次風險轉(zhuǎn)移,將產(chǎn)品無效的風險從客戶身上轉(zhuǎn)移到了服務提供商身上,而 ToC 的通用 Agent 的不可靠性使其極難承受這種風險。反倒是 ToB 領域,可以選擇合適的場景,通過效果所創(chuàng)造的價值進行分成,是有利的。”
張森森從工程角度總結了許多 Agent 產(chǎn)品無法落地的原因:“ 第一,真實環(huán)境非常復雜,不可能像實驗環(huán)境那樣數(shù)據(jù)干凈。現(xiàn)實中數(shù)據(jù)質(zhì)量往往較差,接口口徑不一致。”
“ 第二,很多接口需要跨系統(tǒng)權限訪問,要做 SSO( 單點登錄 ),還涉及數(shù)據(jù)脫敏,這些環(huán)節(jié)很容易卡住,導致平臺間的對接受阻。工具本身存在脆弱性,比如瀏覽器系統(tǒng)自動化可能對 DOM 版本極其敏感,API 的速率限制等問題也可能導致頻繁重試。”
“ 第三,存在狀態(tài)和記憶缺失的問題。就像長鏈路任務中缺乏持久狀態(tài),上下文無法保存,狀態(tài)機失效,無法接著上次任務繼續(xù),只能從頭開始。”
“ 第四,缺少驗證和回滾機制,沒有二次校驗或回滾策略。”
“ 第五,SLA( 服務商與客戶之間對質(zhì)量標準、性能指標等的約定 )和成本存在約束。企業(yè)使用時必須考慮成本,服務需要有保障,確保 TCO( 總擁有成本 )大于業(yè)務收益。”
“ 第六,缺乏合規(guī)與審計能力。生產(chǎn)過程要可追溯、可解釋,并具備權限與操作流程控制。但在各個平臺的演示中幾乎看不到這一點,而這恰恰是企業(yè)重要的需求。”
在場景層面,郭煒認為,這個原因可以非常簡單,“ 沒有真正深入到用戶場景中去做。”
“ 大部分 Agent 仍是由處在特別早期階段的創(chuàng)業(yè)者在推動。但真正有價值的 Agent,需要在某個業(yè)務領域有深厚積累的人或公司來做。”
張森森持相似觀點,“ 實際上,國內(nèi)外當前都太把技術當回事了,太關注技術使得大家在做大模型和Agent都是圍繞技術來構建的。通俗來說就是,技術有什么東西,我做什么東西。”
王文廣補充道,“ 當前,AI 公司往往不了解業(yè)務,業(yè)務公司則沒有準確理解AI智能體技術。對 AI 方或業(yè)務方來說,都應該了解技術邊界,知道智能體能做什么不能做什么,同時結合業(yè)務,才會做好這事。”
但 Agent 不只是獨立地去攻克一個個場景就可以了,其帶來的變革是生態(tài)級別的。
郭煒表示,“ Agent 本身是一個大的生態(tài),就像軟件或 SaaS 生態(tài)一樣。未來它會形成一個完整的生態(tài)體系,只有這個生態(tài)真正建立起來,才能形成所謂的 Agentic Stack,在 Agent 時代承接并轉(zhuǎn)化原有生態(tài)。”
“ 這個生態(tài)規(guī)模很大。以 ToC 的手機端為例,目前手機端還沒有出現(xiàn)通用型APP,需要在垂直領域中出現(xiàn)對應的 Agent,例如類似國內(nèi)的攜程、小紅書等級別并且更方便的Agent,才能支撐起生態(tài)的第一層。”
“ 生態(tài)的第二層才是通用型 Agent,通用 Agent 的核心在于入口,例如 Apple Intelligence 就是一個入口。”
“ 而入口之爭本質(zhì)是流量之爭,而不是技術或產(chǎn)品本身。誰能夠搶占新一代 Agent 的流量,誰就能在通用 Agent 領域占據(jù)優(yōu)勢。”
從這個角度看,似乎 Manus 的流量打法也有一定的合理性?但王顯并不這么認為,他指出應用層的創(chuàng)業(yè)公司沒有機會去搶占這個流量入口。
也就是說,創(chuàng)業(yè)公司無法繞過生態(tài)的第一層,直接跳到第二層,成為流量入口。“ 創(chuàng)業(yè)公司現(xiàn)有的 Agent 產(chǎn)品要結合到生態(tài)鏈中去,比如蘋果或者微信的生態(tài),再把AI能力融合進去,相當于通過 AI 對已有生態(tài)鏈做增強。要實現(xiàn)這一點,要么擁有場景,要么擁有數(shù)據(jù)。”
如果想直接跳躍到第二層生態(tài),就會面臨 Manus 當前的困境,“ 從用戶視角來看,Manus 這類產(chǎn)品已經(jīng)出現(xiàn)用戶數(shù)量下滑、使用意愿不足的情況。無論是創(chuàng)業(yè)公司還是老牌公司,首先要解決的就是生存問題。產(chǎn)品必須有正向 ROI,要能價值兌現(xiàn),且使用成本不能太高。但 Manus 的產(chǎn)品正好存在價值兌現(xiàn)不足的問題,而且時間、學習和金錢成本都過高。”
王顯還認為,流量入口也不是 OpenAI 這類公司的發(fā)展方向。“ OpenAI 是創(chuàng)業(yè)公司,但也是大模型廠商,肯定不會去做流量入口。相比 Anthropic、Google,OpenAI 更面向大眾,比如 ChatGPT、Sora 這樣的產(chǎn)品,特征是注重體驗、規(guī)模化和生態(tài)擴展。他們的目標是底層基礎設施供應,同時在 C 端和長尾 B 端場景做推廣。”
郭煒表示,“ 像蘋果這樣的公司,天然具備優(yōu)勢去打造移動端的完全通用型 Agent。理想狀態(tài)下,用戶只需說一句 ‘ 幫我訂一張去上海的機票 ’,通用助手Agent 就能自動調(diào)用多個 APP 或 Agent 服務協(xié)同完成整個流程。”
“ 在 ToB 領域也是類似的邏輯,每個垂直方向的 SaaS 都會出現(xiàn)對應的 Agent,需要是真正意義上屬于 Agent 時代的軟件,之后才會出現(xiàn)入口級通用 Agent。否則,入口級通用 Agent 即使想做,也無法與底層垂直領域的 Agent 有效銜接。即便使用 MCP 的 Server 來連接,中間也會損失大量信息,導致結果不準確,無法滿足客戶需求。”
“ 現(xiàn)階段應優(yōu)先在垂直領域啟動 Agent 落地,無論是 To B 還是 To C,都應在原有賽道中先行深耕,逐步培育生態(tài)。”

以上,我們描述了 Agent 泡沫的總體情況,可以看到,造成這一現(xiàn)象的根本,還是在技術受限、行業(yè)規(guī)律甚至一些痼疾的背景下,創(chuàng)業(yè)公司和大廠對 Agent 產(chǎn)品在生態(tài)中的定位有著錯誤的認識。
接下來,我們將對這些背景進行更加細致的闡述。
其中,技術受限包括 MCP 協(xié)議限制、AI 幻覺限制、多智能體擴展限制、上下文長度限制、大模型智能限制等。
行業(yè)規(guī)律、痼疾則指向資本炒作、大模型行業(yè)競爭的殘酷規(guī)律以及國內(nèi)特有的老問題。

郭煒表示,“ 關于使用 MCP Server 會導致信息損失,這一點非常重要。終,Agent 應該采用 A2A( Agent to Agent )的協(xié)議,服務于垂直Agent之間的通信,才能完整完成任務。”
“ 而 MCP 是通用 Agent 與外部數(shù)據(jù)源之間的通信協(xié)議。當調(diào)用 MCP 時,不可避免地會將自然語言信息轉(zhuǎn)換成結構化的 query 或結構化的 ADB 請求來執(zhí)行操作,這一轉(zhuǎn)換的準確率需要由調(diào)用方來保證。但通用 Agent 要在專業(yè)領域內(nèi)準確地將專業(yè)詞匯翻譯成精確指令,再交由原有程序執(zhí)行,在現(xiàn)實中非常困難。”
“ 以我們正在做的 Data Agent 為例,這項工作需要較長時間推進,因為必須自底向上完成建設。過去的數(shù)據(jù)底層通常是裸數(shù)據(jù),例如 CSV 文件,里面是各種原始數(shù)據(jù)。未來需要將這些數(shù)據(jù)轉(zhuǎn)化為帶有語義的 Contextual Data Unit( CDU ),才能被上層 Agent 有效消費。因此必須了解企業(yè)所有表的字段含義及數(shù)據(jù)意義,需要非常專業(yè)的數(shù)據(jù)獲取廠商來完成。”
“ 例如,‘ 消費金額 ’ 必須明確對應哪個系統(tǒng)、什么業(yè)務的消費金額,Agent 才能理解。否則,如果上層 Agent 僅接到 ‘ 獲取消費金額 ’ 的指令,它必須再去解析并定位到 Salesforce 系統(tǒng)中的特定交易表及其規(guī)則。比如讓 MCP Server 將請求翻譯成 SQL 再下發(fā)到 Salesforce 查詢數(shù)據(jù),但它并不知道 ‘ 消費金額 ’ 在當前語境下的具體含義,是來自 Salesforce、SAP,還是其他系統(tǒng)。它甚至不了解 Salesforce、SAP 分別是什么。”
“ 這不僅是當前 Agent 技術無法實現(xiàn)的,甚至人類在缺乏上下文的情況下也很難完成。”
“ 因此,通用 ToB Agent 并不是 ‘ 在 MCP 上套一層通用 Agent ’ 就能實現(xiàn)的,而必須由基于 A2A 的多個專業(yè)領域的 Agent 相互協(xié)作( Agent + Agent )實現(xiàn)。”
“ 相比之下,提示詞專業(yè)性、token 成本爆炸等都是更加次要的,會隨著時間自然解決。”

Agent 還有一個永遠無法解決的問題,那就是底層大模型的幻覺。已有研究證明,大模型無法從理論上完全消除幻覺。
“ 在現(xiàn)有大模型技術下,有許多場景嘗試進行完全 Agent 化,但效果并不理想。”
“ 以自動編碼為例,各種號稱能夠代替人類編碼的工具,無論是帶 Agent 的 Claude Code、Cursor,還是Augment Code等,都無法真正替代程序員的工作。無論是初級、中級還是高級崗位,都仍需配備人類程序員進行檢驗和監(jiān)督。否則一旦幻覺出現(xiàn)且缺乏有效控制,風險極高。例如,近期某公司在使用自動化工具 Replit 時出現(xiàn)誤操作,導致數(shù)據(jù)庫被刪除。”
“ 目前也沒有特別好的方式來自動定位和追溯幻覺。在校驗中,雖然無法校驗所有環(huán)節(jié),但可以抽檢一兩個關鍵點,并用傳統(tǒng)方法或知識庫進行糾錯和約束。”
“ 幻覺在前期溝通階段有一定優(yōu)勢,因為它可能帶來一些創(chuàng)新性想法。但在企業(yè)落地執(zhí)行階段,應盡量控制甚至避免使用大模型。在 Agent 執(zhí)行任務時,為緩解幻覺,只有借助 workflow 才能保證足夠的確定性。”
“ 總之,大模型和 Agent 在目前更多是作為效率工具,顯著提升了開發(fā)能力。例如,我自己現(xiàn)在幾乎沒有時間寫代碼,對一些新發(fā)布的 Python 函數(shù)也不了解,但大模型能夠知曉并直接為我生成代碼,還能解釋邏輯。這樣我只需驗證邏輯是否正確并運行,就能快速完成任務。這種方式不僅比我親自編寫代碼更快,有時生成的算法思路甚至比我原本設想的更好。”
王文廣指出,思維鏈的幻覺其實在 Agent 產(chǎn)品中也非常常見,“ 這通常被稱為過程幻覺,即 AI 編造了一個它并未執(zhí)行或執(zhí)行失敗的操作過程。”
“ 它輸出的不是真實的操作日志,而是它生成的一個 ‘ 看起來像是成功了的 ’ 操作日志。例如,它聲稱 ‘ 我已經(jīng)成功運行了測試,所有測試都通過了 ’,但實際上它可能根本沒有能力或權限去運行測試,或者實際測試運行失敗了。”
“ 從這點也可以看出,在許多情況下, 單純依靠大模型,存在非常多無法解決的問題。如果把所有問題當做一個平面,大模型能夠解決的問題是平面上的布,無法解決的問題是孔,那么可以看到,這個平面是千瘡百孔的。”

在 Agent 框架設計方面,目前領域內(nèi)有一個被過分炒作的概念,那就是多智能體。
當前實際應用中,智能體之間的交互主要限于兩個智能體。編程體驗后來居上的 Claude Code 也沒有使用多智能體協(xié)作機制。
張森森表示,“ 單智能體或雙智能體已經(jīng)能覆蓋 80% 的企業(yè)業(yè)務場景,此外,限于雙智能體也是出于成本考量。”
“ 具體來說,多智能體會顯著增加復雜度,容錯設計難度提升,開發(fā)、維護、算力成本更高,收益和成本不匹配。引入更多智能體未必能提升效果,同時也難以抵消延遲,并會使得系統(tǒng)更加不穩(wěn)定。用戶體驗終取決于響應速度,穩(wěn)定性方面,智能體越多越容易跑偏,可能出現(xiàn)循環(huán)對話、信息丟失等問題,還需要額外監(jiān)督和約束,復雜度會越來越高。”
“ 多智能體的案例也有,比如一些游戲公司在做 AI 團隊游戲,在沙盒環(huán)境里嘗試多智能體交互。但對大部分企業(yè)而言,并不需要這種復雜度。”
王文廣補充道,“ 雖然在一些對協(xié)調(diào)和優(yōu)化要求極高的特定領域,已經(jīng)出現(xiàn)了更復雜的、已實際落地的多智能體系統(tǒng)案例,但絕大多數(shù)情況下, 應該優(yōu)先解決簡單的問題。”

基礎模型能力方面,當前非常核心的一個限制還是上下文長度。雖然 OpenAI、Anthropic、谷歌等 AI 公司一直宣稱模型上下文達到數(shù)十萬、上百萬 token,但Reddit 社區(qū)反饋其中水分很大,有時幾萬 token 輸入下,模型準確率就大幅下降。
張森森表示,“ 實際體驗來看,大部分廠商宣稱的上下文長度確實水分很大,別說兩三千行代碼,甚至一千多行時就開始丟失信息了。”
“上下文長度代表了基礎模型能力的天花板,特別在 Coding Agent 場景中,基本就是硬天花板的程度。”
“ 在企業(yè)內(nèi)部優(yōu)化這個問題不僅很難,而且也不是靠企業(yè)自己能完全解決的。可選的方案有:代碼檢索以及更加智能的代碼檢索;動態(tài)上下文管理,只加載與本次修改相關的依賴文件。但這些都治標不治本。”
“ 對資深程序員來說影響不大,他們能很快發(fā)現(xiàn)邏輯缺口。”
“ 但對初學者來說,一旦項目規(guī)模大,IDE 頻繁加載就會崩潰。項目規(guī)模一大,就會涉及很多模塊和依賴,甚至是跨模態(tài)的復雜系統(tǒng)。模型不得不頻繁丟失上下文、重新加載信息,導致迭代過程完全斷裂,忘記之前的決策,甚至可能出現(xiàn)重復造輪子的情況。”
郭煒補充道,“ 當前的限制不僅來自模型本身,還與底層芯片架構有關,包括顯存、外部存儲等都需要進一步提升。”
王顯認為,在硬件基礎設施的限制下,上下文長度瓶頸對于國內(nèi)而言將是更嚴峻的問題。
“ 國外芯片比如英偉達 H100、A100 這樣的高端 GPU,能夠更高效地進行分片計算,處理幾十萬、上百萬 token 上下文。同時它們也有軟件層面的優(yōu)化,比如 FlashAttention 工具、針對張量計算的優(yōu)化配置等,這些都是通過軟硬件結合來提升性能的。”
“ 相比之下,國內(nèi)主要通過算法優(yōu)化和軟件工程做一些 ‘ 曲線救國 ’ 的工作。類似的,DeepSeek、Kimi 等團隊也在發(fā)布各種上下文剪裁、分層記憶、稀疏 Attention 等方法,其實都是一些面向低成本的方案。”
“ 一些國內(nèi)廠商號稱自己的高端 GPU 在浮點性能、顯存、寬帶等各方面和 H100 很相近,但其實還是有很大差距的。國外的頂配集群,比如 H100 加 NVLink Switch,能輕松地應對百萬級 token 推理。”
王文廣表示,“ 實際上就是 AI 芯片的存儲容量和帶寬限制了推理的極限,不管是國內(nèi)外都是這樣的。”
“ HBM 是通用 GPGPU 好的選擇,但專用的推理芯片有很多不同的路線,比如使用 3D 堆疊的專門的 AI 芯片。
“ 國內(nèi)有一些如 CiMicro.AI 這樣非常前沿的AI芯片公司,和寒武紀、華為、海光等走了不同的路線,將 3D DRAM 用于 AI 推理芯片上,如果成功流片,帶寬能夠得到極大的提升,比英偉達用的 HBM 還高一個量級,從而大模型的推理速度將得到極大的提升,長上下文和深度思考則會對 Agent 有極大的促進。”

除了上下文長度之外,更大的限制,自然來自基礎模型的智能極限了,特別是近期被詬病平庸的 GPT-5 發(fā)布后。
客觀來看,GPT-5 的更新點是在產(chǎn)品層面,把幻覺降得特別低,這在消費級用戶看來不太友好,但對編程來說非常有用,可靠性很高。對于專業(yè)用戶而言,有時甚至比 Claude 4 還好用一些,因為 GPT-5 在 Agentic Coding 中傾向 “ 精準定位問題 ” 和 “ 小侵入修改 ”,而 Claude 4 自主性更強,寫的代碼更復雜,需要特別提醒才會選用簡方案。
那么,從這個角度看,一直以消費級用戶為主體的 OpenAI 未來是否想更多向 B 端推進?
張森森表示,“ 如果是,那也是不得已而為之。現(xiàn)在 GPT-5 是通過多模型路由來提高上限,基本意味著大模型的 Scaling Law 幾乎已經(jīng)失效,單模型上很難再高效提升。其實 GPT-5 的發(fā)布本身就有點 ‘ 難產(chǎn) ’ 的意味,更像是一種形式,而不是自然的過程。未來基礎模型能否進一步進化,還需要觀察。”
“ 這也是為什么大家都在強化 Agent 能力。相比基礎模型,Agent 的可解釋性相對更好一些,能更好結合具體業(yè)務場景去提升實際能力。但基礎模型往往也決定了 Agent 的上限。”
“ 后面大模型的走向可能更多會朝垂直方向發(fā)展,參數(shù)量未必再無限增大,而是聚焦在更細分的場景。”
大模型廠商經(jīng)常在營銷中刻意忽視模型當前的智能上限,而過分強調(diào)可以放心地依賴大模型全權執(zhí)行工作,比如 Claude 甚至介紹了一種簡單粗暴的使用經(jīng)驗,他們內(nèi)部用 Claude Code 寫代碼的時候,有一個原則就是 “ 不行就重來 ”。
王文廣表示,“ ‘ 不行就重來 ’ 的策略,跟金錢和時間等無關,跟解決問題的復雜程度有關。簡單來說,在原型探索階段或者簡單的應用中,是一種有效的捷徑,但在嚴肅的、可維護的較為復雜的生產(chǎn)環(huán)境中,這是一種不可持續(xù)且極具破壞性的工作模式。”
對于基礎模型本身,王文廣則認為還會繼續(xù)進步,“ 整個 Agent 生態(tài)系統(tǒng),也都在等待基礎模型的下一次重大突破。一旦新的、更強大的基礎模型出現(xiàn),它將立刻抬高整個 Agent 生態(tài)系統(tǒng)的能力天花板,催生出新的應用。”

除了工程和模型層面的技術問題,在行業(yè)層面,還存在幾大問題,包括資本敘事泡沫、基模公司擠壓、國內(nèi) ToB SaaS 的痼疾等。
張森森表示,“ 目前 Agent 賽道處于資本和敘事先行的階段,VC 過于樂觀。但 Agent 實際可用性仍然較差,沒有看到正向 ROI 的落地,總體擁有成本( TCO )明顯大于收益。”
“ 投資熱和用戶體驗背離的原因在于,投資端和市場更追求故事性,喜歡 ‘ 通往 AGI 的必經(jīng)之路 ’、‘ 下一代操作系統(tǒng) ’ 這樣的愿景或字眼。”
“ 特別是早期投資人,更關注潛在市場規(guī)模和搶占入口的速度,而不是急于影響盈利,所以他們愿意把錢投在某類 Agent 上。”
“ 但資本存在一種盲目的信任。”
“ 很多投資人是從 APP 市場走過來的,相信有一天會出現(xiàn)一個 Agent 平臺,形成類似微信、iOS 級別的生態(tài)壟斷。因此他們不愿意錯過機會,而且存在 ‘ 你不投我就投 ’ 的競爭心理。”
“ 尤其是在當前市場環(huán)境下,資本方其實沒有其它方向可以投。Agent 類項目就成了幾乎唯一可以投資、還能擊鼓傳花的故事。”
“ 所以,有些產(chǎn)品即使不行也會被拿出來講故事。因此融資估值并不與實際產(chǎn)出效率掛鉤,而是與產(chǎn)品覆蓋面、DAU、MAU 等指標掛鉤。思路是先鋪量,后續(xù)再做深。在公司內(nèi)部,大家討論的也是未來的提升,向老板講的也是未來的故事,所以只要能帶來可見的效率提升,大家都愿意試用。”
“ 在國內(nèi)還有一個特點是,普通大眾和客戶對早期產(chǎn)品的 bug 和漏洞容忍度相對較高。”
“ 所以,投資端看到的是未來潛力,和當前體驗之間存在時間差,這是客觀存在的。但如果用戶端的體驗長期上不去,投資端很快會降溫。這是一個動態(tài)博弈的過程。”
基模公司擠壓則是 Agent 賽道乃至整個 AI 賽道過去、現(xiàn)在和未來都將一直面臨的不確定性壓力。
張森森表示,“ 大模型發(fā)展速度極快、日新月異,作為 Agent 供給側(cè)給應用層帶來的沖擊很大。很多廠商,特別是千問、豆包等,每次迭代都會能力下沉,抹平通用層的一些差異,壓縮了初創(chuàng)造通用應用的生存空間。”
“ GPT-5 也有類似趨勢,比如他們希望做教育改革,用 AI 幫助用戶學韓語等,而這原本是多鄰國、Speaker 等平臺的垂直市場。”
王文廣表示,“ 通用 Agent 的通用能力其實來自于大模型本身,絕大多數(shù)非基礎模型公司做出來的 ToC 產(chǎn)品,其實都不具備壁壘,這導致 ToC 的產(chǎn)品終有很大概率是被基礎模型公司收割的,OpenAI 新的 AgentKit 就是一個現(xiàn)實的正在發(fā)生的例子。”
業(yè)內(nèi)普遍認為,類似 Manus 這類公司,實際上處在模型層和垂直應用層之間非常薄弱的工具層,但模型廠商和垂直廠商都容易對工具層形成擠壓,所以它的競爭優(yōu)勢會非常脆弱。
王顯表示,“ 不僅如此,雖然我是 Cursor 的長期付費會員,但也感覺到它的脆弱點很明顯。”
“ Cursor 的優(yōu)點在于交互體驗確實比較好,比如內(nèi)聯(lián)對話、上下文定位等,早期的 Cursor 可以借此獲得用戶和粘性。”
“ 但 Cursor 沒有生態(tài)綁定。而大廠比如微軟有自己的生態(tài),可以通過 Visual Studio 等工具形成綁定,再加上品牌信任度,大廠的關注度只會越來越高。或者一旦 Cloud Code、CodeX 等在大廠工具的交互層做一些優(yōu)化,Cursor 的針對性就會被稀釋。”
“ 所以,如果 Cursor 想維持優(yōu)勢,就不能只停留在交互和優(yōu)化層面,而是必須和上下游開發(fā)流程深度綁定,走向更完整的產(chǎn)品閉環(huán)。例如:針對特定編程語言、框架和行業(yè)開發(fā)場景,提供深度優(yōu)化和高精度上下文處理;綁定開發(fā)流程的全鏈路,從規(guī)劃、生產(chǎn)到測試、部署都做集成;做成快速迭代、全流程協(xié)同的工具。”
王文廣補充道,“ 大模型本身就帶來了人機交互的變革,所以當前過多探索所謂的人機交互帶來的價值不大,更重要的還是用大模型來解決實際的問題。”
資本敘事泡沫、基模公司擠壓是全行業(yè)面臨的普遍問題,但國內(nèi)實際上還面臨更多的限制。
要理解這一點,就要深入探討前面提到的國內(nèi)外 Agent 泡沫差異,在大模型和 Agent 時代,這個泡沫衍生出許多新的表象,但背后藏著不少老問題。
郭煒表示,“ 在國內(nèi)做垂直 Agent 與在國外相比,困難并不主要來自 Agent 技術本身,而是行業(yè)環(huán)境的老問題。這與做 SaaS 或軟件是同樣的邏輯。”
“ 國內(nèi)本身缺乏大型軟件公司,SaaS 發(fā)展也并不成熟,這使得軟件的整體價值感尚未充分體現(xiàn)。由于人力成本相對較低,軟件在提高效率方面的價值不夠凸顯,繼而 Agent 的價值也就難以被充分認可。”
付瑞吉表示,“ 國內(nèi)各行業(yè) SaaS 普及率低、軟件生態(tài)割裂,導致不同企業(yè)情況各不相同,使得 Agent 的開發(fā)也不得不做大量定制,開發(fā)成本高。”
郭煒補充道,“ 畢竟 Agent 并不是憑空出現(xiàn)的一種全新事物,而是原有軟件形態(tài)的延續(xù),無論是 APP、SaaS,還是其他類型的軟件。
張森森表示,“ 國外 SaaS 的理念和邏輯與中國不太一樣,更強調(diào)結果( result )和集成( integration ),注重整體集成度。特別是在北美、歐洲等地區(qū)的企業(yè),更傾向于使用成熟的 SaaS 產(chǎn)品,很少自行研發(fā),因此他們的接口基本都是通用的。”
“ 在這種情況下,國外在做 Agent 案例時更多考慮如何使用成熟的 API 協(xié)議,比如將 MCP、A2A 協(xié)議與現(xiàn)有的 ERP、CRM 進行集成,這對于他們而言成本相對較低。”
“ 國內(nèi)軟件生態(tài)更多是企業(yè)自研,而且企業(yè)與企業(yè)之間的協(xié)議差異很大,甚至同一企業(yè)內(nèi)部的協(xié)議都可能不統(tǒng)一,數(shù)據(jù)打通難度極高。在這種復雜環(huán)境下,很難做出標準化、可復制的企業(yè) Agent。即使在 A 企業(yè)驗證成功,遷移到 B 企業(yè)時也很難快速部署。所以可復制性和大規(guī)模擴展性在國內(nèi) ToB Agent 的發(fā)展中被嚴重抑制,這是目前的關鍵制約因素。”
“ 這種情況下,企業(yè)很多時候不得不重復造輪子。”
“ 目前來看,只有方法論層面的東西是可復制的,比如流程設計思路、Agent 架構方法論等。但真正落地到企業(yè)使用層面,差距依然很大。”
既然各家企業(yè)都需要大量做自研,自然大概率會走向全棧型或通用型方向,很難推出在垂直場景中做出有突出競爭優(yōu)勢的產(chǎn)品。“ 所以,相比之下,國內(nèi)更強調(diào)速度和覆蓋率,因為市場很內(nèi)卷,企業(yè)更傾向于快速占領用戶心智,并盡可能覆蓋更多場景。”
“ 或許未來隨著類似 MCP 等協(xié)議的發(fā)展,情況會逐步改善,但至少在短時間內(nèi),我個人的判斷是消極的。”
擴展到 ToB、ToC 和出海市場,則呈現(xiàn)普遍沉重的生存壓力。B 端 SaaS 基礎不足,限制了 Agent 的發(fā)展,創(chuàng)業(yè)公司無法接入生態(tài),只能轉(zhuǎn)戰(zhàn) C 端,C 端雖具傳播性和資本敘事優(yōu)勢,卻競爭激烈、留存差,因而終企業(yè)紛紛選擇出海,通過海外市場借力算力、合規(guī)與融資以謀求突圍。
張森森表示,“ 國內(nèi) B 端用戶情緒冷靜,原因在于 B 端和 C 端用戶訴求完全不同。企業(yè)采購強調(diào) ROI 要明確,流程必須可控,功能要能管控。而通用 Agent 的案例往往任務定義模糊、場景識別度低、價值難以量化,所以很難支撐持續(xù)付費。”
“ 現(xiàn)在 B 端的通用型 Agent 多半是銷售包裝出來的。你會看到很多號稱‘企業(yè)端 UI’、‘企業(yè)教育智能體’等,但真正拿到企業(yè)流程里用時,問題就暴露出來:性能穩(wěn)定性不足、合規(guī)性不過關、可追溯性差。”
“ 真正能活下來的,一定是垂直+深度集成 的方案。既要利用 Agent 的靈活性,又要在某個行業(yè)里做到合規(guī),同時結合企業(yè)的需求與機制,這樣才能真正落地。”
王顯表示,“ 但相比國外,國內(nèi)做垂直Agent是很困難的。垂直Agent要深耕某個領域做大做強,在國內(nèi)很難搞,因為要穿越各種壁壘去獲取數(shù)據(jù),但國內(nèi)金融、醫(yī)療、政務等行業(yè)的數(shù)據(jù)壁壘很高,合規(guī)審核很嚴格和復雜,即便企業(yè)愿意開放數(shù)據(jù)也要經(jīng)過多次審批和脫敏。”
付瑞吉表示,“ 在國內(nèi)獲取高質(zhì)量的垂直數(shù)據(jù)面臨諸多障礙,比如高質(zhì)量醫(yī)療數(shù)據(jù)分散于醫(yī)院而無法共享。” 這一點知危較有體會,在與多位行業(yè)內(nèi)醫(yī)療 AI 專家溝通時,經(jīng)常提到的大痛點就是數(shù)據(jù)隔離。
王顯繼續(xù)說道,“ 所以,國內(nèi)大模型的訓練速度就比國外要慢。”
“ 相比之下,國外很快就開始構建垂直 Agent。垂直領域的初創(chuàng)公司就可以直接使用 OpenAI 這種公共 API,但國內(nèi)只能私有部署大模型,速度就進一步慢下來。”
“ 甚至可以說,國內(nèi)模型廠商現(xiàn)在都主推的開源和輕量化大模型的策略,其實剛好是適應了國內(nèi)的特有情況。”
“ 更令人擔憂的是,大模型發(fā)展后期,國內(nèi)大模型的發(fā)展會面臨更加嚴峻的挑戰(zhàn),因為整體數(shù)據(jù)集質(zhì)量太差了。”
“ 其次,客戶差異、需求差異和定制化成本也比較高。”
“ 國內(nèi)的同一垂直行業(yè)的不同企業(yè),具有上述的 ToB SaaS 行業(yè)的所有缺陷,沒有統(tǒng)一的標準化接口。比如國內(nèi)的 CRM 系統(tǒng)到底有多少個?隨便在網(wǎng)上搜一下,就是成千上萬,甚至到了每家公司里面還要再定制,做私有化、二次開發(fā)。”
“ 而國外的 Agent 或垂直模型只要適配統(tǒng)一的標準化 SaaS,即可覆蓋大多數(shù)企業(yè)的業(yè)務場景。在這樣的環(huán)境下,Agent 的復制性和擴展性要比國內(nèi)高得多。”
“ 第三是大廠作風,國內(nèi)的行業(yè)生態(tài)也是封鎖的,大廠都傾向于自建。頭部企業(yè)也是自己做垂直 Agent,不會跟其他公司一起做,使得創(chuàng)業(yè)公司很難切入核心的場景,無法接入行業(yè)生態(tài)。”
“ 相比之下,國外其實有很多開放生態(tài)與第三方市場的土壤,所以小公司與中小公司是有機會去做某個垂直細分領域來生存的。”
“ 后在商業(yè)化周期上,也存在明顯差異。垂直 Agent 的特點是落地初期需要長周期的行業(yè)積累和客戶教育,本質(zhì)上是 ‘ 慢工出細活 ’。國內(nèi)投資環(huán)境,整體上缺乏耐心,更追求短期回報。這對垂直 Agent 不太友好,因為它們很難在短時間內(nèi)看到顯著的商業(yè)回報。”
“ 終,因為 ToB 的場景成本和投入太高,實現(xiàn)的可能性太低,可復制性太低,導致整個中國市場更傾向于做 ToC,而且 ToC 是容易跟資本講故事的。”
“ 但我看了一堆 ToC 產(chǎn)品,可以說沒有一個產(chǎn)品是真正能讓人持續(xù)付費訂閱的。”
而為什么國內(nèi)有很多企業(yè)在做 ToC 端的出海,甚至 Manus 把公司總部也搬遷到新加坡,也就不難理解了。
王顯表示,“ 為什么那么多企業(yè)選擇在海外做,有多個原因。”
“ 第一,國內(nèi)市場競爭壓力大。以 Manus 這類產(chǎn)品為例,國內(nèi)通用型 Agent 產(chǎn)品很容易被競爭廠商或大廠快速復制。核心功能可能在一夜之間被模仿,導致差異化難以維持。”
“ 第二,用戶群體的流失和留存。國內(nèi)用戶更容易切換到更好的同類產(chǎn)品,這是國內(nèi)市場的一個特點,即產(chǎn)品的替代成本較低。通用型 C 端 Agent 往往具有 ‘ 一次性體驗 ’ 的特征,缺乏復用價值。早期如果用戶主要來自國內(nèi),一旦競爭加劇、出現(xiàn)價格戰(zhàn),產(chǎn)品在國內(nèi)的戰(zhàn)略市場會很快消失。”
“ 第三,Manus 等公司會考慮數(shù)據(jù)隱私監(jiān)管、算力供應等方面的問題。海外算力供應條件更好,國內(nèi)算力會有 ‘ 卡脖子 ’ 問題。而且,要對標國際市場的話,新加坡無論是金融還是國際業(yè)務、跨境支付、多語言市場,都是一個比較好的紐帶,往下走可以下沉到東南亞市場,往上走可以進入歐美市場,新加坡的國際型人才資源也是比較好的。”
“ 第四,方便做融資,遷到新加坡可以降低很多海外用戶的數(shù)據(jù)安全需求。GDPR 、CCPA 等法規(guī)在新加坡對 Manus 的影響程度,肯定比在國內(nèi)要好一點。雖然新加坡在東南亞市場也有相應的數(shù)據(jù)安全法規(guī) PDPA,但也會比國內(nèi)要松一點。”
“ 第五,基礎模型的差距還是存在的。搬遷到新加坡后,可以跟 Amazon、OpenAI、Anthropic 等公司合作,更方便地使用他們的 API 服務。這些服務在國內(nèi)目前還是遠超于 DeepSeek、千問等模型 API,能形成產(chǎn)品能力的補強。”
雖然此舉可謂 “ 機智 ”,但王文廣并不認為這樣做有足夠意義,并指出了更為殘酷的未來,“ ToC 的 Agent,我認為,除了在中國和美國,其他地區(qū)毫無意義。”
“ 并且,在美國市場,通用 Agent 的生態(tài)位已經(jīng)被基礎模型廠商自己提前占據(jù)了。在中國,也很快會收斂到這個狀態(tài)。因為,ToC 的通用 Agent 的競爭力和護城河是大模型本身。”
“ 在我看來,實際上國內(nèi)外做 Agent 都很難。國內(nèi)做 Agent 更難的本質(zhì)在于,硅谷現(xiàn)在錢多,而國內(nèi)則是錢荒。”

在技術、行業(yè)限制下,往后 Agent 賽道雖然泡沫依舊,甚至還會繼續(xù)膨脹。
但長期來看,也將樹立起更加嚴苛的規(guī)則,只有順著規(guī)則走,才能繼續(xù)生存下來。
這些規(guī)則包括:在自身的行業(yè)認知內(nèi)構建 Agent,采用垂直大模型,權衡 workflow 和 Agent,聚焦核心場景,終為商業(yè)化成功鋪路。

郭煒表示,“ 在行業(yè)中做 Agent,難點不在于 Agent 的實現(xiàn)方式,因為從技術角度看,如何做 Agent 大家基本都能掌握。”
“ 無論是 To C 還是 To B,真正的 Agent 應該是在行業(yè)中具備深厚 knowhow 的也就是在該行業(yè)有豐富積累的創(chuàng)業(yè)者或公司來做,而不是簡單加一層薄殼。”
“ 比如在 To B 端的通用 Agent 場景中,例如企業(yè)內(nèi)部辦公系統(tǒng),已有在特定賽道深耕多年的企業(yè)具備天然優(yōu)勢。以飛書為例,它原本就有 Wiki,并且已經(jīng)按照體系整理并長期積累了內(nèi)容。這樣在底層上下文已經(jīng)準備好的情況下,上層無論是通過工作流還是 Agent 來進行調(diào)用和處理,都能夠更高效地完成任務。”
“這和 APP 的發(fā)展類似,之前能存活下來的 APP ,都是在新興領域和新的交互方式下,出現(xiàn)一些創(chuàng)新,顛覆了原有的 APP 和生態(tài)模式,但它的量級至少要與某個成熟 APP 相當,解決問題的場景復雜度和提供的便利程度也要相當。只有達到這種程度,才能稱為真正的 Agent,目前還沒有看到這樣的 Agent 出現(xiàn)。”
“ 如果是純粹的大模型廠商,為企業(yè)提供知識庫服務,就會面臨反向的挑戰(zhàn),需要投入大量精力將知識庫按體系分類、打好標簽。而像飛書這樣的企業(yè),早已完成了這些基礎工作,無需重復建設。”
“ 我們做 Data Agent 也是類似的情況。我們的數(shù)據(jù)系統(tǒng)本身支持 300 多種數(shù)據(jù)庫,原有的語言數(shù)據(jù)早已整理完畢,現(xiàn)在的任務是將其語義化,并讓大模型能夠理解。反觀某些廠商在做 Data Agent 時,并沒有如此豐富的數(shù)據(jù)接口和數(shù)據(jù)源,只是在上層做一層薄薄的封裝,客戶自然不會滿意,因為數(shù)據(jù)訪問受限,能力差距明顯。”
“因此,未來能夠在 Agent 領域做出成果的,很可能不是大模型廠商,而是原有的 SaaS 和工具型廠商。”

行業(yè) knowhow 不僅會直接影響企業(yè)決策者的方向,也能通過沉淀到模型中,影響產(chǎn)品每一個細枝末節(jié)的走向。
從前述 MCP 與 A2A 的實際差異,就能看出垂直場景的模型能力對于 Agent 的重要性,ToB 企業(yè)的 Agent 也確實會更加傾向于使用垂類大模型。
薛趙明表示,“ 因為ToB 會帶有很強的行業(yè)屬性,當使用的不是通用 LLM 而是行業(yè) LLM 的時候,其實反而是在降低 AI 的能力要求。在明確場景和規(guī)則下,在信息面和結果準確度上會有較大提升。 ”
張森森表示,“ 傾向使用垂類大模型的原因主要有幾個點,第一是成本優(yōu)勢。通用大模型參數(shù)量大,而垂直大模型參數(shù)量更小,推理成本更低。”
“ 第二是幻覺方面。垂類模型更精準,更貼合企業(yè)自身的生態(tài)環(huán)境。相比之下,通用大模型依賴強泛化能力,往往需要更多人工校對,增加復核成本。”
“ 第三是部署和合規(guī)的便利性。垂直大模型更容易私有化部署,更符合數(shù)據(jù)合規(guī)和隱私要求。而通用大模型通常依賴云端調(diào)用,企業(yè)會有很多顧慮,不敢使用。同時,從可控性和靈活度來看,垂類模型可以針對行業(yè)定制,比如設置 prompt、模板規(guī)則、引擎工具調(diào)用策略,從而實現(xiàn)更穩(wěn)定的響應模式。”
“ 第四,通用大模型可以通過上下文工程做一些優(yōu)化,但輸出依然存在不確定性和不可控性,所以在 ToB 產(chǎn)品中運行時會有一定風險。因此,在客服知識問答、流程自動化等場景里,垂直大模型往往更適合。做 ToB Agent時常用的策略是,讓垂直大模型覆蓋大約 80%–85% 的高穩(wěn)定性需求,確保穩(wěn)定可靠;而在剩下 15%–20% 的復雜問題上,再用通用大模型來兜底。”
從更加長期的角度來看,垂直領域肯定具備更大的商業(yè)價值,無論是直觀上的經(jīng)驗,還是從數(shù)據(jù)規(guī)模和價值評估。
郭煒表示,“ 在數(shù)據(jù)量方面,互聯(lián)網(wǎng)數(shù)據(jù)的規(guī)模遠超企業(yè)級數(shù)據(jù),差距達到幾個數(shù)量級。但從商業(yè)價值的角度看,企業(yè)級數(shù)據(jù)的含金量更高,其信息熵或信息密度和價值遠勝于互聯(lián)網(wǎng)數(shù)據(jù),因為這些數(shù)據(jù)直接關乎企業(yè)自身的經(jīng)營命脈。”
張森森補充道,“ 關于垂類數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的比較,不同人的說法不一樣。通用語料數(shù)據(jù)可能是萬億級token規(guī)模。單一的垂類數(shù)據(jù)一般在億級或百億級,不可能達到萬億級。但如果把所有行業(yè)的內(nèi)部數(shù)據(jù)加在一起,比如金融、醫(yī)療、制造等領域,總量肯定會超過通用網(wǎng)絡或通用語料數(shù)據(jù)。”
“ 但是,工業(yè)互聯(lián)網(wǎng)的數(shù)據(jù)大多是垃圾數(shù)據(jù),可用于訓練的數(shù)據(jù)很少,盡管它的總量可能比通用互聯(lián)網(wǎng)數(shù)據(jù)還多。”

當然,僅僅依靠垂直大模型是不夠的。Agent 的落地面臨一個非常考驗工程能力的問題,就是 workflow 和 Agent 的權衡取舍。
王楠表示,“ Agent 和 workflow 有顯著的差異,Agent 的核心在于利用 LLM 做決策,動態(tài)地構建 workflow。相比之下,workflow 是預先定義的、靜態(tài)的。這個區(qū)別決定了兩者適用的場景不同。”
“ workflow 由于缺乏靈活性和通用性,其實能夠解決的實際問題有限。相比之下,Agent 更加靈活、更加通用,能夠更好地解決實際生產(chǎn)環(huán)境中的復雜問題。”
張森森表示,“ 廣泛意義上,所有存在需求組合爆炸的情況,比如行程規(guī)劃、醫(yī)生排班、家政服務等,都是把 workflow 改造成 Agent 的契機。如果做的好,可以完全替代人力。”
“ 如果業(yè)務變量數(shù)量少、組合有限,可以窮舉,就可以把流程固定下來,用 workflow。如果環(huán)境靜態(tài)或變化可預期,也可以把流程固定下來,用 workflow。但如果變化維度非常多,比如幾百個維度同時在變化,再用 workflow 設計、測試和維護,成本會急劇上升,這時就需要人工決策,或 Agent 的自主規(guī)劃能力。另外,當環(huán)境頻繁變化,比如航班延誤、庫存波動,Agent 可以根據(jù)上下文實時調(diào)整決策,避免預設流程失效。這時就需要自主 Agent。”
“ 因此,是否用 workflow 或 Agent,要從成本、計算調(diào)用和維護成本來考量,特別是在運行環(huán)境復雜多變的情況下。”
但在大模型幻覺問題無法完全解決,以及 Agent 當前智能有限的限制下,想要一蹴而就實現(xiàn)理想決策是不可能的,何況 workflow 具有更高的確定性,這對于企業(yè)而言非常重要。
郭煒表示,“ 這也是行業(yè) knowhow 要發(fā)揮作用的地方,決策者需要在復雜系統(tǒng)中權衡哪些部分使用固定的工作流,哪些部分進行適當 Agentic 化。”
張森森表示,“ Agent 的落地依賴于固有流程,適合的是小規(guī)模的局部 workflow 改造。流程高度標準化、數(shù)據(jù)流轉(zhuǎn)路徑清晰、任務有明確輸入輸出,這些都是 Agent 落地的佳條件。Agent 的作用不是推翻重來,而是嵌入線性流程,做局部改造。這可以理解為 ‘ 低摩擦的軌道 ’,標準化流程本身就是低摩擦的軌道。”
王文廣表示,“ 選擇高價值、數(shù)據(jù)豐富、流程清晰、且允許一定容錯( 或易于監(jiān)督 )的業(yè)務環(huán)節(jié),有助于 Agent 成功落地。”
張森森舉例解釋道,“ 比如,金融行業(yè)數(shù)字化水平較高,流程標準化程度很高,因此是 Agent 落地的非常好場景。”
“ 金融行業(yè)過去在風控、投研、合規(guī)等環(huán)節(jié)已經(jīng)有智能化的應用,而 Agent 在這些環(huán)節(jié)里主要作為輔助模塊嵌入,而不是取代整個業(yè)務系統(tǒng)。例如:銀行在貸款審批環(huán)節(jié)使用 Agent 做資料自動提取,在合規(guī)環(huán)節(jié)做條款比對,在合同、財報數(shù)據(jù)處理中提取資料并輸出審批結論、風險標簽。這些環(huán)節(jié)的輸入輸出是固定的,比較容易嵌入 Agent。”
“ 如果考慮風險因素,在一些風險高但流程完全可控的場景,比如金融交易、醫(yī)療診斷,即便變量很多,也可以在 workflow 基礎上引入半自動化或部分 Agent。這類場景對風險的容忍度低,更適合 workflow+Agent 的模式。但在一些風險容忍度較高的場景,比如旅行規(guī)劃,就可以直接用 Agent,而不需要依賴 workflow。”
進一步看,Agent也分兩種,工作流式的和自主式的,“ 工作流式的 Agent 是把執(zhí)行規(guī)劃固定下來,流程相對可控。非工作流式的 Agent則可以做自主規(guī)劃和執(zhí)行,能自動調(diào)用工具( tool use )與編排,能動態(tài)更新上下文,處理長尾和個性化需求。”
王楠補充道,“ 例如,只有檢索-生成的 RAG 系統(tǒng),就是典型的工作流式 Agent,而具有反思和可以使用搜索工具的 Deep Research 或 Agentic search 就是自主式Agent。”
從投資人視角,當前并不看好自主式的 Agent,短期也是更看好工作流式的垂直領域 Agent,張森森表示,“ 因為這類 Agent 在風險回報和落地速度上更有優(yōu)勢,所以這種傾向是合理的。”
付瑞吉表示,“ 在當前的發(fā)展階段,workflow 型 Agent 更切合實際。基于強化學習的自主式 Agent 還需要更長時間的探索,也許要等前者的廣泛應用,為后者的訓練提供大量數(shù)據(jù)后,才能真正普及。”
而在實際工程權衡下,企業(yè)可能還會更加實在,郭煒表示,“ 幻覺控制非常重要,尤其是在 ToB 場景中。用戶真正關心的是結果,并不在乎是通過哪種技術路徑實現(xiàn)的,無論是 RAG、Agent + RAG,還是僅用 Agent。 因此未來的模式更可能是 ‘ Agent + RAG + 傳統(tǒng) workflow( 或 RPA )’ 的組合。”
“ 這種模式能夠在保證確定性的前提下,結合利用大模型和 Agent 處理與人的交互,以及理解用戶意圖。”
“ Agent 的主要作用是進行分工決策,確定由哪個 Agent 執(zhí)行任務,以及向其提供哪些信息。但在實際執(zhí)行階段,往往是由 workflow 來完成的,甚至不一定涉及 RAG。既然幻覺無法解決,那就盡量不用。 ”
張森森也認為,這是一個非常務實的方案,“ 目前企業(yè)里大多也是這樣在用。”
郭煒繼續(xù)解釋道,“ 之所以如此分工,是因為意識到,大模型和Agent在場景中解決的重要問題應該是交付。”
“ 多數(shù)情況下,人們很難準確表達自己的需求,需要通過與大模型多輪溝通,逐步明確 ‘ 到底想要什么 ’,傳統(tǒng)軟件和 SaaS 無法完成這種深度、多輪、滲透式的需求挖掘。這一能力在 To C 和 To B 場景中都同樣重要。從個人感受來看,相對于傳統(tǒng)搜索,效率提升至少是幾倍的。”
“ 目前,大多數(shù) Agent 更適合應對一些原本套路化、工程化、重復性較強的任務,并在交互上發(fā)揮更大價值,例如與客戶對話、深入了解需求,并在此基礎上設計完整的解決思路,然后生成 RAG 或 workflow 來執(zhí)行。”
據(jù)此,郭煒認為,未來 Agent 的發(fā)展將分為兩個階段。
第一階段,解決原本由垂直領域工具服務的業(yè)務場景,只有在這些場景中做到更高的便利性、更明顯的痛點解決,Agent 才能真正興起。 “ 畢竟 Agent 繼承自原有 SaaS 軟件形態(tài),只不過在交互方式和技術能力上有了新的突破。”
第二階段,在足夠深入落地場景后,需要找到創(chuàng)新的切入點。“ 就像當年同樣是做新聞,今日頭條找到了全新的切入方式一樣。”
“ 目前國內(nèi)外并沒有滿足以上兩點的 Agent 應用。”
薛趙明表示,“ 當前行業(yè)中的 Agent 產(chǎn)品,在人機交互方面依然很差。OpenAI 也提出了 2025 年是上下文工程的元年,交互能力本質(zhì)上是上下文理解能力。當然這里面也存在路線之爭,比如是更多依賴用戶的上下文,還是讓模型自己來解決。”

“ 第一,跨系統(tǒng)任務編排與自動化。例如把 ERP、CRM、知識庫、工單等業(yè)務系統(tǒng)通過自然語言連接起來。目前很多 Agent 只能做到對話式查詢,沒有形成完整的自動化執(zhí)行鏈條。所以缺乏可視化編排和審批機制,企業(yè)不敢放心交付關鍵任務。”
“ 第二,高可信度的知識問答與決策。目前企業(yè)內(nèi)部大多數(shù) Agent 平臺做的還是 ‘ 文檔搜索 + 大模型總結 ’。問題是沒有引用和溯源機制,沒有版本控制,沒有訪問權限分級。結果是表面上大家轟轟烈烈做了一堆 Agent,看起來很好,但終根本無法真正投入使用。”
“ 后,也是重要的,就是 Data Agent( 以前叫 ChatBI )。核心能力包括半自動或全自動的數(shù)據(jù)分析與報告生成;理解企業(yè)內(nèi)部 BI 系統(tǒng)的數(shù)據(jù)模型;自動編寫 SQL,或調(diào)用數(shù)據(jù)分析 API;輸出可視化報表或業(yè)務報告等。”
“ 但現(xiàn)狀是很多產(chǎn)品只做到了 ‘ 表格分析 + 自然語言生成表格 ’,生成的數(shù)據(jù)需要巨量人工校對,往往 ‘ 要了半條命 ’,成本極高,嚴重影響實用性。”
“ 在這些場景應用里,都需要訓練或定制垂直化模型。因為企業(yè)內(nèi)部有自己的語言體系( 行業(yè)黑話、內(nèi)部術語等 )、業(yè)務生態(tài)( 跨部門協(xié)作的專屬邏輯 )、流程規(guī)范( 審批鏈條、合規(guī)規(guī)則等 )、知識沉淀( 文檔、數(shù)據(jù)、經(jīng)驗庫等 )。”
郭煒介紹道,“ 在 Data Agent 場景中,傳統(tǒng)的 ETL 操作非常繁瑣,需要大量人工拖拽配置。而通過 Data Agent,可以快速獲取企業(yè)底層數(shù)據(jù),不僅限于簡單的 Chat BI 查詢,而是能夠直接訪問更底層、更原始的數(shù)據(jù),從而顯著提升處理效率。”
“ 目前市面上大多數(shù)所謂的 Data Agent,本質(zhì)上只是將傳統(tǒng)的 BI 或數(shù)據(jù)倉庫加了一個 ‘ Chat BI ’ 式交互外殼,并未實現(xiàn)數(shù)據(jù)在語義層面的深度轉(zhuǎn)化,仍停留在 ‘ 玩具 ’ 階段,而多數(shù)客戶此時只是抱著 ‘ 嘗鮮 ’ 的心態(tài)進行試用。這種模式無法充分釋放數(shù)據(jù)價值,也難以支撐真正的 Agent 生態(tài)。”
“ 要實現(xiàn)理想的 Data Agent 架構,主要面臨兩大挑戰(zhàn)。”
“ 第一,數(shù)據(jù)底層處理的復雜性。底層系統(tǒng)存在成千上萬種不同的數(shù)據(jù)源,要將其中的數(shù)據(jù)轉(zhuǎn)化為可被大模型理解的上下文,是一項繁重且復雜的工作。大模型本身無法直接完成這些‘臟活累活’,這需要長期的積累與專業(yè)的處理能力。”
“ 第二,數(shù)據(jù)交互與轉(zhuǎn)化。必須充分利用大模型的交互能力,讓其具備推理和語言處理的能力,并將需求轉(zhuǎn)化為對底層數(shù)據(jù)的精確調(diào)用。這要求在上層的自然語言需求與底層數(shù)據(jù)結構之間建立高效、準確的映射,這同樣是一個高難度的技術挑戰(zhàn)。”
“ 未來的目標是讓用戶能夠通過自然語言快速完成任務,甚至無需自然語言輸入,只需提供所需的 SQL 或數(shù)據(jù)描述,系統(tǒng)就能自動生成完整的 workflow。這類功能能夠真正解決用戶的痛點問題。”
“ Agent 產(chǎn)品只有能解決這一類核心場景的問題,企業(yè)才會對其有付費意愿,并推動大規(guī)模部署。”

”
“ 第一,跨系統(tǒng)任務編排與自動化。例如把 ERP、CRM、知識庫、工單等業(yè)務系統(tǒng)通過自然語言連接起來。目前很多 Agent 只能做到對話式查詢,沒有形成完整的自動化執(zhí)行鏈條。所以缺乏可視化編排和審批機制,企業(yè)不敢放心交付關鍵任務。”
“ 第二,高可信度的知識問答與決策。目前企業(yè)內(nèi)部大多數(shù) Agent 平臺做的還是 ‘ 文檔搜索 + 大模型總結 ’。問題是沒有引用和溯源機制,沒有版本控制,沒有訪問權限分級。結果是表面上大家轟轟烈烈做了一堆 Agent,看起來很好,但終根本無法真正投入使用。”
“ 后,也是重要的,就是 Data Agent( 以前叫 ChatBI )。核心能力包括半自動或全自動的數(shù)據(jù)分析與報告生成;理解企業(yè)內(nèi)部 BI 系統(tǒng)的數(shù)據(jù)模型;自動編寫 SQL,或調(diào)用數(shù)據(jù)分析 API;輸出可視化報表或業(yè)務報告等。”
“ 但現(xiàn)狀是很多產(chǎn)品只做到了 ‘ 表格分析 + 自然語言生成表格 ’,生成的數(shù)據(jù)需要巨量人工校對,往往 ‘ 要了半條命 ’,成本極高,嚴重影響實用性。”
“ 在這些場景應用里,都需要訓練或定制垂直化模型。因為企業(yè)內(nèi)部有自己的語言體系( 行業(yè)黑話、內(nèi)部術語等 )、業(yè)務生態(tài)( 跨部門協(xié)作的專屬邏輯 )、流程規(guī)范( 審批鏈條、合規(guī)規(guī)則等 )、知識沉淀( 文檔、數(shù)據(jù)、經(jīng)驗庫等 )。”
郭煒介紹道,“ 在 Data Agent 場景中,傳統(tǒng)的 ETL 操作非常繁瑣,需要大量人工拖拽配置。而通過 Data Agent,可以快速獲取企業(yè)底層數(shù)據(jù),不僅限于簡單的 Chat BI 查詢,而是能夠直接訪問更底層、更原始的數(shù)據(jù),從而顯著提升處理效率。”
“ 目前市面上大多數(shù)所謂的 Data Agent,本質(zhì)上只是將傳統(tǒng)的 BI 或數(shù)據(jù)倉庫加了一個 ‘ Chat BI ’ 式交互外殼,并未實現(xiàn)數(shù)據(jù)在語義層面的深度轉(zhuǎn)化,仍停留在 ‘ 玩具 ’ 階段,而多數(shù)客戶此時只是抱著 ‘ 嘗鮮 ’ 的心態(tài)進行試用。這種模式無法充分釋放數(shù)據(jù)價值,也難以支撐真正的 Agent 生態(tài)。”
“ 要實現(xiàn)理想的 Data Agent 架構,主要面臨兩大挑戰(zhàn)。”
“ 第一,數(shù)據(jù)底層處理的復雜性。底層系統(tǒng)存在成千上萬種不同的數(shù)據(jù)源,要將其中的數(shù)據(jù)轉(zhuǎn)化為可被大模型理解的上下文,是一項繁重且復雜的工作。大模型本身無法直接完成這些‘臟活累活’,這需要長期的積累與專業(yè)的處理能力。”
“ 第二,數(shù)據(jù)交互與轉(zhuǎn)化。必須充分利用大模型的交互能力,讓其具備推理和語言處理的能力,并將需求轉(zhuǎn)化為對底層數(shù)據(jù)的精確調(diào)用。這要求在上層的自然語言需求與底層數(shù)據(jù)結構之間建立高效、準確的映射,這同樣是一個高難度的技術挑戰(zhàn)。”
“ 未來的目標是讓用戶能夠通過自然語言快速完成任務,甚至無需自然語言輸入,只需提供所需的 SQL 或數(shù)據(jù)描述,系統(tǒng)就能自動生成完整的 workflow。這類功能能夠真正解決用戶的痛點問題。”
“ Agent 產(chǎn)品只有能解決這一類核心場景的問題,企業(yè)才會對其有付費意愿,并推動大規(guī)模部署。”
總體來看,未來在 Agent 這個賽道,無論是ToC方向還是ToB方向,都還有很長的路要走。
王顯總結道,“ 當前整體氛圍上,大家還是想賺一波快錢。這其實是一個多贏局面,即資本方想賺快錢,企業(yè)等多方機構也希望幫自己講一個AI的故事。”
“ 對于個人,在這個氛圍影響下,就進入焦慮模式了,好像離開 AI 就不能活了,然后大家接下來就拼命地把工作跟 AI 結合起來。當然,這只是小贏,絕對不是大贏。等這輪泡沫消退、企業(yè)熱度過去之后,大家會更加冷靜地看待。我估計還需要一到兩年時間。”
對于 ToC 賽道整體,張森森認為,“ 目前消費級通用 Agent 基本只能靠融資續(xù)命,商業(yè)化路徑還沒有跑通。”
那么,創(chuàng)業(yè)公司還能如何抓住機會呢?
關于創(chuàng)業(yè)方向選擇,目前有一個理論是 “ 補足大模型的后一公里 ”,比如等醫(yī)療、法律等流程做到 95 分的時候,讓大模型接手替代人。
這或許是當前的創(chuàng)業(yè)取巧之選或大型企業(yè)的無奈之舉,王文廣認為,“ 這個選擇對于創(chuàng)業(yè)公司并不性感,就像外賣和快遞員,但總會有人做的。”
王楠表示,“ 現(xiàn)在的確是創(chuàng)業(yè)的一個黃金期,但方向選擇未必一定是不足后一公里,也許是不足后 10 公里,也許是大模型生態(tài)中的一環(huán)。大模型接受替代人并非要人做到 95 分,再由 AI 接替。也可以是人已經(jīng)處理的很好的任務,完全交給AI處理,比如對比價格、情感陪伴或者做AI教師。這里的價值在于 AI 讓人的能力能夠 scale。也可是人無法處理好的任務,比如寫研報、寫代碼。”
“ 我會建議創(chuàng)業(yè)者去思考什么場景下 AI 能夠做到十倍以上的效率提升。”
王楠還認為,創(chuàng)業(yè)公司仍然需要依靠速度構建護城河,同時也要認真做產(chǎn)品。比如 Genspark 在其產(chǎn)品中引入的改進策略包括:引入專業(yè)數(shù)據(jù)源、并行搜索、多代理交叉驗證、專家審核內(nèi)容、使用離線Agent確保準確性,并通過先發(fā)優(yōu)勢掌握了大量數(shù)據(jù)。“ Genspark的策略基本上是市面上認真做做 Agentic Search 和 Deep Research 產(chǎn)品的公司普遍的做法。對于 Genspark 和 Perplexity 這樣的公司,主要市場還是在通用搜索,所以掌控數(shù)據(jù)和搜索能力是自然的選擇。和傳統(tǒng)的搜索巨頭相比,在產(chǎn)品迭代速度和執(zhí)行力方面的也是創(chuàng)業(yè)公司的優(yōu)勢。再加上大模型能力和時代浪潮的加持,我們會看到更多的小公司快速崛起,分走大公司的蛋糕。”
AI創(chuàng)業(yè)者李峰則認為,“ 技術層面,ToC 的 Agent 的護城河是大模型本身。要與 ChatGPT 競爭,首先要有一個跟 ChatGPT 匹敵或超越的大模型,顯然,Manus 沒有。要避開競爭,就只能在場景層做小做精,選擇一個或幾個核心場景,做到極致的可靠和高效,這才會有長期的機會。”
“ 工程層面,Genspark 確實真正在做落地的事情,并基于它所接觸的需求,構建了一套高度復雜、精心編排的隱性工作流系統(tǒng)。它們正在利用先發(fā)優(yōu)勢來快速構建并完善這個復雜系統(tǒng),從而形成事實上的護城河。設計、實現(xiàn)并調(diào)優(yōu)這樣一個包含眾多模型、工具和數(shù)據(jù)源的復雜工作流系統(tǒng),需要巨大的工程投入和時間。”
“ 即使基礎模型公司要做好,也需要同樣的工作。如果這個隱性工作流系統(tǒng)足夠復雜,那就能夠形成一定的競爭優(yōu)勢。”
張森森則認為,應用層的 Agent 創(chuàng)業(yè)公司,更容易從長尾產(chǎn)品入手。“ 寫作、辦公、搜索等主流場景,幾乎被大廠牢牢占據(jù),小公司很難在算力、數(shù)據(jù)、生態(tài)上正面競爭。而長尾場景雖然用戶規(guī)模小,但需求獨特、痛點尖銳。用戶在高痛點的情況下,對解決方案的不完美有更高容忍度。哪怕只是部分緩解,也能讓用戶感到價值明顯。”
“ 只要能解決關鍵問題,就能迅速形成用戶粘性。 而且長尾方案能夠形成更強壁壘。因為這些場景需要結合高度專業(yè)化的數(shù)據(jù),甚至涉及內(nèi)部流程和工具,沉淀出的知識和技術很難被通用模型復制。經(jīng)過長期迭代,還能向相似場景擴散,逐步形成護城河。”
“ 比如 Figma,它早并不是做 UI 設計的,而是解決了一個非常強的痛點:在線協(xié)作,再擴展到高頻的設計需求,終發(fā)展成行業(yè)龍頭。Zoom 也是類似的路徑,它初的產(chǎn)品需求是解決高質(zhì)量視頻傳輸?shù)膯栴},先在這個點上做深度優(yōu)化,然后才逐步擴展,終進入并占領了通用的會議市場。”
“ 當然,如果只是單純做一個 Agent,是一定沒有機會的。只是在技術或通用功能上去卷,就很容易被別人替代或干掉。”
后,回到 Agent 泡沫本身,基于科技行業(yè)發(fā)展普遍規(guī)律,還是需要更加辯證地看待其存在意義。
郭煒認為,Agent 泡沫確實客觀存在,但實際上還不夠多,“ 畢竟對于 SaaS 軟件和日常使用的 APP,還有大量的功能尚未實現(xiàn)。要真正把 Agent 做起來,還需要更多的泡沫推動,才能發(fā)展成熟。這也是早就存在的規(guī)律,每個新興的創(chuàng)新領域在初期都會有大量資本驅(qū)動,后才會有少數(shù)創(chuàng)業(yè)公司和想法存活下來。”
薛趙明表示,“ Agent 泡沫的存在是一定的。從遠古的 NLP 階段或人工智障時代,到 ChatGPT 時代,再到如今 AI 具備推理和工具使用能力的當下,雖然 AI 的更新很快,但是從事物的歷史發(fā)展周期來說,當下還處在較為早期的階段,這個階段的特性就是泡沫橫生,大家都在嘗試做一些突破。特別是現(xiàn)在更多的投資還是比較前期的天使輪或者 A 輪,因此必然是一個 ‘ 百團大戰(zhàn) ’ 階段。”
王文廣表示,“ 這是所有顛覆性的新技術出現(xiàn)的必然過程,國內(nèi)外沒有什么不同。具體來說,新技術的應用一定會經(jīng)歷泡沫化,然后是幻滅與出清,緊隨其后的長期、務實的滲透與融合。現(xiàn)在還是泡沫化的階段,幻滅才有點苗頭,出清還早。”
“ 關于 Agent 是否真正解決問題大家還無暇顧及,但必須先做起來,搶投資搶市場。”
“ 畢竟需要在這個市場活的足夠久,才能找到 ‘ 在某個特定行業(yè)中,存在一個什么樣的高價值、長期未被解決的難題?’、‘ AI Agent 的技術能否為這個問題提供一個全新的、比現(xiàn)有方案好 2 倍或者 10 倍的解法?’ 等問題的答案。”
“ 這與 ‘ 先做起來 ’ 并不完全是矛盾的。”
“ 但從長遠看,唯有這種從真實、深刻的行業(yè)痛點出發(fā)的思考,才能找到真正有價值且具有護城河的落地場景。”
“ 現(xiàn)有的所謂的智能體的洗牌,應該會在接下來的三五年內(nèi)出現(xiàn)。”
“ 整個行業(yè)終究將向著無處不在的 Agent 時代邁進。所以,不管怎么活著( 靠融資活著也是一種很好的活法 ),能夠或者走向未來就是重要的。未來有什么潛在的突破口,現(xiàn)在的你我都不知道,但只有活著走到那個時候,才有機會。”
面向更長遠的未來,郭煒展望道,“ 未來,Agent 會非常普遍,幾乎所有軟件和 APP 都會嵌入模型,成為某種形式的 Agent。這并不局限于替代特定場景,而是整體向 Agent 化演進。”
“ 從各專業(yè)領域的 Agent 都已出現(xiàn)并且運行良好,再基于此形成入口級 Agent,這一過程可能需要 5 到 10 年。 在此之前,專業(yè)領域的專業(yè)型 Agent 將率先落地并發(fā)揮作用。”
王文廣則提醒道,“ 在 AGI/ASI 真正到來之前,請注意,AGI 或 ASI 到來之前是個前提,基于大模型的智能體的的勝利,極大概率并不屬于那些試圖用一個通用 Agent 解決所有問題的 ‘ 平臺 ’ 公司,而屬于那些能將 Agent 作為一種能力與業(yè)務深度融合開發(fā)出該領域具備智能決策和自然語言交互的專業(yè)軟件的公司。”
泡沫并非一定是壞事,真正的長期主義者反而能借助泡沫來生長。但唯有回答 “ 為誰而作、在何處用、以何種方式穩(wěn)態(tài)運行 ”,才足以穿越喧囂,走進可復用的現(xiàn)實。
本文鏈接:http://www.yifxia.cn/showinfo-17-184536-0.html幾乎都在掛羊頭賣狗肉!AI Agent泡沫實在太大了
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com