阿里開源「零搜索」技術 訓練成本直降88% 準確度超Google搜索
▲阿里巴巴達摩院研究團隊發表於arXiv的論文原文「零搜索」技術打破依賴科技巨頭的API經濟模式,開發者可精準控制訓練數據質量。目前開原始碼已登陸GitHub和Hugging Face平台,涵蓋Qwen-2.5、LLaMA-3.2等主流架構,支持基礎版和指令微調版模型。初創企業可用四塊A100顯卡搭建高精度訓練環境。在包含NQ、TriviaQA、PopQA、HotpotQA等七大主流問答數據集的綜合測評中,基於「零搜索」技術訓練的140億參數大模型不僅搜索準確率力壓Google,更實現訓練成本直降近九成。▲arXiv論文原文中的七大主流問答數據集的綜合測評圖表據VentureBeat今天報道,原本需要調用商業搜尋引擎API的586.70美元(折合人民幣約為4240.74元)開銷,如今僅需70.80美元(折合人民幣約為510.17元)即可完成同等量級訓練任務。這項創新讓AI模型在「自我模擬」(self-simulated)中獲得出類似搜索搜尋引擎的檢索能力。一、 「零搜索」 技術成本大降超八成,性能超越Google搜索研究人員使用SerpAPI調用Google搜索服務作為對照組,通過模擬傳統AI訓練流程中調用商業搜尋引擎API的場景,與「零搜索」技術方案進行成本對比。研究人員測算,使用SerpAPI調用Google搜索處理約6.4萬次查詢,成本約為586.70美元(約合人民幣為4228.82元);而在四塊A100 GPU上運行14B參數的大語言模型,僅需70.80美元(折合人民幣約為510.43元),節省幅度高達88%。據TechCrunch 2024年11月報道,從目前存在的一些公開信息透露,SerpAPI旨在幫助開發者繞過複雜的網頁解析流程,SerpAPI能通過API調用獲取Google、Bing、百度等主流搜尋引擎的搜索結果數據。SerpAPI的實際企業用户包括Jasper.ai、Copy.ai等AI初創公司,這些企業通過API接口獲取實時搜索結果訓練對話系統,但具體成本數據未被披露。二、阿里大模型能生成擬真文檔,較GoogleAPI節省88%開支阿里巴巴的研究團隊發現,經過海量預訓練的大模型已具備擬真文檔生成能力。通過監督微調將大語言模型轉化為檢索模塊,能按需生成相關或無關文檔組合。在強化學習階段,系統通過漸進式降低生成文檔質量的「教學方案」,迫使模型持續優化檢索精度,形成自主進化閉環。據VentureBeat今天報道,在TriviaQA等7個主流問答數據集測試中,基於通義千問2.5、LLaMA3.2等架構的模在數學視覺推理測試中得分超過OpenAI o1,展現了強大的圖形與數學結合的分析能力。14B參數模型在事實準確性指標上超越Google搜索2.3個百分點,7B模型與商業引擎持平。相同訓練量下模擬方案較Google搜索API節省88%開支。結語:「零搜索」技術推動AI產業進入低成本自主進化階段阿里巴巴達摩院的突破可能是AI訓練範式的重要轉折。當大模型能在封閉系統內模擬現實世界的信息交互,用户得以擺脱對外部服務的依賴,這對數據安全、訓練可控性及技術民主化或具有深遠意義。從行業發展趨勢來看,「零搜索」技術有望對AI開發價值鏈產生深遠影響。隨着自模擬技術成熟,未來,或將湧現更多AI訓練方案,推動產業進入低成本自主進化的新階段。 ...
PC:
https://www.cnbeta.com.tw/articles/soft/1498578.htmMobile:
https://m.cnbeta.com.tw/view/1498578.htm