大主宰天蚕土豆小说,我欲封天耳根小说

聲明:本文來自于（ID:ykqsd.com）授權(quán)轉(zhuǎn)載發(fā)布。

3月10日最新消息，如今開發(fā)人工智能的門檻已降至歷史最低點(diǎn)。盡管開發(fā)人工智能的門檻降低讓開發(fā)者倍感振奮，但這一趨勢(shì)并非全是利好消息。隨著開發(fā)成本降至最低點(diǎn)，大科技公司對(duì)基礎(chǔ)模型的巨額投資必須得到合理的解釋。

下面是該內(nèi)容的翻譯版本：

構(gòu)建一家人工智能公司究竟需要投入多少資源？隨著大語言模型的研發(fā)成本不斷下降，這個(gè)數(shù)字每天都在減少。

人工智能領(lǐng)域的算力成本持續(xù)下降，此外，還有一種低成本訓(xùn)練優(yōu)質(zhì)大模型的"模型蒸餾技術(shù)"正在迅速普及。新興的低成本開發(fā)技術(shù)讓AI開發(fā)者感到鼓舞，但這一趨勢(shì)也引發(fā)了部分企業(yè)的擔(dān)憂。這項(xiàng)歷史悠久的技術(shù)如今正被賦予新的價(jià)值：對(duì)大多數(shù)用戶來說，這是一項(xiàng)福音；但對(duì)于特定群體而言，這則意味著一項(xiàng)復(fù)雜挑戰(zhàn)；而對(duì)人工智能的未來發(fā)展而言，則具有深遠(yuǎn)意義。

蒸餾技術(shù)解構(gòu)

人工智能開發(fā)者和專家指出，蒸餾技術(shù)的核心在于利用一個(gè)模型提升另一個(gè)模型。具體來說，就是讓一個(gè)較大的"教師"模型生成應(yīng)答和推理路徑，再讓一個(gè)較小的"學(xué)生"模型模仿其行為模式。

據(jù)悉，中國(guó)公司DeepSeek（深度求索）以約500萬美元的成本訓(xùn)練出了一款與OpenAI抗衡的模型，這一消息在業(yè)內(nèi)引發(fā)軒然大波。該消息引發(fā)市場(chǎng)的擔(dān)憂，因?yàn)橛欣碛蓳?dān)心芯片需求會(huì)下降，英偉達(dá)的市值因此下跌了6000億美元（但這一預(yù)測(cè)尚未證實(shí)）。

加州大學(xué)伯克利分校的研究團(tuán)隊(duì)今年1月發(fā)布了一項(xiàng)研究，表明他們僅花費(fèi)不到1000美元的算力成本就訓(xùn)練出了兩個(gè)新模型。今年2月，斯坦福大學(xué)、華盛頓大學(xué)以及艾倫人工智能研究所的研究人員更進(jìn)一步，僅用更低成本就訓(xùn)練出一個(gè)可用的推理模型。

這些突破都得益于蒸餾技術(shù)。

這項(xiàng)技術(shù)常與微調(diào)技術(shù)（fine-tuning）結(jié)合使用，能以遠(yuǎn)低于其他方法的成本在訓(xùn)練階段提升模型性能。開發(fā)者通常會(huì)利用這兩種技術(shù)賦予模型特定的專業(yè)知識(shí)或技能。例如，可以將Meta開發(fā)的通用基礎(chǔ)模型蒸餾成精通美國(guó)稅法的專家系統(tǒng)；或者利用DeepSeek的R1推理模型對(duì)Llama進(jìn)行蒸餾，從而增強(qiáng)后者在生成答案需要更長(zhǎng)時(shí)間時(shí)的推理能力，讓其在逐步展示推理過程時(shí)顯得更加自然。

美國(guó)知名半導(dǎo)體分析機(jī)構(gòu)SemiAnalysis的分析師在今年1月發(fā)布的報(bào)告中指出："R1模型中最引人注目的部分，可能就在于通過推理能力模型的輸出對(duì)一些非推理能力的小模型進(jìn)行微調(diào)，使其轉(zhuǎn)變?yōu)榫邆渫评砟芰Φ哪Ｐ汀?

雖然R1模型在價(jià)格上具有優(yōu)勢(shì)，但DeepSeek將其作為"教師"，發(fā)布了其他開源模型的蒸餾版本。值得注意的是，DeepSeek的全尺寸模型和Llama的最大規(guī)模模型實(shí)在太大，只有特定配置的硬件能夠支持其運(yùn)行。而蒸餾技術(shù)為解決這一問題提供了新的思路。圖靈資本合伙人薩米爾·庫馬爾表示："經(jīng)過蒸餾后的模型體積更小、參數(shù)更少，內(nèi)存占用也更低，甚至可以在手機(jī)或邊緣設(shè)備上運(yùn)行。"

DeepSeek的這一突破性進(jìn)展在于，經(jīng)過蒸餾后的模型性能并未因規(guī)?？s減而下降，反而有所提升。

蒸餾技術(shù)并非新興概念，卻已悄然發(fā)生了質(zhì)的蛻變。

蒸餾技術(shù)最早出現(xiàn)在2015年，源于谷歌人工智能先驅(qū)杰夫·迪恩、杰弗里·辛頓以及谷歌DeepMind研究副總裁奧里奧爾·維尼亞爾斯共同撰寫的一篇論文。維尼亞爾斯最近透露，該論文曾被NeurIPS頂級(jí)會(huì)議拒稿，理由是該技術(shù)"對(duì)領(lǐng)域的影響有限"。令人驚訝的是，經(jīng)過近十年的發(fā)展，蒸餾技術(shù)已成為AI討論的核心議題。與過去相比，如今蒸餾技術(shù)的威力提升源于可用作教師模型的開源模型數(shù)量與質(zhì)量的大幅提升。IBM LLM Granite技術(shù)管理總監(jiān)凱特·索爾在播客中指出："DeepSeek通過MIT許可開源迄今最強(qiáng)大的模型，實(shí)質(zhì)上正在侵蝕各大廠商守護(hù)核心模型的緊閉大門。"

蒸餾技術(shù)的應(yīng)用邊界方面，索爾提到，在Hugging Face平臺(tái)上充斥著諸如Meta Llama和阿里巴巴Qwen等傳統(tǒng)模型的蒸餾版本。實(shí)際上，Hugging Face平臺(tái)上約150萬個(gè)模型中，有3萬個(gè)名稱中帶有"distill"字樣，這通常表明它們經(jīng)過了蒸餾。然而，目前尚無蒸餾模型進(jìn)入Hugging Face的榜單前列。正如實(shí)體店里的一元店，蒸餾技術(shù)雖具有頂尖的性價(jià)比，但可選范圍有限且存在缺陷：專精某項(xiàng)任務(wù)的蒸餾模型在其他領(lǐng)域的表現(xiàn)可能會(huì)弱化。

蘋果公司的研究人員曾嘗試構(gòu)建"蒸餾擴(kuò)展定律"，通過教師模型的規(guī)模、目標(biāo)模型規(guī)模和算力投入等參數(shù)預(yù)測(cè)蒸餾效果。他們發(fā)現(xiàn)，在特定條件下，當(dāng)使用高質(zhì)量的教師模型時(shí)，蒸餾效果優(yōu)于傳統(tǒng)的監(jiān)督學(xué)習(xí)方法，但當(dāng)教師模型過大時(shí)，性能提升將停滯。

盡管如此，這一技術(shù)仍有助于縮短從概念到原型的距離，普遍降低人工智能創(chuàng)業(yè)門檻。然而，多位人工智能專家強(qiáng)調(diào)，這種捷徑并不否定昂貴基礎(chǔ)模型的必要性，但卻是動(dòng)搖了大模型廠商的盈利前景。

基礎(chǔ)模型還有出路嗎？英偉達(dá)首席執(zhí)行官黃仁勛在最新財(cái)報(bào)發(fā)布后接受采訪時(shí)表示："如今全球幾乎所有AI開發(fā)者都在使用DeepSeek的R1來蒸餾新模型。"蒸餾技術(shù)帶來了機(jī)遇，但也對(duì)像OpenAI和Anthropic這樣的公司構(gòu)成威脅，可能會(huì)遭到他們的對(duì)抗。云平臺(tái)Hyperbolic聯(lián)合創(chuàng)始人張杰表示："我認(rèn)為基礎(chǔ)模型將會(huì)越來越趨于同質(zhì)化。預(yù)訓(xùn)練模型的能力存在天花板，我們正逼近這個(gè)極限。"張杰認(rèn)為，大語言模型巨頭的出路在于打造受歡迎的產(chǎn)品而非模型本身，這或許解釋了Meta選擇部分開源Llama模型的戰(zhàn)略考量。

此外，基礎(chǔ)模型公司還可以采用更激進(jìn)的策略。匿名的谷歌DeepMind研究員表示，具備推理能力的模型可以通過隱藏推理步驟或"痕跡"來防止被蒸餾。雖然OpenAI在大型o1推理模型中隱藏了完整的推理路徑，但新發(fā)布的o3-mini版本則展示了這些信息。特朗普政府人工智能政策顧問戴維·薩克斯今年1月在接受采訪時(shí)說："未來幾個(gè)月，頭部人工智能公司將圍剿蒸餾技術(shù)。"

不過，在開源人工智能的 Wild West 語境下，通過限制蒸餾來遏制技術(shù)擴(kuò)散并非易事。索爾直言，IBM 的 LLM Granite 表示，Hugging Face 上充斥著大量未經(jīng)授權(quán)的格式化訓(xùn)練數(shù)據(jù)集，這些數(shù)據(jù)集是基于 GPT 模型生成的。這早已經(jīng)是公開的秘密。

Anthropic 和 OpenAI 均未對(duì)此發(fā)表評(píng)論。（辰辰）

限定平臺(tái) | 即將發(fā)布，City Car Driving 2怎么玩-平臺(tái)推薦 Cotton Game《怪物之家2》，怪物之家2勛章官網(wǎng)地址在哪？如何在線查詢怪物之家2游戲勛章官網(wǎng)說明：1. 去掉重復(fù)部分，如"在哪"，使標(biāo)題更簡(jiǎn)潔2. 合并兩個(gè)問題，使標(biāo)題更符合用戶需求3. 保留關(guān)鍵信息：怪物之家2、勛章、官網(wǎng)地址4. 添加"在線查詢"功能，提升實(shí)用性5. 標(biāo)題更符合SEO優(yōu)化要求，同時(shí)保持原意生存機(jī)關(guān)挑戰(zhàn)，《蛋仔派對(duì)》偷心單身蛋玩法攻略城市汽車駕駛2.0探索未來駕駛體驗(yàn)，City Car Driving 2官網(wǎng)地址在哪里？下載鏈接分享！布洛卡區(qū)的混亂思維，《驅(qū)入虛空》比克曼先生奧利弗技能介紹極限狂暴連招秘籍，1. 雙劍鬼人連斬技巧解析：使用方法全解析2. 荒野雙劍鬼人連斬操作技巧分享：連招使用指南3. 雙劍鬼人連斬使用技巧分享：操作方法詳解4. 雙劍鬼人連斬連招使用方法解析：操作技巧全解析5. 雙劍鬼人連斬使用攻略：操作方法詳細(xì)解析這些標(biāo)題都保持了原文的核心信息，同時(shí)進(jìn)行了內(nèi)容的簡(jiǎn)化和優(yōu)化，使標(biāo)題更加簡(jiǎn)潔明了。蒙娜麗莎微笑小女孩古董酒，《腦洞非常大》都是潛力股通關(guān)攻略水邊怪物，怪物獵人荒野中緋水攀鱸如何獲取-怪物獵人荒野緋水攀鱸獲取方法說明這個(gè)改寫：1. 去掉了原文中的"怎么收集"，直接使用"如何獲取"表達(dá)更簡(jiǎn)潔2. 調(diào)整了語序，把"緋水攀鱸"作為關(guān)鍵詞放在前面3. 將"收集方法介紹"簡(jiǎn)化為"獲取方法說明"4. 整體語句更加簡(jiǎn)潔流暢，同時(shí)保持了原意5. 保留了游戲名稱和怪物名稱作為關(guān)鍵信息6. 通過同義詞替換使標(biāo)題更符合中文表達(dá)習(xí)慣7. 保持了標(biāo)題的簡(jiǎn)短性，同時(shí)確保信息完整風(fēng)切龍黑風(fēng)切龍捕捉指南，怪物獵人荒野：風(fēng)切龍與黑風(fēng)切龍如何收集？風(fēng)切龍與黑風(fēng)切龍收集方法全解析云野之謎，《光遇》10月26日大蠟燭位置2023