作者:0xJeff,加密 KOL;編譯:Felix,PANews
當(dāng)今社會(huì),無論是食品、住所、電子產(chǎn)品,還是最新的 AI 技術(shù),幾乎人人都在推銷某種產(chǎn)品或服務(wù)。過去,人們兜售的是滿足基本需求的實(shí)用物品,而如今,尤其是在加密 AI 領(lǐng)域,兜售的更多是夢想和希望,這些被包裝在光鮮亮麗的外衣中。
然而,加密 AI 產(chǎn)品和基礎(chǔ)設(shè)施往往因其復(fù)雜性而難以理解,導(dǎo)致團(tuán)隊(duì)在溝通中使用過多專業(yè)術(shù)語,無法吸引廣泛的用戶群體。此外,啟動(dòng)一個(gè)真正的 AI 實(shí)驗(yàn)室(而非簡單的封裝)需要巨額資金支持,包括人才、計(jì)算資源和其他必要條件。
企業(yè)級(jí) AI 實(shí)驗(yàn)室的年度運(yùn)營成本高達(dá)數(shù)百萬美元,而前沿模型的研究、訓(xùn)練和優(yōu)化可能耗費(fèi)數(shù)億美元。例如,H100 型號(hào)的 GPU 單價(jià)在 2.5 萬至 4 萬美元之間,而較新的 Blackwell B200 和 GB200 型號(hào)的價(jià)格則在 3 萬至 7 萬美元之間。訓(xùn)練一個(gè)前沿模型可能需要數(shù)千個(gè)這樣的 GPU。
去中心化 AI(DeAI)的優(yōu)勢:小型模型 強(qiáng)化學(xué)習(xí)
選擇去中心化的系統(tǒng),即通過全球范圍內(nèi)的計(jì)算資源整合來訓(xùn)練單個(gè)模型,理論上能夠顯著降低 GPU 成本(節(jié)省 30% 至 90%),因?yàn)榭梢岳萌蜷e置的 GPU 網(wǎng)絡(luò)。然而,協(xié)調(diào)這些 GPU 并確保它們高效運(yùn)行是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。因此,目前尚未有去中心化 AI 實(shí)驗(yàn)室完全攻克去中心化訓(xùn)練的難題。
盡管如此,未來依然充滿希望。一些實(shí)驗(yàn)室在去中心化強(qiáng)化學(xué)習(xí)領(lǐng)域取得了令人鼓舞的成果。這種自我博弈、自我學(xué)習(xí)的過程,能夠使小型模型變得極其智能。
并非所有場景都需要大型語言模型(LLM)。通過訓(xùn)練特定領(lǐng)域的模型,并結(jié)合強(qiáng)化學(xué)習(xí)(RL)完善其技能,是提供經(jīng)濟(jì)高效的企業(yè)級(jí) AI 解決方案的最佳途徑。歸根結(jié)底,客戶追求的是結(jié)果——合規(guī)、安全、成本效益高且能提高生產(chǎn)力。
早在 2019 年,OpenAI Five 就在《Dota 2》游戲中擊敗了當(dāng)時(shí)的世界冠軍 OG 戰(zhàn)隊(duì)。這一勝利并非偶然,而是徹底的碾壓,連續(xù)兩場比賽都輕松取勝。
那么,它是如何做到的?
《Dota 2》是一款復(fù)雜的多人在線戰(zhàn)斗競技場游戲,五名玩家相互對(duì)抗,完成各種目標(biāo)并摧毀對(duì)方基地。為了讓 AI 能夠與頂級(jí)選手抗衡,它遵循了以下步驟:
- 從零開始自我對(duì)戰(zhàn):通過數(shù)百萬次的自我對(duì)戰(zhàn)學(xué)習(xí)基礎(chǔ)知識(shí)。如果獲勝,則說明操作有利;如果失敗,則說明操作不當(dāng)(即大規(guī)模試錯(cuò))。
- 設(shè)置獎(jiǎng)勵(lì)系統(tǒng)(積分),激勵(lì)那些可能帶來勝利的行為(如摧毀防御塔、擊殺英雄),并對(duì)不利行為扣分。
- 采用名為“PPO”的強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練。AI 在比賽中嘗試某些操作,PPO 將結(jié)果視為反饋。如果結(jié)果良好,則多做;如果結(jié)果不佳,則少做。這種方式逐漸引導(dǎo) AI 走向正確的方向。
- 數(shù)百個(gè) GPU 運(yùn)行近一年來訓(xùn)練 AI,使其不斷學(xué)習(xí)并適應(yīng)游戲版本更新和變動(dòng)。
- 一段時(shí)間后,AI 開始探索復(fù)雜的策略(如犧牲一條兵線、在恰當(dāng)?shù)臅r(shí)機(jī)采取保守或激進(jìn)的打法等),并最終戰(zhàn)勝人類玩家。
盡管 OpenAI Five 已經(jīng)退役,但它證明了小型模型在特定領(lǐng)域任務(wù)中的潛力(其參數(shù)量僅為 58MB)。
像 OpenAI 這樣的大型 AI 實(shí)驗(yàn)室之所以能夠?qū)崿F(xiàn)這一點(diǎn),是因?yàn)閾碛谐渥愕馁Y金和資源來訓(xùn)練強(qiáng)化學(xué)習(xí)模型。如果一家企業(yè)想要擁有類似的解決方案用于欺詐檢測、工廠機(jī)器人、自動(dòng)駕駛汽車或金融市場交易,則需要大量資金支持。
去中心化的強(qiáng)化學(xué)習(xí)解決了這一問題,這也是為什么像 Nous Research、Pluralis、gensyn、Prime Intellect 和 Gradient 這樣的去中心化 AI 實(shí)驗(yàn)室正在構(gòu)建全球 GPU 網(wǎng)絡(luò),共同訓(xùn)練強(qiáng)化學(xué)習(xí)模型,為特定領(lǐng)域的企業(yè)級(jí) AI 提供基礎(chǔ)設(shè)施。
一些實(shí)驗(yàn)室正在研究進(jìn)一步降低成本的方法,例如使用 RTX 5090/4090 而非 H100 來訓(xùn)練強(qiáng)化學(xué)習(xí)模型。還有一些專注于通過強(qiáng)化學(xué)習(xí)提升大型基礎(chǔ)模型的智能水平。
無論研究重點(diǎn)在哪,去中心化 AI 的這一發(fā)展方向都極具前景。如果去中心化的強(qiáng)化學(xué)習(xí)解決方案能夠在商業(yè)上實(shí)現(xiàn)大規(guī)模應(yīng)用,企業(yè)客戶將向 AI 投入更多資金,同時(shí)也會(huì)看到更多去中心化 AI 團(tuán)隊(duì)實(shí)現(xiàn) 8 到 9 位數(shù)的年收入。
通過協(xié)調(diào)層為 DeAI 提供資金并實(shí)現(xiàn)規(guī)模擴(kuò)展
然而,在達(dá)到每年 8 至 9 位數(shù)收入之前,這些實(shí)驗(yàn)室需要持續(xù)研究、實(shí)施并過渡到具有商業(yè)可行性的強(qiáng)化學(xué)習(xí)解決方案,而這需要大量資金支持。
通過像 Bittensor 這樣的協(xié)調(diào)層籌集資金是一種有效途徑。每天都有數(shù)百萬美元的 TAO 激勵(lì)金發(fā)放給子網(wǎng)(初創(chuàng)企業(yè)和 AI 實(shí)驗(yàn)室),同時(shí)貢獻(xiàn)者(AI 人才)為他們感興趣的子網(wǎng)貢獻(xiàn)力量以獲取部分激勵(lì)金。
Bittensor 不僅讓貢獻(xiàn)者能夠參與 AI 的開發(fā),還為投資者提供了投資于 DeAI 技術(shù)的機(jī)會(huì)。
目前,在 Bittensor 生態(tài)系統(tǒng)中,量子計(jì)算、去中心化訓(xùn)練、AI 代理和預(yù)測系統(tǒng)等關(guān)鍵 DeAI 細(xì)分領(lǐng)域脫穎而出(盡管強(qiáng)化學(xué)習(xí)目前還不是其中之一,但已有 3 個(gè)以上的子網(wǎng)正在積極關(guān)注去中心化強(qiáng)化學(xué)習(xí))。
目前去中心化強(qiáng)化學(xué)習(xí)進(jìn)展如何?
強(qiáng)化學(xué)習(xí)已被證明可以大規(guī)模應(yīng)用,但尚未實(shí)現(xiàn)工業(yè)化。好消息是,企業(yè)對(duì)能夠從真實(shí)反饋中學(xué)習(xí)的 AI 代理的需求正在迅速增長。例如,能夠從現(xiàn)實(shí)環(huán)境、銷售和客戶服務(wù)電話中學(xué)習(xí)的代理,以及能夠適應(yīng)市場變化的交易模型等。這些自我學(xué)習(xí)系統(tǒng)能夠?yàn)槠髽I(yè)創(chuàng)造或節(jié)省數(shù)百萬美元。
隱私技術(shù)也在興起。可信執(zhí)行環(huán)境(TEE)、TEE 內(nèi)的加密嵌入以及差分隱私等技術(shù)在反饋循環(huán)中的應(yīng)用有助于加密和保護(hù)私人信息,使醫(yī)療保健、金融、法律等敏感行業(yè)在擁有強(qiáng)大的特定領(lǐng)域自我學(xué)習(xí) AI 代理的同時(shí)保持合規(guī)。
接下來會(huì)怎樣?
強(qiáng)化學(xué)習(xí)是推動(dòng) AI 更加智能化的關(guān)鍵所在。它將 AI 從生成系統(tǒng)轉(zhuǎn)變?yōu)榉e極主動(dòng)、智能的 AI 代理。
隱私與強(qiáng)化學(xué)習(xí)的結(jié)合將推動(dòng)企業(yè)在合規(guī)的前提下真正采用 AI,為客戶提供切實(shí)可行的解決方案。
強(qiáng)化學(xué)習(xí)還使得“代理經(jīng)濟(jì)”成為可能,代理能夠購買計(jì)算資源、相互協(xié)商并提供服務(wù)。
由于其成本效益,去中心化強(qiáng)化學(xué)習(xí)將成為擴(kuò)展強(qiáng)化學(xué)習(xí)訓(xùn)練的默認(rèn)方式。
聯(lián)邦式強(qiáng)化學(xué)習(xí)(Federated RL)也將出現(xiàn),使多方能夠在不共享本地敏感數(shù)據(jù)的情況下協(xié)同學(xué)習(xí),將隱私保護(hù)與自我學(xué)習(xí)相結(jié)合,從而極大提升智能水平,同時(shí)符合合規(guī)要求。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

