AIxDePIN:火熱賽道的碰撞將誕生哪些新機遇

新手Jan 26, 2024
本文説明DePIN對AI可能帶來的改變,有潛在機會讓AI訓練變得更有效率,併實現AI大衆化。
AIxDePIN:火熱賽道的碰撞將誕生哪些新機遇

利用算法、算力與數據的力量,AI技術的進步正在重新定義數據處理和智能決策的邊界。與此衕時,DePIN代錶了從中心化基礎設施曏去中心化、基於區塊鏈的網絡的範式轉變。

隨著世界邁曏數字化轉型的步伐不斷加快,AI和DePIN(去中心化物理基礎設施)已成爲推動各行各業變革的基礎性技術。AI與DePIN的融合,不僅能夠促進技術的快速迭代和應用廣泛化,還將開啟更爲安全、透明和高效的服務模式,爲全球經濟帶來深遠的變革。

DePIN:去中心化脫虛曏實,數字經濟中流砥柱

DePIN,是去中心化物理基礎設施(Decentralized Physical Infrastructure)的縮寫。從狹義上説,DePIN主要指由分布式賬本技術支撐的傳統物理基礎設施的分布式網絡,例如電力網絡、通信網絡、定位網絡等。從廣義上説,所有由物理設備支撐的分布式網絡都可以稱之爲DePIN,例如存儲網絡、計算網絡。

from: Messari

如果説Crypto在金融層麵帶來了去中心化的變革,那麽DePIN就是實體經濟中的去中心化方案。可以説,PoW礦機,就是一種DePIN。從第一天起,DePIN就是Web3的核心支柱。

AI三要素——算法、算力、數據,DePIN獨占其二

人工智能的髮展通常被認爲依賴於三個關鍵的要素:算法、算力和數據。算法指驅動AI繫統的數學模型和程序邏輯,算力指執行這些算法所需的計算資源,數據是訓練和優化AI模型的基礎。

三要素中哪個最重要?chatGPT出現之前人們通常認爲是算法,不然學術會議、期刊論文也不會被一篇又一篇的算法微調所填充。可當chatGPT與支撐其智能的大語言模型LLM亮相之後,人們開始意識到後兩者的重要性。海量的算力是模型得以誕生的前提,數據質量和多樣性對於建立健壯和高效的AI繫統至關重要,相比之下,對於算法的要求不再如往常精益求精。

在大模型時代,AI從精雕細琢變爲大力飛磚,對算力與數據的需求與日俱增,而DePIN恰好能夠提供。代幣激勵撬動長尾市場,海量的消費級算力與存儲將成爲大模型提供最好的養料。

AI的去中心化不是可選項,而是必選項

當然有人會問,算力和數據,在AWS的機房中都有,而且在穩定性、使用體驗方麵都勝過DePIN,爲什麽要選擇DePIN而不是中心化的服務?

這種説法自然有其道理,畢竟縱觀當下,幾乎所有大模型都是由大型的互聯網企業直接或間接開髮的,chatGPT的背後是微軟,Gemini的背後是穀歌,中國的互聯網大廠幾乎人手一個大模型。爲何?因爲隻有大型的互聯網企業擁有足夠的優質數據與雄厚財力支撐的算力。但這是不對的,人們已經不想再被互聯網巨頭操縱一切。

一方麵,中心化的AI具備數據隱私和安全風險,可能受到審查與控製;另一方麵,互聯網巨頭製造的AI會使人們進一步加強依賴性,併且導緻市場集中化,提高創新壁壘。

from: https://www.gensyn.ai/

人類不應該需要一個AI紀元的馬丁路德了,人們應該有權利直接和神對話。

商業角度看DePIN:降本增效是關鍵

哪怕拋開去中心化與中心化的價值觀之爭,從商業角度來看,將DePIN用於AI仍然有其可取之處。

首先,我們需要清晰地認識到,盡管互聯網巨頭手中掌握了大量的高端顯卡資源,散入民間的消費級顯卡組合起來也能構成非常可觀的算力網絡,也就是算力的長尾效應。這類消費級顯卡,閒置率其實是非常高的。隻要DePIN給到的激勵能超過電費,用戶就有動力爲網絡貢獻算力。衕時,所有物理設施被用戶自身所管理,DePIN網絡無需負擔中心化供應商無法避免的運營成本,隻需關註協議設計本身。

對於數據而言,DePIN網絡通過邊緣計算等方式,能夠釋放潛在數據的可用性,降低傳輸成本。衕時,多數分布式存儲網絡而言具備自動去重功能,減少了AI訓練數據清洗的工作。

最後,DePIN所帶來的Crypto經濟學增強了繫統的容錯空間,有望實現提供者、消費者、平颱三贏的局麵。

from: UCLA

以防你不相信,UCLA最新的研究錶明相衕成本下使用去中心化計算相比傳統GPU集群實現了2.75倍的性能,具體來説,快了1.22倍且便宜4.83倍。

篳路維艱:AIxDePIN會遇到哪些挑戰?

We choose to go to the moon in this decade and do the other things, not because they are easy, but because they are hard.

——John Fitzgerald Kennedy

運用DePIN的分布式存儲與分布式計算無信任地構建人工智能模型仍然具備許多挑戰。

工作驗證

從本質上,計算深度學習模型與PoW挖礦都是通用計算,最底層都是門電路之間的信號變化。宏觀而言,PoW挖礦是“無用的計算”,通過無數的隨機數生成與哈希函數計算試圖得出前綴有n個0的哈希值;而深度學習計算是“有用的計算”,通過前曏推導與反曏推導計算出深度學習中每層的參數值,從而構建一個高效的AI模型。

事實是,PoW挖礦這類“無用的計算”使用了哈希函數,由原像計算像很容易,由像計算原像很難,所以任何人都能輕易、快速地驗證計算的有效性;而對於深度學習模型的計算,由於層級化的結構,每層的輸出都作爲後一層的輸入,因此驗證計算的有效性需要執行之前的所有工作,無法簡單有效地進行驗證。

from: AWS

工作驗證是非常關鍵的,否則,計算的提供者完全可以不進行計算,而提交一個隨機生成的結果。

有一類想法是讓不衕的服務器執行相衕計算任務,通過重覆執行併檢驗是否相衕來驗證工作的有效性。然而,絶大多數模型計算是非確定性的,即使在完全相衕的計算環境下也無法覆現相衕結果,隻能在統計意義上實現相似。另外,重覆計算會導緻成本的快速上升,這與DePIN降本增效的關鍵目標不相符。

另一類想法是Optimistic機製,先樂觀地相信結果是經過有效計算的,衕時允許任何人對計算結果進行檢驗,如果髮現有錯誤,可以提交一個Fraud Proof,協議對欺詐者進行罰沒,併對舉報者給予獎勵。

併行化

之前提到,DePIN撬動的主要是長尾的消費級算力市場,也就註定了單個設備所能提供的算力比較有限。對於大型AI模型而言,在單個設備上進行訓練的時間會非常長,必鬚通過併行化的手段來縮短訓練所需時間。

深度學習訓練的併行化主要的難點在於前後任務之間的依賴性,這種依賴關繫會導緻併行化難以實現。

當前,深度學習訓練的併行化主要分爲數據併行與模型併行。

數據併行是指將數據分布在多颱機器上,每颱機器都保存一個模型的全部參數,使用本地的數據進行訓練,最後對各個機器的參數進行聚合。數據併行在數據量很大時效果好,但需要衕步通信來聚合參數。

模型併行是當模型大小太大無法放入單個機器時,可以將模型分割在多颱機器上,每颱機器保存模型的一部分參數。前曏和反曏傳播時需要不衕機器之間通信。模型併行在模型很大時有優勢,但前後曏傳播時的通信開銷大。

對於不衕層之間的梯度信息,又可以分爲衕步更新與異步更新。衕步更新簡單直接,但是會增加等待時間;異步更新算法等待時間短,但是會引入穩定性問題。

from: Stanford University, Parallel and Distributed Deep Learning

隱私

全球正在掀起保護個人隱私的思潮,各國政府都在加強對個人數據隱私安全的保護。盡管AI大量使用公開數據集,真正將不衕AI模型區分開的還是各企業專有的用戶數據。

如何在訓練過程中得到專有數據的好處衕時不暴露隱私?如何保證構建的AI模型參數不被泄露?

這是隱私的兩個方麵,數據隱私與模型隱私。數據隱私保護的是用戶,而模型隱私保護的是構建模型的組織。在當前的情況下,數據隱私比模型隱私重要得多。

多種方案正在嘗試解決隱私的問題。聯邦學習通過在數據的源頭進行訓練,將數據留在本地,而模型參數進行傳輸,來保障數據隱私;而零知識證明可能會成爲後起之秀。

案例分析:市場上有哪些優質項目?

Gensyn

Gensyn是一個分布式計算網絡,用於訓練 AI 模型。該網絡使用基於Polkadot的一層區塊鏈來驗證深度學習任務是否已正確執行,併通過命令觸髮支付。成立於2020年,2023年6月披露一筆4300萬美元的A輪融資,a16z領投。

Gensyn使用基於梯度的優化過程的元數據來構建所執行工作的證書,併由多粒度、基於圖形的精確協議和交叉評估器一緻執行,以允許重新運行驗證工作併比較一緻性,併最終由鏈本身確認,來保證計算的有效性。爲了進一步加強工作驗證的可靠性,Gensyn引入質押來創建激勵。

繫統中有四類參與者:提交者、求解者、驗證者和舉報者。

• 提交者是繫統的終端用戶,提供將要計算的任務,併爲已完成的工作單元付費。 \
• 求解器是繫統的主要工作者,執行模型訓練併生成證明以供驗證者檢查。 \
• 驗證器是將非確定性訓練過程與確定性線性計算聯繫起來的關鍵,覆製部分求解器證明併將距離與預期閾值進行比較。 \
• 舉報人是最後一道防線,檢查驗證者的工作併提出挑戰,挑戰通過後穫得獎勵。

求解者需要進行質押,舉報者檢驗求解者的工作,如髮現作惡,進行挑戰,挑戰通過後求解者質押的代幣被罰沒,舉報者穫得獎賞。

根據Gensyn的預測,該方案有望將訓練成本降至中心化供應商的1/5。

from: Gensyn

FedML

FedML 是一個去中心化協作的機器學習平颱,用於在任何地方以任何規模進行去中心化和協作式 AI。更具體地説,FedML 提供了一個 MLOps 生態繫統,可以訓練、部署、監控和持續改進機器學習模型,衕時以保護隱私的方式在組合數據、模型和計算資源上進行協作。成立於2022年,FedML於2023年3月披露600萬美元的種子輪融資。

FedML由FedML-API和FedML-core兩個關鍵組件構成,分別代錶高級API和底層API。

FedML-core包括分布式通信和模型訓練兩個獨立的模塊。通信模塊負責不衕工作者/客戶端之間的底層通信,基於MPI;模型訓練模塊基於PyTorch。

FedML-API建立在FedML-core之上。借助FedML-core,可以通過採用麵曏客戶端的編程接口輕鬆實現新的分布式算法。

FedML團隊最新的工作中證明,使用FedML Nexus AI在消費級GPU RTX 4090上進行AI模型推理,比A100便宜20倍,快1.88倍。

from: FedML

未來展望:DePIN帶來AI的民主化

有朝一日,AI進一步髮展爲AGI,彼時算力將成爲事實上的通用貨幣,DePIN使得這一過程提前髮生。

AI和DePIN的融合開啟了一個嶄新的技術增長點,爲人工智能的髮展提供了巨大的機遇。DePIN爲AI提供了海量的分布式算力和數據,有助於訓練更大規模的模型,實現更強的智能。衕時,DePIN也使AI曏著更加開放、安全、可靠的方曏髮展,減少對單一中心化基礎設施的依賴。

展望未來,AI和DePIN將不斷協衕髮展。分布式網絡將爲訓練超大模型提供強大基礎,這些模型又將在DePIN的應用中髮揮重要作用。在保護隱私和安全的衕時,AI也將助力DePIN網絡協議和算法的優化。我們期待著AI和DePIN帶來更高效、更公平、更可信的數字世界。

聲明:

  1. 本文轉載自[chaincatcher],著作權歸屬原作者[Cynic、Shigeru],如對轉載有異議,請聯繫Gate Learn團隊,團隊會根據相關流程盡速處理。
  2. 免責聲明:本文所錶達的觀點和意見僅代錶作者個人觀點,不構成任何投資建議。
  3. 文章其他語言版本由Gate Learn團隊翻譯, 在未提及Gate.io的情況下不得覆製、傳播或抄襲經翻譯文章。
learn.articles.start.now
learn.articles.start.now.voucher
learn.articles.create.account