【導(dǎo)讀】隨著人工智能技術(shù)的飛速發(fā)展,GPU算力的指數(shù)級增長正對底層基礎(chǔ)設(shè)施提出前所未有的挑戰(zhàn)。Solidigm深刻洞察到,單純依靠計算能力的提升已不足以支撐未來的AI工作負(fù)載,存儲系統(tǒng)的效率與架構(gòu)革新成為了決定系統(tǒng)整體性能的關(guān)鍵。面對這一轉(zhuǎn)型,Solidigm總結(jié)了當(dāng)前重塑AI數(shù)據(jù)存儲格局的三大核心趨勢:存儲發(fā)展必須與GPU算力同步演進(jìn)以打破性能瓶頸,專用AI SSD正從被動存儲向主動計算參與者轉(zhuǎn)變,以及液冷技術(shù)的興起將為高密度服務(wù)器環(huán)境帶來物理形態(tài)的根本性變革。這些趨勢共同指向一個更加均衡、高效且智能的AI基礎(chǔ)設(shè)施新范式。
趨勢一:存儲的發(fā)展必須與GPU算力齊頭并進(jìn)
當(dāng)GPU變得日益強(qiáng)勁,存儲的效率需要相應(yīng)提升,在更高的性能要求與更低的功耗之間取得平衡。Solidigm工程經(jīng)理Hardeep Singh表示:“功耗至關(guān)重要。GPU功耗的攀升,要求存儲必須變得更高效,用較低的功耗維持高性能?!边@給服務(wù)器內(nèi)部和整個集群帶來了很多的存儲挑戰(zhàn)。
在服務(wù)器內(nèi)部,GPU算力的持續(xù)增長讓存儲的性能瓶頸愈發(fā)凸顯。原因有以下幾點:首先,現(xiàn)代加速器消耗數(shù)據(jù)的速度超過了傳統(tǒng)NVMe SSD的數(shù)據(jù)供給速度。在存儲路徑無法滿足GPU數(shù)據(jù)需求的環(huán)節(jié),將不可避免地帶來系統(tǒng)性能的降低。
Solidigm的AI專家們表示,這一挑戰(zhàn)在集群層面會進(jìn)一步加劇:為數(shù)千個GPU供給數(shù)據(jù),需要大規(guī)模的SSD集群。這些集群需要能夠提供極高的并行性,在讀取密集型的AI工作負(fù)載下實現(xiàn)出色的磨損均衡,并且在QoS不會下降的前提下保持性能的穩(wěn)定。
遺憾的是,存儲并不是唯一的瓶頸。范圍、規(guī)模以及與主機(jī)系統(tǒng)的交互都將受到類似影響。確保內(nèi)部和外部網(wǎng)絡(luò)能高效地將數(shù)據(jù)從存儲端傳輸?shù)接嬎阗Y源將非常重要。
克服這些障礙的方法,在于存儲解決方案的規(guī)模與擴(kuò)展能力。我們應(yīng)該不只關(guān)注單個驅(qū)動器的速度,還應(yīng)該關(guān)注能夠駕馭強(qiáng)大GPU需求的解決方案級能力。如前所述,相較于計算能力,存儲效率才是系統(tǒng)性能的決定性因素。
談及最近發(fā)布的NVIDIA推理上下文記憶存儲平臺(ICMSP),Solidigm AI與生態(tài)系統(tǒng)營銷總監(jiān)Ace Stryker剖析道:“多年來,模型訓(xùn)練數(shù)據(jù)的激增吸引了大量的目光,但真正的爆發(fā)其實發(fā)生在由RAG數(shù)據(jù)與KV緩存(模型用于記憶用戶交互的上下文)等趨勢驅(qū)動的AI推理端?!彼a(bǔ)充說,NVIDIA的發(fā)布印證了這一點。Solidigm憑借其領(lǐng)先的產(chǎn)品、穩(wěn)固的伙伴關(guān)系和深厚的技術(shù)積淀,已準(zhǔn)備好引領(lǐng)這場變革。
Ace Stryker 表示:“顯而易見,通過GPU內(nèi)存來管理所有內(nèi)容是天方夜譚,而高性能SSD是正確的解決方案。”
趨勢二:專用AI SSD演進(jìn),以滿足AI存儲需求
為支撐AI所需的海量吞吐,SSD從被動的存儲設(shè)備演變?yōu)榱酥鲃拥挠嬎銋⑴c者。SSD架構(gòu)正在經(jīng)歷著深刻變革,包括:
深度并行:重新設(shè)計控制器,為極高的隨機(jī)讀取IOPS服務(wù),同時降低尾延遲峰值,避免AI訓(xùn)練停滯。
精簡堆棧:進(jìn)一步精簡PCIe和NVMe堆棧,在數(shù)據(jù)路徑中降低每微秒的延遲。
更智能的固件:先進(jìn)的遙測和數(shù)據(jù)放置算法能夠預(yù)取數(shù)據(jù),并將其精確地部署在GPU需要的地方。
存儲架構(gòu)的演進(jìn)還體現(xiàn)在其利用SSD不同特性的方式上。Solidigm領(lǐng)導(dǎo)力敘事與技術(shù)布道總監(jiān)Scott Shadley指出,SSD一貫的低延遲性能,能夠應(yīng)對持續(xù)增長的數(shù)據(jù)訪問需求,而將數(shù)據(jù)從HDD遷移至SSD,則為實時AI應(yīng)用提供了數(shù)據(jù)可用性保障。隨著SSD逐漸轉(zhuǎn)變?yōu)锳I專用驅(qū)動器,SSD的角色將不再局限于存儲,而更像一種高帶寬的內(nèi)存擴(kuò)展。
趨勢三:液冷存儲的興起
我們預(yù)見,2026年最重大的物理形態(tài)變革,將是向無風(fēng)扇的液冷服務(wù)器環(huán)境的過渡。正如Solidigm AI與領(lǐng)導(dǎo)力營銷高級總監(jiān)Roger Corell所說,對于功率密度日益增高的環(huán)境而言,高效的散熱管理至關(guān)重要;而在散熱效率上,液冷比風(fēng)冷要高出一個數(shù)量級。Solidigm團(tuán)隊與NVIDIA率先推出了采用單面冷板技術(shù)的液冷eSSD,這一合作是一個很好的范例。
這一物理形態(tài)轉(zhuǎn)變的背后,有兩大驅(qū)動力:其一,當(dāng)GPU/CPU采用液冷后,傳統(tǒng)風(fēng)扇便失去了存在的必要;其二,隨著存儲功耗與性能的同步上升,傳統(tǒng)風(fēng)冷已力不從心。
液冷的采用,消除了服務(wù)器設(shè)計對于風(fēng)冷的依賴。這使得SSD能在維持同等尺寸的前提下,釋放出更高的持續(xù)性能。Solidigm AI市場賦能與合作高級總監(jiān)Avi Shetty表示:“借助遠(yuǎn)超風(fēng)冷的散熱效率,液冷技術(shù)讓存儲能夠從容應(yīng)對下一代AI系統(tǒng)在散熱與密度上的嚴(yán)苛要求。”
借助全液冷的解決方案,我們得以擺脫傳統(tǒng)風(fēng)扇散熱的束縛,從而更好地優(yōu)化系統(tǒng)設(shè)計。這一改變賦予了設(shè)計更高的自由度,催生了密度更高的服務(wù)器形態(tài),并加速了SSD從U.2等傳統(tǒng)規(guī)格向EDSFF等新形態(tài)的過渡。


SSD:AI的核心賦能者
展望2026年和未來,曾經(jīng)算力為王的AI時代開始邁向一個更加均衡、整體的基礎(chǔ)設(shè)施新范式。衡量一個系統(tǒng)性能的,不僅僅是GPU每秒萬億次的浮點運算,更是數(shù)據(jù)供給的效率。
Solidigm關(guān)注的重點從未改變:我們專注于那些足以重塑AI數(shù)據(jù)存儲及未來格局的開拓性理念與創(chuàng)新。我們期待與您攜手,共同邁向一個存儲扮演AI工作流程中主動、智能參與者角色的未來。
總結(jié)
AI時代將從“算力為王”邁向計算與存儲協(xié)同發(fā)展的整體基礎(chǔ)設(shè)施新紀(jì)元。衡量系統(tǒng)性能的標(biāo)準(zhǔn)不再僅僅是GPU的浮點運算能力,更在于數(shù)據(jù)供給的效率與智能化水平。Solidigm將繼續(xù)致力于通過開拓性的理念與創(chuàng)新,推動存儲角色從被動的數(shù)據(jù)倉庫轉(zhuǎn)變?yōu)锳I工作流程中主動、智能的參與者。




