
時間:2025-09-29來源:本站
華為全聯(lián)接大會2025期間,寶德計算與華為數(shù)據(jù)存儲聯(lián)合發(fā)布了AI推理加速解決方案。該方案基于寶德PLStack AI人工智能平臺和華為OceanStor A系列存儲的推理加速能力,助力企業(yè)應對大模型時代AI推理的關鍵挑戰(zhàn),加速AI大模型推理應用落地。

隨著AI集群規(guī)模不斷擴大,大模型訓練集群故障率呈指數(shù)級上升,導致實際算力利用率不足50%,存在大量的算力資源浪費;同時,在推理場景下,隨著序列長度及并發(fā)數(shù)量增加導致Token吞吐量降低,AI推理陷入算力重復消耗的惡性循環(huán)。這些問題嚴重影響了推理體驗和效率,限制了AI技術在更多場景的廣泛應用。
針對這些挑戰(zhàn),寶德計算與華為數(shù)據(jù)存儲創(chuàng)新推出了AI推理加速聯(lián)合解決方案,該方案基于寶德PLStack AI人工智能平臺,采用華為UCM推理記憶數(shù)據(jù)管理器,實現(xiàn)KV Cache數(shù)據(jù)池化管理,基于大模型歷史數(shù)據(jù)做推理加速優(yōu)化。通過存儲與計算的深度協(xié)同,為AI推理加速提供了全方位的技術支持。
●多元生態(tài)兼容:支持主流算力生態(tài)與存儲深度協(xié)同,支持vLLM推理框架和CUDA生態(tài),兼容多種大模型開發(fā)需求;
●極致推理加速:持久化KV Cache保存到華為A系列存儲,實現(xiàn)推理記憶知識的全量保存,避免重復計算,使并發(fā)倍增,首Token時延最高降低90%,Token吞吐量提升兩倍以上;
●訓練效率提升:搭載華為A系列存儲,支持DataTurbo客戶端,提供極致文件讀寫性能,滿足AI訓練對高帶寬訴求;
●極簡運維管理:配套一站式全流程AI工具鏈統(tǒng)一納管存儲和計算資源,支持持久化工作目錄、可視化文件管理、租戶隔離等服務,降低運維復雜度。
在企業(yè)問答助手實測場景中,該推理加速方案采用以查代算提升推理吞吐,方案效果顯著。數(shù)據(jù)顯示,在簡單問答場景中,首Token時延(TTFT)縮短1.5倍;多輪問答因涉及更復雜的上下文交互,加速效果尤為突出,推理吞吐提升兩倍以上。同時,隨著對話序列長度增加,推理體驗提升變得更加明顯。該方案為企業(yè)提供了更高效、更智能的問答服務。
寶德計算與華為數(shù)據(jù)存儲的此次合作,提供了AI推理創(chuàng)新性的解決方案。目前該方案在金融、醫(yī)療等行業(yè)試點。未來,雙方將持續(xù)深化合作,實現(xiàn)更多的推理加速方案能力,推動AI技術在更多行業(yè)的落地應用,助力行業(yè)智能化升級。