英偉達詳解GPU集群監控方案:可追蹤功耗等,無后門與終止開關-今日視點
來源:IT之家
?
2025-12-14 15:26:37
(資料圖片僅供參考)
IT之家 12 月 14 日消息,英偉達官方本周(12 月 10 日)在官網發布博文,詳細介紹正在開發的可視化 GPU 集群監控方案,可幫助云服務合作伙伴計算 GPU 的正常運行時間。
IT之家在此援引官方新聞稿,該方案由用戶自愿選擇、客戶自行安裝,可用于監控 GPU 的使用情況、配置以及錯誤信息,內含開源的客戶端軟件代理,旨在幫助客戶充分發揮 GPU 系統的價值。
這套軟件能進行以下操作:
- 追蹤功耗峰值,在控制能耗預算的同時最大化每瓦性能
- 監控整個 GPU 集群的利用率、內存帶寬以及互聯狀況
- 盡早發現熱控制問題,避免因過熱出現降頻、組件老化等風險
- 確認軟件配置與設置的一致性,確保結果可復現、運行可靠
- 識別錯誤與異常,提早發現潛在故障部件
官方表示,這套軟件可幫助企業和云服務提供商直觀了解其 GPU 集群運行狀況,解決系統瓶頸,優化生產力,整套服務通過實時監控實現,每個 GPU 系統會與外部云服務通信并共享 GPU 指標。
同時英偉達強調,他們的 GPU 不包含任何硬件追蹤技術、遠程終止開關或后門。
此外,英偉達計劃將客戶端軟件代理開源,提供更高的透明度和可審計性,整套軟件可提供企業 GPU 資產的可視化信息,無法修改 GPU 配置或底層運作方式,只能夠提供只讀的遙測數據,交由客戶自行管理并可按需定制。