數據中心中斷的成本可能 是驚人的,數據中心專業人士報告說,大規模中斷的成本越來越高。最近的一項調查發現,2020 年 16% 的停電造成的損失超過 100 萬美元,高于 2019 年的 10%。40% 的停電造成的損失在 10 萬至 100 萬美元之間,高于 2019 年的 28%。
不僅停機成本在增加,而且可預防的停機次數也在增加。2019 年,60% 的停機事件被認為是可以預防的,到 2020 年,這一數字上升到 75%。電力和冷卻問題是 50% 停電的原??因。
遵循最佳數據中心實踐
數據中心經理需要遵循最佳實踐來減少這些可預防事件造成的停機時間。
以下是成功的數據中心經理使用數據中心基礎設施管理 (DCIM) 軟件提高正常運行時間所遵循的 10 大最佳實踐:
- 利用計量設備的運行狀況輪詢。 通過運行狀況輪詢確保智能機架 PDU和其他計量設備正在運行并可通過您的網絡訪問,這樣您就可以第一個知道您是否失去了對設備的監控或停電。運行狀況輪詢使您能夠立即收到有關設備已關閉的警報,以便您可以快速做出反應并在出現問題之前恢復服務。
- 設置和監控閾值。 最佳做法是監控和接收智能 PDU 和其他計量設備的陷阱。然后,對您收集的數據設置警告和臨界閾值,以便輕松了解您的設備狀態。使用企業健康儀表板,通過易于理解的紅-黃-綠顏色編碼,一目了然地查看閾值違規情況。如果您有違規行為,請使用您的儀表板向下鉆取并查看導致這些警告或嚴重情況的確切警報。
- 使用趨勢圖查看隨時間的變化。 趨勢圖非常有用,因為即使您還沒有違反閾值,您仍然可以看到功率或溫度讀數是否隨時間增加。這使您能夠在發生閾值違規和潛在事件之前主動做出反應。將您的圖表以每周自動報告的形式發送給您的管理層,讓他們了解數據中心發生的事情。
- 遵循 ASHRAE 指南和濕度冷卻圖表。 通過冷卻圖表確保您的設備符合ASHRAE對溫度和濕度的建議,使您能夠在一個視圖中查看大量傳感器。然后,您可以立即識別哪些設備在推薦范圍之外運行,并采取相應措施以維持正常運行時間。
- 使用熱圖延時視頻可視化溫度傳感器讀數。 將您的環境傳感器數據轉換為帶有延時視頻的水平或垂直熱圖,以在熱點損壞設備之前快速識別和消除熱點。
- 監控機柜容量和冗余度。 創建一份每日報告,突出顯示容量低且危險地接近冗余要求之外的機架。
- 使用儀表板可以一目了然地查看運行狀況、電源和冷卻情況。 遠程數據中心管理儀表板非常有助于將數據轉化為易于共享的可操作信息,并支持數據驅動的協作。您應該監控的必備 KPI包括每個機柜的峰值功率負載、剩余電源容量天數、機柜電源故障轉移冗余、電源鏈斷路器利用率、每個機柜的最新溫度、每個機柜的 delta-T 和每個機柜的最高溫度。
- 監控每個斷路器的容量。 使用自動跟蹤每個斷路器連接處的功率的數據中心管理軟件,以確保不超過額定值。通過入口或出口儀表的實時讀數,該軟件將防止您施加超過斷路器限制的負載。
- 三相負載平衡。 不平衡的電源會導致斷路器過早跳閘和高壓,從而縮短設備的使用壽命。設置三相電源的閾值以在設備違規時接收警報。然后,根據此信息采取行動以保持所有階段的平衡并保持正常運行時間。
- 模擬故障轉移并測試假設情景。 不要等到為時已晚才發現發生故障時會發生什么。使用 DCIM 軟件模擬故障轉移并確保 IT 設備始終可用。您還可以使用確定可用容量的報告來測試假設場景,以在發生故障時提供覆蓋范圍。
不要等待數據中心中斷發生
防止中斷的價值是巨大的。最好的數據中心經理認識到這一點,并遵循這些最佳實踐來保持正常運行時間。以他們為榜樣,利用完整的 DCIM 解決方案,實現一流的監控和報告功能,您可能會為您的組織節省數百萬美元。