減少計算機系統停機時間應該是每家公司的頭等大事,因為您的服務出現故障將產生毀滅性的財務成本 - 失去業務或支付 SLA - 并且還會破壞您的聲譽。了解冗余和彈性之間的區別并使用托管數據中心是明智之舉,并且可以成為保護您的系統免受意外停機的極具成本效益的安全網。
彈性和冗余通常可以互換使用,但不了解它們的區別意味著很難就如何保護系統做出重要決定。您的 IT 是您公司的生命線,如果不保護它會破壞您業務的每一個元素,因此準確了解正在實施的內容非常重要。
定義了冗余和彈性
冗余——指當主要設備或基礎設施出現故障時數據中心必須接管的備份設備級別。
彈性——指數據中心在出現設備故障或其他任何干擾正常運行的情況下繼續運行的能力。
冗余和彈性是相似的,都處理同一個主題,但它們之間的關鍵區別在于冗余是關于特定設備的容量,而彈性是關于整個數據中心能夠繼續運行。
使討論更加復雜的是,數據中心的冗余越多,它們的彈性就越大。盡管如此,還有其他因素有助于提高彈性,例如每天 24 小時在現場配備工作人員并從一開始就防止設備故障。
與數據中心運營商交談時,請確保他們解釋其彈性聲明背后的原因。如果他們聲稱具有高度彈性而沒有解釋他們的裁員,你應該懷疑。如果您想切入正題,在考慮數據中心時,請直接查看它們與某些設備的冗余水平,這將以 N 為單位表示。
冗余表示為 N
N –是一個計量單位,它是保持數據中心運行所需的冗余設備數量。例如,如果一個數據中心可以依靠一臺發電機運行,那么一臺發電機就是一臺 N。關于冗余和 N 要記住的是,對于每個數據中心,N 將是不同的值,因為它始終與數據中心的要求成正比。
N 的一些常見示例包括:
N = 保持數據中心運行所需的最少設備
N+1 = 保持數據中心運行所需的設備和一臺額外的設備
2N = 保持數據中心運行所需的最低設備數量翻倍
N 越高,數據中心的彈性就越大,因為它會增加在數據中心開始限制其運營之前可能發生故障的設備數量。
確保您所說的任何數據中心都為您提供了它們在滿負荷時的冗余 N 值,而不是它們當時的容量。否則,您可能會在被告知他們將提供 2N 冗余的合同時簽訂合同,但一年后——當數據中心中有更多服務器時——他們實際上提供的冗余比這要少。
數據中心內的冗余和彈性示例
數據中心的不同元素需要不同的冗余設備,但所有這些冗余都需要到位,以使數據中心具有可接受的彈性水平。所有這些冗余應滿足的最小值為 N。
1. 電源
主電源故障是計算機系統發生故障的最常見原因之一,因此適當的電源冗余對于數據中心來說是絕對必要的。電源冗余有兩個要素:UPS(不間斷電源)用于在主電源出現故障時保持所有服務器供電,以及發電機在主電源恢復之前提供無限供電。
UPS 實際上是大型電池,主電源被饋送到數據中心,因此當出現電源故障時,電池會耗盡,保持一切供電,直到可以打開發電機。除了 N 之外,了解數據中心的 UPS 能夠為服務器供電多長時間以及數據中心在現場保留多少發電機燃料也很重要。
2. 冷卻
無論數據中心采用何種冷卻方法——無論是空調機組、冷卻塔,還是浸沒式冷卻——它們的冷卻冗余仍然可以用 N 表示,這將使您了解其冷卻的彈性。影響他們恢復能力的另一個重要因素是數據中心的冷卻系統出現問題的頻率,如果他們經常依賴冗余,那么這是一個危險信號。
3. 連接性
一個數據中心應該鋪設多條線路將它們連接到互聯網,實現大于 N 的冗余分數。要真正實現良好的彈性水平,這些線路應該在地理上是多樣化的,這樣如果其中一個損壞了,另一個就不會了。不會受到影響,因為它位于不同的位置。
權衡不同數據中心的冗余和彈性
您需要權衡的最終因素是整個數據中心的彈性。冗余是彈性的最大貢獻者,但請記住,一個領域的冗余不會提供所有彈性。例如:如果冷卻系統出現故障,備用發電機將無法保護您的服務器免于過熱。您需要準確計算出如何比較不同數據中心的優點,但請記住不要被令人印象深刻的探測設備所蒙蔽,因為最大的正常運行時間是唯一重要的事情。