云應(yīng)用程序通常在可靠的正常運行時間方面贏得了良好的聲譽。但是,通過持續(xù)測試可用性和響應(yīng)時間來監(jiān)控您的云托管系統(tǒng)和應(yīng)用程序仍然很重要。這四個監(jiān)控技巧可以幫助您依靠云。

云服務(wù)提供商通常會提供三個 9 或更好的正常運行時間,但確實會發(fā)生中斷。即使主要參與者在 Web 架構(gòu)中內(nèi)置了所有冗余和其他保護措施,他們的系統(tǒng)仍然會因各種故障而癱瘓。這里有一些例子:
- 過期的 SSL 證書導(dǎo)致大多數(shù) Microsoft Azure 用戶的加密存儲流量在全球范圍內(nèi)中斷 12 小時(對于某些用戶,則為 24 小時中斷)。
- 一個內(nèi)部 DNS 錯誤導(dǎo)致 Apple 每小時損失 200 萬美元,而其應(yīng)用商店、iTunes 和其他服務(wù)出現(xiàn)故障。
- 數(shù)據(jù)中心虛擬網(wǎng)絡(luò)故障導(dǎo)致 Google Compute Engine 中斷了 2 小時 40 分鐘。
無聲的減速會削弱生產(chǎn)力和銷售
中斷不應(yīng)該是您對云服務(wù)的唯一關(guān)注。減速可能與用戶中斷的行為相同 - 更糟糕的是,在用戶抱怨之前,它們很容易被忽視?;蛘咚麄兛赡懿粫г?,并且經(jīng)常性的生產(chǎn)力損失或銷售來源將不會被發(fā)現(xiàn)。
例如,如果您的銷售人員使用基于云的 CRM 系統(tǒng)登錄需要 15 秒,那么您需要知道。本質(zhì)上,你付錢讓人們等待。如果您的購物車在 8 秒內(nèi)沒有提供完全填充的響應(yīng),那么對于大多數(shù)潛在買家來說,該系統(tǒng)就像停機一樣好。
不要讓這些減速沒有被發(fā)現(xiàn)。監(jiān)控云應(yīng)用程序可能很棘手,但您的云應(yīng)用程序的持續(xù)性能和歷史記錄應(yīng)該在您的網(wǎng)絡(luò)管理儀表板上與其他關(guān)鍵系統(tǒng)具有相同級別的可見性。應(yīng)用程序性能管理工具APM允許開發(fā)團隊主動監(jiān)控和改進應(yīng)用程序性能。APM 工具(例如Stackify Retrace)提供代碼級洞察以及集成日志記錄,以識別 QA 中的更多問題并持續(xù)觀察生產(chǎn)環(huán)境中的應(yīng)用程序。

監(jiān)控云主機應(yīng)用
除了驗證您的云應(yīng)用程序的當(dāng)前可用性之外,您的監(jiān)控工具還應(yīng)該自動跟蹤這些元素:
- 事務(wù)步驟:如果需要按順序執(zhí)行多個步驟(初始身份驗證、數(shù)據(jù)庫調(diào)用、中間件步驟等),請確認這些步驟中的任何一個步驟是否處于非活動狀態(tài)或緩慢。如果是這樣,您應(yīng)該能夠確定故障元素對整體可用性的影響。
- 延遲:如果網(wǎng)絡(luò)延遲嚴重影響基于 Web 的應(yīng)用程序,您需要跟蹤該延遲并盡可能跟進以解決問題。延遲尤其會導(dǎo)致移動用戶的服務(wù)延遲,因此如果該平臺對您的業(yè)務(wù)至關(guān)重要,您需要能夠一眼看出延遲是否會造成或加劇服務(wù)問題。
- 響應(yīng)時間警報:設(shè)置頁面加載時間的警報級別,對于許多應(yīng)用程序,響應(yīng)速度低于 1.5 – 2 秒意味著服務(wù)已嚴重受損。
- 服務(wù)器/網(wǎng)絡(luò)計時:如果您看到的有關(guān)云環(huán)境性能的數(shù)據(jù)不夠精細,您可能不知道服務(wù)問題是否與網(wǎng)絡(luò)問題、服務(wù)器配置甚至頁面或腳本設(shè)計有關(guān)。
擁有讓云服務(wù)提供商承擔(dān)責(zé)任所需的數(shù)據(jù)
了解基于云的系統(tǒng)的實時狀態(tài)可以讓您有時間為即將發(fā)生的中斷的影響做好準備。您可能能夠采取糾正措施,或者至少與受影響的用戶進行溝通,以便他們了解問題并采取相應(yīng)措施。
能夠一目了然地查看歷史信息并生成報告以記錄它,這一點也很重要。有了這些數(shù)據(jù),您就可以讓您的服務(wù)提供商承擔(dān)責(zé)任。如果他們沒有達到他們承諾的服務(wù)水平要求,您需要向他們展示正在發(fā)生的事情。

如果您已經(jīng)完成了將裸機服務(wù)遷移到云的艱苦工作,您可能已經(jīng)看到正常運行時間增加了,這很好。但云在 IT 系統(tǒng)基礎(chǔ)設(shè)施中的作用顯著增加,可能會產(chǎn)生更多的復(fù)雜性和更多的服務(wù)問題。通過徹底監(jiān)控云托管的應(yīng)用程序,立即為處理新出現(xiàn)的云服務(wù)問題做好準備。






