如何選擇適合您需求的網站監控工具
已發表: 2020-10-07您被警報聲喚醒,不確定時間,但外面很黑,當您開始恢復意識時,您會看到大量通知。
你的應用程序崩潰了,歐洲的用戶非常不安。 一個小時過去了,沒有備份,當您希望恢復正常時,您的客戶服務經理會每 15 分鐘盡職地詢問一次。 你們兩個看著團隊的其他成員醒來,收到消息,並開始互相指責。
您認為,隨著停機時間的第四個小時達到頂峰,整個情況都是可以避免的。 如果有什麼東西警告我們即將到來的厄運就好了。
歡迎來到網站監控的世界,其中應用程序正常運行時間是主要指令。 也許這並不是你凌晨 3 點的火力下降的原因,但如果你在 DevOps 中倖存了這麼久,你就有了——我們敢打賭,這並不令人愉快。
如果您的目標是最大程度地減少這種獨特的痛苦,那麼我們將通過易於瀏覽的指南幫助您減少待命狀態,該指南列出了您對網絡監控提供商的需求。
選擇網站監控工具的一站式指南
讓我們從基礎開始:監控和報告。 就像 1984 年的全能電幕一樣,這裡的監控是指對您的操作的“外部”監督。 外部探測服務器通常用於監控應用程序的狀態。
問責制始於監督,或者更確切地說是可觀察性。 根據您的基礎設施告訴您的信息,您可以學到什麼?
報告量化了你的責任,但好的報告是主觀的。 有些人可能喜歡他們可以打包成任何格式的原始數據。 其他人希望交付自動化報告,有些人希望提供更直觀的方法。 報告是監控的另一面,正確處理這兩個元素將確保您的應用程序保持可訪問性,並滿足您的服務水平協議。
您對基礎架構了解得越多,您從監控中獲得的價值就越大。 提供商經常解析支票類型以保持低成本。 了解基礎架構的 Web 監控需求是節省成本的一個很好的來源。
網絡監控和報告問責制
監控不僅僅是讓你的服務器侏儒在工作中睡著了,它應該告訴你更多,而不是服務是啟動還是關閉。 通過性能指標,您可以清楚地了解基礎架構的運行方式。 尤其是更高級的檢查,例如真實用戶監控 (RUM)——但稍後會詳細介紹。
檢查供應商的狀態頁面,並篩選他們之前 6 到 12 個月的中斷數據。 供應商經常宕機嗎? 他們的整體正常運行時間和事件管理應該為他們的可靠性提供線索。
哪些網站監控檢查類型最有用?
在選擇供應商之前,您要評估您的需求。 回答這個問題,半夜什麼會吵醒你? 該基礎設施應該是您在測試提供者時配置的第一批組件之一。
制定用於監控的攻擊計劃,並列出您必須擁有的服務。 提供固定計劃的服務提供商在這裡可以幫助或傷害。 好的計劃會考慮使用它們的企業的規模。 詢問您的升級和附加選項以自定義您的計劃永遠不會有壞處。
也許促使您搜索網絡監視器的原因是 404 或 SSL 錯誤,但請給自己留出試驗和成長的空間。 在您進行測試時,您無疑會找到其他方法來監控您的系統並使用您的支票分配。

基本檢查及其網絡監控功能
基本檢查通常只做一件事,例如監控單個 URL 或檢查 DNS 記錄。 這些檢查類型通常會提示某人搜索監控,通常是在發生中斷之後。 做到這一點很重要。
HTTP(S)、SSL、DNS 和域到期是一些需要牢記的很好的基本檢查,因為這些是最終用戶傾向於感受到的中斷類型。 這些檢查也構成了大多數企業用戶的監控支柱。 僅包含這些支票類型的計劃是針對初創企業和小型企業的強大“入門”計劃。
HTTP(S) 檢查,有時稱為“網絡監控”,用於監控正常運行時間。 SSL、DNS 和域到期傾向於確保關鍵基礎設施不會因可預防的原因而失敗。 如果您的提供商還包括性能指標,那顯然是一個好處。
確保您的提供商支持在您需要的地方發送警報。 如果您的 SSL 即將到期,最好擺脫官僚機構並將該通知直接放在可以支付續訂費用的人面前,並有足夠的時間讓他們續訂。 如果需要更多專業知識,問題可以自動升級給其他人,那就更好了。
每個 DevOps 團隊都應考慮的高級檢查
高級檢查是一種使用真實用戶數據或基於用戶操作的操作。 這些複雜的檢查類型通常需要一些設置工作。 對於使用它們的組織來說,回報可能是巨大的。
高級檢查類型監督關鍵目標或導航渠道,例如登錄或購買商品。 因為他們表現得像真實用戶(或有時從真實用戶那裡獲取數據),所以這些檢查可以清楚地了解您的網站在各種條件下的性能。
為什麼要花精力設置這些支票類型?
- 測試:在生成大量歷史數據的同時了解新功能和升級的性能
- 第一反應:結帳頁面出現故障可能意味著不止一個 HTTP(S) 檢查失敗。 什麼失敗以及何時失敗是從何處開始診斷的良好指標。
讓我們見見 James,看看多種支票類型是如何有用的:
James 正在為他的公司 Edgeco 推出一款新產品。 這項新服務將需要自己的安全證書以及新的基礎設施。 James 將使用真實用戶監控部署此服務,以便他了解更多有關早期用戶體驗的信息。 SSL 監控將確保當 James 轉移到其他項目時,他的證書將有適當的保護措施,以確保不會忘記更新。
通過監控此 URL 的 HTTP(S) 檢查,James 和他的團隊在檢測到停機時具有第一響應能力。 使用事務檢查,James 可以測試關鍵的用戶流程,例如登錄新服務和使用其核心組件。
由於 James 部署了 Real User Monitoring,因此他的服務收集了他和他的團隊在服務生命週期內所做的每一次更改的使用統計信息。 在六個月內,詹姆斯將有足夠的數據來識別特定地區的績效問題,並指導他的團隊做出相應的改進。 多層檢查有助於保護和簡化複雜基礎設施的管理。
網絡監控軟件必備
您已經確定了所需的支票類型,是時候開始比較這些不錯的功能了,讓您的生活更輕鬆一些。 這裡有很大的區別,因為一些提供商提供狀態頁面或集成作為“高級”產品。
公開和私人報告
可見性很重要。 誰能看到? 高管們會理解嗎? 公眾可以訪問嗎? 在中斷期間,DevOps 可能會在內部和通過用戶承受壓力,因此可見報告是有價值的。
支持不是免費的。 每張支持票,即使是宏/快速響應,也需要時間。 有人必須提交工單,停止處理另一項任務並做出響應。 將您的用戶群增加數十萬或數百萬用戶,並且支持可能會失去一整天的生產力,發送相同的樣板響應關於它是向上還是向下的問題。 可見報告創建了一個平台來回答問題並減少支持響應的壓力。
第二個好處是消息傳遞,因為錯誤的新聞故事會破壞您的聲譽。 當您在災難面前,專注於透明度時,您就會成為新聞來源。 這比受點擊引發爭議的行業擺佈要好得多。
易用性和價值
監控和報告的一切看起來都很棒。 安裝成本如何? 就像您的支持團隊一樣,您的工程師也不是免費工作的。 甚至測試提供商也需要設置成本,因此請花時間評估您的所有要求。
易用性是指從帳戶設置到新用戶入職的任何內容。 在試用期間,您可能會專注於基礎知識並儘快啟動和運行; 長期項目並考慮用戶將如何與系統交互。
如果您要更換提供商,那麼擁有導入/導出功能也很有幫助,您可以輕鬆地轉移數百張支票。
單點登錄軟件 (SSO) 就是一個很好的例子,它為您的公司提供了一定程度的安全性,並使您的用戶更容易採用。 支持文檔和一般用途可以幫助您了解軟件的可訪問性。 您可能會考慮邀請其他用戶嘗試設置一些檢查或檢索報告,以從各個角度測試系統的工作方式。

定制和可觀察性
讓我們考慮一下普通的企業用例,其中 100 多個監視器並非不可能。 這種設置的報告是什麼樣的? 海量,就是一個字。 令人費解,也許是另一個。 超過 100 件事情都將難以追踪,因此從 Web 監控中構建可觀察性還應該考慮到您在完成工作時需要看到的內容。 您的提供商如何處理可見性可以告訴您很多關於他們的主要業務的信息。
一些需要注意的有用功能包括標籤,您可以在其中使用顏色代碼或使用團隊或內部命名約定來組織檢查。 您可能還喜歡在命令行中工作,在這種情況下,API 是一個需要尋找的重要功能。 請務必詢問您在考慮選擇時需要注意的任何潛在限制。
儀表板提供內部可見性
解決這個問題的一種方法是為支票管理提供一個集中的空間。 如果您是喜歡概覽和即時訪問關鍵指標的類型,那麼儀表板可為您提供所需的可見性。 這裡的好處包括可分享性。 您或您的團隊能否設計可以即時切換到的儀表板? 您能否控制訪問或為特定用戶分配特定儀表板?
品牌狀態頁面提供信任
大多數公司都重視透明度,因此狀態頁面是另一個不錯的選擇。 信任不會表現出來。 結合您的監控和狀態頁面提供了簡單性。 如果您為這些服務中的每一項都使用供應商,則需要在兩者之間設置一些層來幫助促進兩者之間的溝通。 通常這意味著有人必須精心創建組件或編寫腳本。 即使這樣,您也可能會將數據提取到自託管服務中,該服務可能會遇到與您的網站相同的中斷風險。
您的狀態頁面和您的網站之間的無縫體驗看起來很專業。 但是,您需要將事件管理納入您的響應例程,包括在中斷或維護窗口期間定期更新您的狀態頁面。
還有一些內部狀態頁面旨在根據需要了解信息。 IT 團隊以外的人員可以了解關鍵停機時間。 當確實發生中斷時,內部狀態頁面將成為更新整個公司的樞紐。
警報和可觀察性
當需要對問題做出反應時,服務水平協議往往會內置該信號的閾值。 這些“錯誤預算”,讓您的團隊在晚上睡覺。 警報及其包含的內容會在 5 到 60 分鐘之間做出響應。
良好的警報具有指導意義。 警報可能包含狀態代碼、建議的修復或將您引導至有用的資源,例如警報分析。 最好的警報表明真正的問題正在發生,並告訴您該問題可能是什麼。 “它已關閉”與“它正在報告 500 錯誤”指向非常不同的問題。
警報和詳細信息
太模糊和 devops 可能會在尋找問題時掉頭髮,但太具體很少有問題。 徹底測試警報系統。 如果您打算更換供應商,請使用警報系統進行比賽日練習。 向您的團隊提供了哪些信息? 警報對您的診斷有幫助嗎?
如果您計劃多次中斷,無論是作為比賽日練習還是擴展測試,您都可以了解很多關於您的監控系統如何工作的信息。 警報會升級嗎? 維護窗口而不是中斷呢? 你的系統能區分嗎?

警報傳遞
讓我們回到我們的 Edgecom 用例。 當詹姆斯在他的 Slack 頻道中收到一個 ping 時,他正在監控他的服務。 HTTP(S) 中斷表明他的博客已關閉。 詹姆斯能夠標記博客的負責人,後者迅速調查了這一事件。 事實證明,異常數量的頁面加載是原因。
該團隊想知道最近的一篇帖子是否像病毒一樣傳播開來。 James 感知到即將發生的攻擊並擴展服務器以提高容量。 果然,他的行為是一系列事件的一部分,這些事件有助於擊退旨在摧毀他的主要網站的 DDoS 攻擊。
這裡的寓意是,發送給您的團隊的警報可能會導致診斷和意外的意外發現。 沒有警報意味著痛苦。 可怕的痛苦。

網絡監控真的是關於分析
不要忽視警報歷史的價值。 經驗豐富的 devops 用戶可能對災難有超自然的感覺。 他們如何磨練這種感覺? 通過觀察災難的原因並仔細記錄它們。
升級和靈活性
假設 James 不再是 DevOps 蜘蛛俠,而且他超自然的感覺還不能完全滿足。 DDoS 攻擊確實會導致一些服務中斷。 監控提供商可以做些什麼來提供幫助?
升級和維護是一個好的開始。 如果您的提供商允許,維護窗口可以靈活地響應中斷,同時提醒用戶。 無論維護是否考慮到您的 SLA,當您可以安排例行維護窗口並將更新推送給您的高級用戶時,它都會很有幫助。
如果您事先規劃好自己的限制,您還可以減少在改組責任和內部升級上浪費的時間。 多長時間才算停電? 在五分鐘或十分鐘後升級是一個不錯的起點,因為更長的中斷意味著確實有問題。 自動升級的警報系統消除了這種猜測,讓您的團隊可以工作而不必擔心何時通知更高層。
合成和真實的用戶 Web 監控以捕捉用戶體驗
停止依賴付費 Beta 測試人員(您的客戶)提供的用戶報告,並直接獲取用戶體驗。 真實用戶監控通常需要一些代碼,例如跟踪像素,但回報是來自真實會話的實際用戶數據。 如果您想知道您的用戶看到了什麼,RUM 監控是您工具包的有用補充。

綜合監控
綜合監控有兩種形式,通常是:API 和事務。 事務檢查正是它們聽起來的樣子。 他們測試目標漏斗並為關鍵交易提供第一響應能力。 成為第一個了解您的購物車、註冊表單、登錄等問題的人。
API 檢查對於檢查驅動服務自動化方面的端點很有用。 您可以對大多數提供商進行 GET、PUSH、PULL、PATCH 或 DELETE,從而為端點監控提供一系列可能性。 如果您可以設置和檢索變量,則可以加分。
支持是網絡監控中的一個看不見的因素
現在是凌晨 2 點,您的網絡監控正在左右發出警報。 你需要幫助! 你需要分析和解釋。 當您遇到看不到或無法複製的錯誤時,來自您的提供商的響應式支持證明了它的價值。
當您需要幫助時,有一個願意與您合作的團隊很重要。 早期的支持交互是服務質量的一個很好的指標。 代理需要多長時間才能響應工單? 他們的回复質量如何?他們可以提供哪些文件? 有哪些支持類型可用,例如電話或聊天支持? 當提供商隱藏聯繫按鈕時,這可能是一個危險信號。
文檔
文檔應該是詳盡的,包括示例,並提供分步說明。 如果您的提供商在他們的文檔中使用代碼,這是一個很好的跡象,他們知道他們在說什麼並認真對待它。 為開發外部工具集、瀏覽器擴展等以幫助創建您的監控系統的提供商提供獎勵積分。
致力於網絡監控提供商
監控和報告是決定您的供應商的最重要組成部分,但不錯的功能列表可以簡化您的工作並改善監督。 請記住,警報的重點是第一反應。 如果您的警報在以太中丟失並且沒有人可以聲稱它,那麼火災真的發生了嗎?
Web 監控軟件是您對客戶群做出的重要承諾的一部分。 它表示您關心提供服務,並且您的用戶可以相信您會為他們服務。 認真對待該承諾意味著要考慮這些要求中的哪些要求與您的組織最相關。
