[請益] 系統&服務監控

看板 Soft_Job
作者 PTTCEO (批踢踢首席執行長)
時間 2019-08-03 22:09:34
留言 18則留言 (9推 0噓 9→)

目前有需求是要監控系統資訊跟服務 並且做警報(Email通知) 請問各位大大 有沒有推薦的 系統跟服務監控 解決方案? 需求有以下幾點: 1.監控基本的系統資訊項目(CPU, Memory, Disk usage, Disk IO) 2.監控項目需要比較複雜的定義(例如CPU連續5分鐘平均 > 90) 3.監控服務是否還在運作(簡單的探測一下API) 4.監控某個RESTful API的狀態(例如系統授權是否即將到期) 5.監控的服務項目需要discover(打某個API取得目前有哪些instance) 6.符合警報後寄送email通知 7.Email通知需要支援群組設定(例如TechSupport群組, 客服群組, Sales群組) 8.通知規則需要支援複雜規則(一個period內的警報只寄送一次, 警報後特定條件內不再 發mail) 9.需要同時支援Windows跟Linux平台(系統資訊採集Windows透過WMI, Linux透過別的) 10.需要能夠單機執行(非一個master搭配agent做群集監控) 原本的想法是自己用熟悉的語言(Java or GO)刻一個簡單的程式 但發現要做到那些規則的定義跟configuration 包括Email通知規則 好像也不是這麼簡單的一個小program 也不太想要從輪子開始打造 Survey了好一番 監控的解決方案從Zabbix到其他一大堆 眼花撩亂的 但有些非免費 有些僅限Linux平台 有些功能太多 有些功能又缺了些 像是這個GOLang寫的Checkup https://github.com/sourcegraph/checkup 差了系統資訊監控跟規則&警報定義 只能做到status check而已 目前找到的只有 Prometheus https://prometheus.io/ 應該都有符合需求 搭配AlertManager, WMI_exporter, Blackbox exporter 可惜還差了discover service以及監控某個API狀態的需求 可能得自己刻一個json exporter? 或者已經有現成的exporter呢? 不知道是否有其他的解決方案可以參考的 感謝各位~ --
※ 批踢踢實業坊(ptt.cc), 來自: 111.250.83.50 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1564841379.A.939.html

MOONY135: 除了四跟五我好像都有現成方案 08/03 22:22

wwfkane: zabbix、nagios 08/03 22:23

jack0204: 自己寫資訊來接服務比較好吧 08/03 22:25

MOONY135: Qt可以做桌面的 四五沒做過 不過應該也是可以測 08/03 22:27

alihue: 普羅米修斯 08/03 23:07

s890510: 普羅米修斯+grafa 08/03 23:08

s890510: na 08/03 23:08

e920528: Prometheus 08/03 23:22

slash66: WhatsupGold 08/03 23:57

ripple0129: 這年代除非你很熟其他方案之外,還有比Prometheus + g 08/04 02:00

ripple0129: rafana更強大的選擇嗎,會來問基本上就是不用考慮了, 08/04 02:00

ripple0129: 入門簡單又強大。 08/04 02:00

PoloHuang: Zabbix 08/04 10:54

Sieg2010: Zabbix 08/04 18:41

SmallpTsai: Prometheus 08/05 21:56

bamchisu: 推自己磕 08/06 12:45

bamchisu: 加油 OS跟web server也做一下 08/06 12:46

bamchisu: 還有程式語言跟編譯器 08/06 12:47

您可能感興趣