[網管應用] 監控告警系統Bosun簡易告警規則設定

新增告警的規則,其中有幾個大規則,分別是alert、template及notification。
alert            設定告警的標準,譬如CPU>90%要告警。
template        設定告警的樣式,譬如告警要包含主機名、事件名稱或其他應載事項。
notification    設定告警的方式,譬如告警要使用Email方式。

產生一個告警的範例的過程
a.    進到Bosun的管理介面,點選「Item」後再選你要建立告警的Hosts。

b.    進入後,點選「Available Metrics」,選擇你要監控告警的項目

c.    本例選擇針對「os.cpu」進行監控,按「Rule」就會產生規則。

d.    它會自動跳轉到「Rule Editor」,並自動產生template test及alert test,你可以基於範例進行客製規則。

e.    針對alert test做了以下修改,設定警告和嚴重的標準值。

$benchmark用來存放數值,warn是警告,crit是嚴重,如果數值超過60,就符合警告,超過80,就符合嚴重。
template = test是指告警的樣式是套用template test。

f.    警告和嚴重要寄Email通知,做了以下修改。

加入了warnNotification及critNotification,通通都指向了email.notification,而email.notification中email設定了告警信的收件者,
next = email.notification和timeout = 30m是配套,意思是每30分鐘就發一次告警信,如果系統中的警告沒人確認取消。

g.    原始產生的template test是比較簡單的,我要在裡面加上告警時的圖,所以修改成

h.    當alert、template、notification都完成後,就可以按「Validate」來驗證語法正不正確,正確會出現綠色的Valid。

i.    接著驗證語法執行結果,按「Test test」,下方就會出現執行結果,本例的結果是normal,表示正常無告警情況。

j.    請將整段語法或修改過的語法,放進你的bosun.conf裡,設定內容更新,並重啟docker container後,規則就正式生效了。

k.   將告警規則套用到所有主機
請將你規則中的host = [主機名稱] 改成host = *,那這條規則就會對每台主機進行核對。

l.    同一條規則,對不同主機有不同的告警標準,使用lookup語法,裡面有二個entry,它們的host是不同的,而不同的host有不同的warn和crit的標準,
      而在alert中也使用lookup來載入標準,則對每個entry定義的host就會使用相對應的標準來決定是否有超過告警門檻。

 

以上為基本的告警規則建立方法,如果需要更進階的設定,請參考官網的教學文件。

 

Comments |0|

Legend *) Required fields are marked
**) You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>
Category: 網管應用