Gece 03:00 telefon çaldı: 'Disk %95 dolu' alarmı. Doğru tepki, doğru eskalasyon, dokümante süreç — profesyonel BT operasyonun kalbi.
Alarm Triage
P1 (Critical): Production down, müşteri etkisi. Anında müdahale, üst yöneticiye bildirim.
P2 (High): Performans degredasyon, yakın gelecekte kritikleşebilir. 1-4 saat müdahale.
P3 (Medium): Servis çalışıyor ama anormal davranış. İş saati müdahale.
P4 (Low): Info, trend analizi.
Runbook'lar
Her tekrarlayan alarm için yazılı prosedür. 'Disk full' alarmında: hangi sunucu, hangi klasör, eski log nereden silinir, kim onaylar.
Confluence, Notion, Sharepoint'te erişilebilir olmalı.
Eskalasyon
PagerDuty, OpsGenie: Otomatik eskalasyon. 15 dk yanıt yoksa next-on-call.
On-call rotation: hafta bazında, 7/24 sorumluluk.
On-call burnout: alarm tuning ile false positive azalt.
Post-Mortem
Major incident sonrası blameless post-mortem. Ne oldu, neden, ne öğrendik, ne değiştireceğiz.
Smyrna Bilgi Teknolojileri olarak İzmir'deki kurumlara 7/24 monitoring ve incident response hizmeti veriyoruz.
Sıkça Sorulan Sorular
Alarm yorgunluğu nasıl çözülür?
Alarm threshold revision, anomaly detection (basic threshold yerine). Gerçek olmayan %50+ alarmları kapatın.
On-call kompensasyon?
Hafta başı tazminat + alarm başı bonus + lieu day. Şirket politikası belirler.
MSSP/SOC outsource alternatif mi?
Evet, küçük ekipler için ekonomik. Yine de iç ekip tarafında runbook ve son sorumluluk şart.
Yardıma mı ihtiyacınız var?
İzmir Bayraklı merkezli ekibimiz aynı gün yerinde müdahale ediyor.
+90 542 767 00 29 Teklif Alİlgili konular: Monitoring Zabbix · Helpdesk