Kritik Sunucu Alarmları: Doğru Tepki Verme

Gece 03:00 telefon çaldı: 'Disk %95 dolu' alarmı. Doğru tepki, doğru eskalasyon, dokümante süreç — profesyonel BT operasyonun kalbi.

Alarm Triage

P1 (Critical): Production down, müşteri etkisi. Anında müdahale, üst yöneticiye bildirim.

P2 (High): Performans degredasyon, yakın gelecekte kritikleşebilir. 1-4 saat müdahale.

P3 (Medium): Servis çalışıyor ama anormal davranış. İş saati müdahale.

P4 (Low): Info, trend analizi.

Runbook'lar

Her tekrarlayan alarm için yazılı prosedür. 'Disk full' alarmında: hangi sunucu, hangi klasör, eski log nereden silinir, kim onaylar.

Confluence, Notion, Sharepoint'te erişilebilir olmalı.

Eskalasyon

PagerDuty, OpsGenie: Otomatik eskalasyon. 15 dk yanıt yoksa next-on-call.

On-call rotation: hafta bazında, 7/24 sorumluluk.

On-call burnout: alarm tuning ile false positive azalt.

Post-Mortem

Major incident sonrası blameless post-mortem. Ne oldu, neden, ne öğrendik, ne değiştireceğiz.

Smyrna Bilgi Teknolojileri olarak İzmir'deki kurumlara 7/24 monitoring ve incident response hizmeti veriyoruz.

Sıkça Sorulan Sorular

Alarm yorgunluğu nasıl çözülür?

Alarm threshold revision, anomaly detection (basic threshold yerine). Gerçek olmayan %50+ alarmları kapatın.

On-call kompensasyon?

Hafta başı tazminat + alarm başı bonus + lieu day. Şirket politikası belirler.

MSSP/SOC outsource alternatif mi?

Evet, küçük ekipler için ekonomik. Yine de iç ekip tarafında runbook ve son sorumluluk şart.

Yardıma mı ihtiyacınız var?

İzmir Bayraklı merkezli ekibimiz aynı gün yerinde müdahale ediyor.

+90 542 767 00 29 Teklif Al

İlgili konular: Monitoring Zabbix · Helpdesk