Yüksek Erişilebilirlik Dağıtım Modeli
Amaç
Cyprob EE’nin bileşen arızalarında ve artan tarama yükünde servis sürekliliğini nasıl koruduğunu tanımlamak.
Dağıtım Modları (Mevcut Model)
Cyprob EE production paketinde iki işletim modu vardır:
- Standalone: API + embedded worker aynı runtime akışında
- HA-Lite: API/control-plane ile dedicated worker container’lar ayrılmış
Mod seçimi ortam ve kapasiteye göre yapılabilir; daha yüksek throughput ve arıza izolasyonu için HA-Lite önerilir.
Önerilen Topoloji (HA-Lite)
- 1+ API/control-plane instance
- PostgreSQL ana veri katmanı (müşteri tercihine göre dayanıklılık modeli)
- Birden fazla stateless worker container
- API önünde reverse proxy/ingress
- Worker ölçek yönetimi için opsiyonel watcher/governor
HA-Lite Neden Önemli?
- Tarama yürütmesini API yanıt verebilirliğinden ayırır
- Control-plane’i yeniden tasarlamadan worker kapasitesi artırılır
- Worker çökmesi/yeniden başlatmada etki alanını sınırlar
Arıza Davranışı Beklentileri
Worker Arızası
Beklenen davranış:
- Başarısız worker’daki işler kuyruk/kurtarma mantığına göre yeniden denenir veya atanır.
- Control-plane ve UI/API erişimi devam eder.
Operasyon aksiyonu:
- Worker’ı yeniden başlat/değiştir.
- Kuyruk boşalmasını ve scan ilerlemesini doğrula.
API/Control-Plane Yeniden Başlatma
Beklenen davranış:
- Kısa süreli API kesintisi olabilir.
- Arka plan iş sürekliliği kuyruk/state kalıcılığına ve worker erişimine bağlıdır.
Operasyon aksiyonu:
- API servisini geri getir.
- Scan durumlarını ve health endpoint’lerini yeniden doğrula.
Veritabanı Erişimsizliği
Beklenen davranış:
- Çekirdek operasyonlar yavaşlar veya durur.
- Yeni scan oluşturma ve state geçişleri etkilenir.
Operasyon aksiyonu:
- Önce DB erişimini geri getir.
- Connection pool ve migration durumunu doğrula.
Minimum Boyutlandırma Rehberi (Başlangıç)
- Küçük pilot: 1 API + embedded worker, 4-8 GB RAM sınıfı
- Production başlangıç: 1 API + dedicated worker, 8+ GB RAM sınıfı
- Ölçek stratejisi: önce worker replica artır, sonra API/DB tuning yap
Nihai boyutlandırma hedef sayısı, politika derinliği ve eşzamanlılıkla doğrulanmalıdır.
Operasyonel Sağlık Kontrolleri
- API health endpoint sağlıklı (
/healthveya dağıtıma göre/healthz) - Worker heartbeat/durum telemetride görünür
- Kuyruk derinliği pikte kabul edilebilir aralıkta
- Başarısız/tekrar denenen iş oranları izleniyor
HA Doğrulama Checklist'i
- Aktif scan sırasında bir worker crash simülasyonu ve recovery doğrulaması
- Kritik olmayan pencerede API restart ve süreklilik doğrulaması
- Geçici arıza sonrası kuyruk boşalmasının doğrulanması
- Degrade durumlarda izleme/alerting’in çalıştığının doğrulanması
Limitler
- HA-Lite, tam multi-region active-active mimari ile eşdeğer değildir.
- Dayanıklılık seviyesi DB ve altyapı hardening kararlarına bağlıdır.
Sonraki Adım
Değerlendirme sırasında gelecek teknik/ticari itirazlar için SSS sayfasına geç.