Ana içeriğe geç

Yüksek Erişilebilirlik Dağıtım Modeli

Amaç

Cyprob EE’nin bileşen arızalarında ve artan tarama yükünde servis sürekliliğini nasıl koruduğunu tanımlamak.

Dağıtım Modları (Mevcut Model)

Cyprob EE production paketinde iki işletim modu vardır:

  • Standalone: API + embedded worker aynı runtime akışında
  • HA-Lite: API/control-plane ile dedicated worker container’lar ayrılmış

Mod seçimi ortam ve kapasiteye göre yapılabilir; daha yüksek throughput ve arıza izolasyonu için HA-Lite önerilir.

Önerilen Topoloji (HA-Lite)

  • 1+ API/control-plane instance
  • PostgreSQL ana veri katmanı (müşteri tercihine göre dayanıklılık modeli)
  • Birden fazla stateless worker container
  • API önünde reverse proxy/ingress
  • Worker ölçek yönetimi için opsiyonel watcher/governor

HA-Lite Neden Önemli?

  • Tarama yürütmesini API yanıt verebilirliğinden ayırır
  • Control-plane’i yeniden tasarlamadan worker kapasitesi artırılır
  • Worker çökmesi/yeniden başlatmada etki alanını sınırlar

Arıza Davranışı Beklentileri

Worker Arızası

Beklenen davranış:

  • Başarısız worker’daki işler kuyruk/kurtarma mantığına göre yeniden denenir veya atanır.
  • Control-plane ve UI/API erişimi devam eder.

Operasyon aksiyonu:

  • Worker’ı yeniden başlat/değiştir.
  • Kuyruk boşalmasını ve scan ilerlemesini doğrula.

API/Control-Plane Yeniden Başlatma

Beklenen davranış:

  • Kısa süreli API kesintisi olabilir.
  • Arka plan iş sürekliliği kuyruk/state kalıcılığına ve worker erişimine bağlıdır.

Operasyon aksiyonu:

  • API servisini geri getir.
  • Scan durumlarını ve health endpoint’lerini yeniden doğrula.

Veritabanı Erişimsizliği

Beklenen davranış:

  • Çekirdek operasyonlar yavaşlar veya durur.
  • Yeni scan oluşturma ve state geçişleri etkilenir.

Operasyon aksiyonu:

  • Önce DB erişimini geri getir.
  • Connection pool ve migration durumunu doğrula.

Minimum Boyutlandırma Rehberi (Başlangıç)

  • Küçük pilot: 1 API + embedded worker, 4-8 GB RAM sınıfı
  • Production başlangıç: 1 API + dedicated worker, 8+ GB RAM sınıfı
  • Ölçek stratejisi: önce worker replica artır, sonra API/DB tuning yap

Nihai boyutlandırma hedef sayısı, politika derinliği ve eşzamanlılıkla doğrulanmalıdır.

Operasyonel Sağlık Kontrolleri

  • API health endpoint sağlıklı (/health veya dağıtıma göre /healthz)
  • Worker heartbeat/durum telemetride görünür
  • Kuyruk derinliği pikte kabul edilebilir aralıkta
  • Başarısız/tekrar denenen iş oranları izleniyor

HA Doğrulama Checklist'i

  • Aktif scan sırasında bir worker crash simülasyonu ve recovery doğrulaması
  • Kritik olmayan pencerede API restart ve süreklilik doğrulaması
  • Geçici arıza sonrası kuyruk boşalmasının doğrulanması
  • Degrade durumlarda izleme/alerting’in çalıştığının doğrulanması

Limitler

  • HA-Lite, tam multi-region active-active mimari ile eşdeğer değildir.
  • Dayanıklılık seviyesi DB ve altyapı hardening kararlarına bağlıdır.

Sonraki Adım

Değerlendirme sırasında gelecek teknik/ticari itirazlar için SSS sayfasına geç.