- Staging cluster werkend tot op phase 6 van cluster-install.md, inclusief HTTPS, Bunny, verificatie service.

2025-08-29 17:50:14 +02:00
parent 2a4c9d7b00
commit 25ab9ccf23
23 changed files with 1525 additions and 889 deletions
--- a/scaleway/manifests/base/monitoring/kustomization.yaml
+++ b/scaleway/manifests/base/monitoring/kustomization.yaml
@@ -0,0 +1,16 @@
+apiVersion: kustomize.config.k8s.io/v1beta1
+kind: Kustomization
+
+namespace: monitoring
+
+helmCharts:
+- name: kube-prometheus-stack
+  repo: https://prometheus-community.github.io/helm-charts
+  version: "55.5.0"
+  releaseName: monitoring
+  namespace: monitoring
+  valuesFile: values-monitoring.yaml
+
+commonLabels:
+  environment: staging
+  managed-by: kustomize
--- a/scaleway/manifests/base/monitoring/prometheus-values.yaml
+++ b/scaleway/manifests/base/monitoring/prometheus-values.yaml
@@ -0,0 +1,71 @@
+# prometheus-values.yaml
+# Global settings
+fullnameOverride: "monitoring"
+
+# Prometheus configuration
+prometheus:
+  prometheusSpec:
+    retention: 15d
+    resources:
+      limits:
+        cpu: 500m
+        memory: 2Gi
+      requests:
+        cpu: 100m
+        memory: 512Mi
+    storageSpec:
+      volumeClaimTemplate:
+        spec:
+          accessModes: ["ReadWriteOnce"]
+          resources:
+            requests:
+              storage: 10Gi
+
+# Grafana configuration
+grafana:
+  enabled: true
+  adminPassword: "admin123"  # Change this for production
+  resources:
+    limits:
+      cpu: 200m
+      memory: 256Mi
+    requests:
+      cpu: 50m
+      memory: 128Mi
+  persistence:
+    enabled: true
+    size: 2Gi
+
+# AlertManager configuration
+alertmanager:
+  alertmanagerSpec:
+    resources:
+      limits:
+        cpu: 100m
+        memory: 256Mi
+      requests:
+        cpu: 10m
+        memory: 64Mi
+    storage:
+      volumeClaimTemplate:
+        spec:
+          accessModes: ["ReadWriteOnce"]
+          resources:
+            requests:
+              storage: 2Gi
+
+# Node Exporter
+nodeExporter:
+  enabled: true
+
+# Kube State Metrics
+kubeStateMetrics:
+  enabled: true
+
+# Disable components you might not need in staging
+kubeEtcd:
+  enabled: false
+kubeScheduler:
+  enabled: false
+kubeControllerManager:
+  enabled: false
--- a/scaleway/manifests/base/monitoring/values-monitoring.yaml
+++ b/scaleway/manifests/base/monitoring/values-monitoring.yaml
@@ -0,0 +1,131 @@
+# Prometheus Community Helm Chart Values
+# For kube-prometheus-stack
+
+# Global settings
+global:
+  scrape_interval: 15s
+  evaluation_interval: 15s
+
+# Prometheus configuration
+prometheus:
+  prometheusSpec:
+    retention: 30d
+    storageSpec:
+      volumeClaimTemplate:
+        spec:
+          storageClassName: scw-bssd
+          accessModes: ["ReadWriteOnce"]
+          resources:
+            requests:
+              storage: 50Gi
+
+    # External services monitoring (Scaleway managed services)
+    additionalScrapeConfigs:
+      - job_name: 'scaleway-redis'
+        static_configs:
+          - targets: ['redis-endpoint:6379']
+        metrics_path: /metrics
+        scrape_interval: 30s
+
+      - job_name: 'scaleway-postgresql'
+        static_configs:
+          - targets: ['postgres-endpoint:5432']
+        metrics_path: /metrics
+        scrape_interval: 30s
+
+    # Resource limits
+    resources:
+      requests:
+        memory: 2Gi
+        cpu: 500m
+      limits:
+        memory: 4Gi
+        cpu: 1000m
+
+# Grafana configuration
+grafana:
+  adminPassword: "admin123"  # Change in production
+  persistence:
+    enabled: true
+    storageClassName: scw-bssd
+    size: 10Gi
+
+  # Resource limits
+  resources:
+    requests:
+      memory: 256Mi
+      cpu: 100m
+    limits:
+      memory: 512Mi
+      cpu: 200m
+
+  # Pre-configured dashboards
+  dashboardProviders:
+    dashboardproviders.yaml:
+      apiVersion: 1
+      providers:
+      - name: 'eveai-dashboards'
+        folder: 'EveAI'
+        type: file
+        options:
+          path: /var/lib/grafana/dashboards/eveai
+
+  # Ingress configuration (will be handled by main ingress)
+  ingress:
+    enabled: false
+
+# Pushgateway for batch jobs
+pushgateway:
+  enabled: true
+  serviceMonitor:
+    enabled: true
+  resources:
+    requests:
+      memory: 64Mi
+      cpu: 50m
+    limits:
+      memory: 128Mi
+      cpu: 100m
+
+# AlertManager
+alertmanager:
+  alertmanagerSpec:
+    storage:
+      volumeClaimTemplate:
+        spec:
+          storageClassName: scw-bssd
+          accessModes: ["ReadWriteOnce"]
+          resources:
+            requests:
+              storage: 10Gi
+    resources:
+      requests:
+        memory: 128Mi
+        cpu: 50m
+      limits:
+        memory: 256Mi
+        cpu: 100m
+
+# Node Exporter
+nodeExporter:
+  enabled: true
+
+# Kube State Metrics
+kubeStateMetrics:
+  enabled: true
+
+# Disable components we don't need
+kubeApiServer:
+  enabled: false
+kubelet:
+  enabled: true
+kubeControllerManager:
+  enabled: false
+coreDns:
+  enabled: true
+kubeEtcd:
+  enabled: false
+kubeScheduler:
+  enabled: false
+kubeProxy:
+  enabled: false