動作
Maintain #347
進行中FD / CA 記憶體過高問題排查
開始日期:
2025-11-10
完成日期:
完成百分比:
0%
概述
Kubernetes 記憶體 OOM 與 FailCnt 分析總結報告
一、現象總覽
主要受影響服務:
- fraud-detect-predict
- card-abnormal-predict
OOM log 顯示 gunicorn 多次觸發:
- gunicorn invoked oom-killer
- Memory cgroup out of memory: Killed process ... (gunicorn)
各 pod 約每 1–2 天被殺一個 worker,master process 存活 → Pod 沒重啟
fraud-detect-predict 與 card-abnormal-predict failcnt 值持續累積(>10k),代表:
- 長期貼近 memory limit
- 程式頻繁被 cgroup 拒絕記憶體配置
- 延遲上升或請求失敗的潛在風險高
動作