專案

一般

配置概況

動作

Maintain #347

進行中

FD / CA 記憶體過高問題排查

是由 andy chiang4 個月 前加入. 於 4 個月 前更新.

狀態:
Ongoing
優先權:
MEDIUM
被分派者:
開始日期:
2025-11-10
完成日期:
完成百分比:

0%


概述

Kubernetes 記憶體 OOM 與 FailCnt 分析總結報告
一、現象總覽

主要受影響服務:

  • fraud-detect-predict
  • card-abnormal-predict

OOM log 顯示 gunicorn 多次觸發:

  • gunicorn invoked oom-killer
  • Memory cgroup out of memory: Killed process ... (gunicorn)

各 pod 約每 1–2 天被殺一個 worker,master process 存活 → Pod 沒重啟

fraud-detect-predict 與 card-abnormal-predict failcnt 值持續累積(>10k),代表:

  • 長期貼近 memory limit
  • 程式頻繁被 cgroup 拒絕記憶體配置
  • 延遲上升或請求失敗的潛在風險高

相關的議題清單 1 (1 進行中0 已結束)

關聯至 AI model predict - Bug #348: FD記憶體OOMNewmartin zhuo2025-11-10

動作

是由 martin zhuo4 個月 前更新

  • 關聯至 Bug #348: FD記憶體OOM 已新增
動作

匯出至 Atom PDF