專案

一般

配置概況

動作

Maintain #140

已結束

209異常當機&harbor服務資料損毀修復

是由 andy chiang11 個月 前加入. 於 約 2 個月 前更新.

狀態:
Close
優先權:
URGENT
被分派者:
開始日期:
2025-03-24
完成日期:
2025-03-24
完成百分比:

100%


概述

3/24 早上巡檢發現 209 無法遠程,機器疑似當機。相關服務皆無法使用。

是由 andy chiang11 個月 前更新

  • 完成日期 設定為 2025-03-24
  • 狀態Ongoing 變更為 Close
  • 完成百分比0 變更為 100

處理過程:

  1. 機器無法遠程,進機房重開機嘗試
  2. 重開機無效,連接螢幕排查,但無畫面
  3. 多次嘗試後,將機器搬出機房連接其他螢幕後有畫面
  4. 開機後會報錯,須直接進入bios重啟,因此才無法直接重開機遠程連線 (可能某東西異常導致)
  5. 重啟恢復後,將各docker 服務開啟,harbor失敗
  6. 查看 harbor log 看到 AOF 資料損毀導致
  7. 將整個 harbor compose down,並重新 docker compose up
  8. 恢復正常,排查完成

是由 andy chiang約 2 個月 前更新

為什麼要 down 再 up 才會解決 AOF?

在 Harbor 的架構中,Redis 主要負責 Jobservice 的任務隊列、Session 管理以及緩存。當 Harbor Log 顯示 AOF (Append Only File) 損毀時,是指 Redis 容器無法正常載入其持久化檔案。很多時候損毀其實是 Jobservice 與 Redis 之間的 State 不一致。重新 up 強制所有 Harbor 組件重新進行握手,讓狀態重置

動作

匯出至 Atom PDF