動作
Maintain #140
已結束209異常當機&harbor服務資料損毀修復
開始日期:
2025-03-24
完成日期:
2025-03-24
完成百分比:
100%
概述
3/24 早上巡檢發現 209 無法遠程,機器疑似當機。相關服務皆無法使用。
是由 andy chiang 於 11 個月 前更新
- 完成日期 設定為 2025-03-24
- 狀態 從 Ongoing 變更為 Close
- 完成百分比 從 0 變更為 100
處理過程:
- 機器無法遠程,進機房重開機嘗試
- 重開機無效,連接螢幕排查,但無畫面
- 多次嘗試後,將機器搬出機房連接其他螢幕後有畫面
- 開機後會報錯,須直接進入bios重啟,因此才無法直接重開機遠程連線 (可能某東西異常導致)
- 重啟恢復後,將各docker 服務開啟,harbor失敗
- 查看 harbor log 看到 AOF 資料損毀導致
- 將整個 harbor compose down,並重新 docker compose up
- 恢復正常,排查完成
是由 andy chiang 於 約 2 個月 前更新
為什麼要 down 再 up 才會解決 AOF?
在 Harbor 的架構中,Redis 主要負責 Jobservice 的任務隊列、Session 管理以及緩存。當 Harbor Log 顯示 AOF (Append Only File) 損毀時,是指 Redis 容器無法正常載入其持久化檔案。很多時候損毀其實是 Jobservice 與 Redis 之間的 State 不一致。重新 up 強制所有 Harbor 組件重新進行握手,讓狀態重置
動作