專案

一般

配置概況

動作

System #181

已結束

Maintain #169: 更新維護紀錄

elasticsearch 9200 port down

是由 martin zhuo10 個月 前加入. 於 10 個月 前更新.

狀態:
Close
優先權:
LOW
被分派者:
開始日期:
2025-05-09
完成日期:
完成百分比:

0%


概述

momo 正元:
5/8 17:34 10.120.87.33 發生9200 port down

由於維運需要紀錄事件
【確認root cause時間】:
【案件處理時間】:
的相關資訊,以作為指標及後續改善方向
請配合回覆相關資訊,以利案件可以順利結案


檔案

S__5644293_0.jpg (290 KB) S__5644293_0.jpg andy chiang, 2025-05-12 03:10
S__5644294_0.jpg (305 KB) S__5644294_0.jpg andy chiang, 2025-05-12 03:10
S__5644295_0.jpg (391 KB) S__5644295_0.jpg andy chiang, 2025-05-12 03:10
S__5644296_0.jpg (405 KB) S__5644296_0.jpg andy chiang, 2025-05-12 03:10
S__5644297_0.jpg (379 KB) S__5644297_0.jpg andy chiang, 2025-05-12 03:10
S__5644298_0.jpg (317 KB) S__5644298_0.jpg andy chiang, 2025-05-12 03:10
S__5644299_0.jpg (501 KB) S__5644299_0.jpg andy chiang, 2025-05-12 03:10
S__5644300_0.jpg (333 KB) S__5644300_0.jpg andy chiang, 2025-05-12 03:10

是由 martin zhuo10 個月 前更新

elasticsearch 有三節點:

  • 10.120.87.25(主節點)
  • 10.120.87.32
  • 10.120.87.33

18:00時檢查 logstash 發現有 Connection Refused, Timeout等error,而後又可正常寫入
推測為主節點將資料分片分配到.33節點,而.33節點可能因 資源耗盡、連線數過多、記憶體不足 導致 HTTP 接口崩潰
建議需確認.33 elasticsearch節點資源狀況,及9200 port 是否恢復

是由 martin zhuo10 個月 前更新

  • 被分派者martin zhuo 變更為 andy chiang

是由 andy chiang10 個月 前更新

排查流程:

  • es-03 down
  • 監控看起來 18點整個ES中止運行,es-01 02 活著所以日誌還在跑, 也沒有觸發日誌異常警告
  • 端口監聽正常
  • 磁碟空間充足
  • 連線數 02 201, 03 292
  • 已重新將未分配的shard 復原

原因
OOM (記憶體不足)
目前配置 -Xms16384m -Xmx16384m => 16GB (JVM HEAP)
-XX:MaxDirectMemorySize=8589934592 => 8G (不走HEAP) 有可能是這個8G加上去,導致記憶體爆掉

需要優化設定檔,限制 memory使用

是由 andy chiang10 個月 前更新

  • 追蹤標籤問題單 變更為 System

是由 andy chiang10 個月 前更新

  • 狀態Ongoing 變更為 Close
動作

匯出至 Atom PDF