動作
System #181
已結束Maintain #169: 更新維護紀錄
elasticsearch 9200 port down
開始日期:
2025-05-09
完成日期:
完成百分比:
0%
概述
momo 正元:
5/8 17:34 10.120.87.33 發生9200 port down
由於維運需要紀錄事件
【確認root cause時間】:
【案件處理時間】:
的相關資訊,以作為指標及後續改善方向
請配合回覆相關資訊,以利案件可以順利結案
檔案
是由 martin zhuo 於 10 個月 前更新
elasticsearch 有三節點:
- 10.120.87.25(主節點)
- 10.120.87.32
- 10.120.87.33
18:00時檢查 logstash 發現有 Connection Refused, Timeout等error,而後又可正常寫入
推測為主節點將資料分片分配到.33節點,而.33節點可能因 資源耗盡、連線數過多、記憶體不足 導致 HTTP 接口崩潰
建議需確認.33 elasticsearch節點資源狀況,及9200 port 是否恢復
是由 andy chiang 於 10 個月 前更新
排查流程:
- es-03 down
- 監控看起來 18點整個ES中止運行,es-01 02 活著所以日誌還在跑, 也沒有觸發日誌異常警告
- 端口監聽正常
- 磁碟空間充足
- 連線數 02 201, 03 292
- 已重新將未分配的shard 復原
原因
OOM (記憶體不足)
目前配置 -Xms16384m -Xmx16384m => 16GB (JVM HEAP)
-XX:MaxDirectMemorySize=8589934592 => 8G (不走HEAP) 有可能是這個8G加上去,導致記憶體爆掉
需要優化設定檔,限制 memory使用
是由 andy chiang 於 10 個月 前更新
- 檔案 S__5644293_0.jpg S__5644293_0.jpg 已新增
- 檔案 S__5644294_0.jpg S__5644294_0.jpg 已新增
- 檔案 S__5644295_0.jpg S__5644295_0.jpg 已新增
- 檔案 S__5644296_0.jpg S__5644296_0.jpg 已新增
- 檔案 S__5644297_0.jpg S__5644297_0.jpg 已新增
- 檔案 S__5644298_0.jpg S__5644298_0.jpg 已新增
- 檔案 S__5644299_0.jpg S__5644299_0.jpg 已新增
- 檔案 S__5644300_0.jpg S__5644300_0.jpg 已新增








動作