動作
System #181
已結束Maintain #169: 更新維護紀錄
elasticsearch 9200 port down
開始日期:
2025-05-09
完成日期:
完成百分比:
0%
概述
momo 正元:
5/8 17:34 10.120.87.33 發生9200 port down
由於維運需要紀錄事件
【確認root cause時間】:
【案件處理時間】:
的相關資訊,以作為指標及後續改善方向
請配合回覆相關資訊,以利案件可以順利結案
檔案
動作
Maintain #169: 更新維護紀錄
是由 martin zhuo 於 10 個月 前加入. 於 10 個月 前更新.
0%
概述
momo 正元:
5/8 17:34 10.120.87.33 發生9200 port down
由於維運需要紀錄事件
【確認root cause時間】:
【案件處理時間】:
的相關資訊,以作為指標及後續改善方向
請配合回覆相關資訊,以利案件可以順利結案
檔案
| S__5644293_0.jpg (290 KB) S__5644293_0.jpg | andy chiang, 2025-05-12 03:10 | ||
| S__5644294_0.jpg (305 KB) S__5644294_0.jpg | andy chiang, 2025-05-12 03:10 | ||
| S__5644295_0.jpg (391 KB) S__5644295_0.jpg | andy chiang, 2025-05-12 03:10 | ||
| S__5644296_0.jpg (405 KB) S__5644296_0.jpg | andy chiang, 2025-05-12 03:10 | ||
| S__5644297_0.jpg (379 KB) S__5644297_0.jpg | andy chiang, 2025-05-12 03:10 | ||
| S__5644298_0.jpg (317 KB) S__5644298_0.jpg | andy chiang, 2025-05-12 03:10 | ||
| S__5644299_0.jpg (501 KB) S__5644299_0.jpg | andy chiang, 2025-05-12 03:10 | ||
| S__5644300_0.jpg (333 KB) S__5644300_0.jpg | andy chiang, 2025-05-12 03:10 |
elasticsearch 有三節點:
18:00時檢查 logstash 發現有 Connection Refused, Timeout等error,而後又可正常寫入
推測為主節點將資料分片分配到.33節點,而.33節點可能因 資源耗盡、連線數過多、記憶體不足 導致 HTTP 接口崩潰
建議需確認.33 elasticsearch節點資源狀況,及9200 port 是否恢復
排查流程:
原因
OOM (記憶體不足)
目前配置 -Xms16384m -Xmx16384m => 16GB (JVM HEAP)
-XX:MaxDirectMemorySize=8589934592 => 8G (不走HEAP) 有可能是這個8G加上去,導致記憶體爆掉
需要優化設定檔,限制 memory使用







