最近真的賽到一個極點 … 上週發生了一個緊急案件,在凌晨的時候 NetApp 其中一台 FAS8020A 出現「Failover:takeover start」的狀況,由於有做 HA 所以自動切換到另一台 FAS8020A,但是不到 1 小時,另一台也同時 Failover,但第一台還未 ready … 然後就爆了。
由於兩台在短時間內同時踩到相同 bug 實在太賽,我決定記錄下來避免再犯相同的錯。
和原廠確認後兩台 FAS8020A 是在 v3.0.1P1 版本踩到相同的 BUG-ID 822180「After 500 or more days of uptime, the SP might consume free memory and become unresponsive」
由於這個 bug 是機率發生,並不是 500 天就會出現,該 case 在我們的設備上已經 uptime 1109 day 才踩到,但是兩台設備相隔不到 1 小時相繼踩到實在太扯 …
官方提供的解法是
- 400 天左右重啟。
- 升級到 v3.0.2。
這故事告訴我,看 Release Notes 很重要,然後要排歲休 …