Site icon Mr. 沙先生

NetApp FAS 8000 系列 500 days uptime 就 takeover

最近真的賽到一個極點 … 上週發生了一個緊急案件,在凌晨的時候 NetApp 其中一台 FAS8020A 出現「Failover:takeover start」的狀況,由於有做 HA 所以自動切換到另一台 FAS8020A,但是不到 1 小時,另一台也同時 Failover,但第一台還未 ready … 然後就爆了。

 

由於兩台在短時間內同時踩到相同 bug 實在太賽,我決定記錄下來避免再犯相同的錯。

 

和原廠確認後兩台 FAS8020A 是在 v3.0.1P1 版本踩到相同的 BUG-ID 822180「After 500 or more days of uptime, the SP might consume free memory and become unresponsive」

 

由於這個 bug 是機率發生,並不是 500 天就會出現,該 case 在我們的設備上已經 uptime 1109 day 才踩到,但是兩台設備相隔不到 1 小時相繼踩到實在太扯 …

 

官方提供的解法是

  1. 400 天左右重啟。
  2. 升級到 v3.0.2。

 

這故事告訴我,看 Release Notes 很重要,然後要排歲休 …

 

 

Exit mobile version