【第一線機房IT專家實戰經驗】機房應變對策大公開

【第一線機房IT專家實戰經驗】機房應變對策大公開 機房停電時緊急應變是什麼?IT人員該如何應對多次停電危機?復電後的檢查及復原作業程序又是什麼?我們請教了在機房設計及工程規劃擁有相當豐富經驗的臺灣世曦資訊系統部副理張智欽,親自傳授他多年站在第一線的緊急應變對策 文/余至浩 | 2017-08-26發表 圖片來源: iThome 臺灣8月15日下午4點50分左右,發生了20年以來最大規模的全臺大停電,全國高達668萬戶受影響,遍及全臺17個縣市,台電也緊急實施分區輪流停電來因應,甚至如彰化、高雄等部分地區還遇到兩波或以上停電。對位在停電區的企業而言,如何確保機房維運成了IT一大挑戰,甚至還得面對多次停電危機的考驗。機房停電時緊急應變是什麼?IT人員該如何應對多次停電危機?復電後的檢查及復原作業程序又是什麼?我們也請教了在機房設計及工程規劃擁有相當豐富經驗的臺灣世曦資訊系統部副理張智欽,親自傳授他多年站在第一線的緊急應變對策。815大停電的機房危機:輪流停電成UPS最大挑戰張智欽強調:「這次全臺大停電和以前格外不同」,第一個考驗是分區輪流停電,第二是每次停電時間長達50分鐘。因為需要較長的恢復作業時間,在電力供應不足之前,台電採取了分區輪流停電措施來限電,每次停電時間長達50分鐘。實施輪流停電的地區,包括了電費帳單上記載為A、B兩組的用電用戶,共668萬戶。這群停電對象在分成三組,輪流停電,第一組237萬戶,第二組195萬戶,第三組則有236萬戶。採取交替停電的作法,停電順序是第一組、第二組、第三組,若還沒修復,則再回到第一組用電戶停電。因此,在這段限電期間,下午沒有發生停電的區域,晚上可能反而因為輪流供電而會遇上停電。甚至已經停電後來恢復的企業,還可能會遇到下一次的停電。例如高雄市有些地區就直到晚上9點左右,共實施了4輪停電,因此,第一組用電戶就得面臨2次停電,5點多一次,9點多則是第二次,第一組用戶中間恢復供電的時間間隔只有100分鐘。若是機房剛好設在此區域的企業,就會面臨兩次停電的考驗,甚至台電維修作業若不順利,延後供電時間,企業恐怕更得面臨3次以上的停電風險,所幸,晚上近10點開始恢復供電。「這是大部分企業IT以前很少會遇到的停電情況。」張智欽說。機房常用UPS設備預設只夠撐15分鐘企業機房停電時緊急應變措施,通常最先想到的就是靠UPS不斷電系統和臨時發電機來供電。不過張智欽表示,一般企業機房常用規格的UPS設備,通常設計成可允許提供15分鐘的緊急供電時間,這段關鍵保命的供電時間,對於沒有發電機的企業IT來說,如果遇到的只有一次性停電的話,UPS電力足以來得及完成關機程序,「但是當停電次數不只一次時,只有15分鐘電力,到底有沒有辦法支撐到兩次停電需要的關機作業,就不一定了。」他說。張智欽也以這次台電分區輪流限電來說明,當企業機房的資訊系統重新開機和關機各自需要15分鐘時,一旦恢復市電後,IT人員如果急於馬上要讓資訊系統重啟,這時UPS可供給電量早已所剩不多(可能不到5分鐘或更短)時,如果馬上又停電,要關機時間就會來不及,甚至「最壞的情況,就是資訊系統才開到一半,馬上又要關機,這時,很多資訊系統可能就會出現問題。」張智欽提醒,這是IT人員在UPS設計和程序上必須要特別注意的,也是許多企業IT會疏於考慮到的部分。恢復市電第一件事,應優先讓UPS持續充電企業機房對外供電突然斷電時該如何應變?張智欽指出,在UPS持續運轉可供電力時間內,企業IT人員第一件要執行的事,就是先以正常程序將所有主機關閉,待供電穩定時再將主機開啟。「若無法預期何時會有下一次停電,或估算所需輪電最少一次以上時,IT人員應優先讓UPS充電(至少充電到可支撐到下次斷電時系統正常的開關機)」,張智欽提醒,若UPS已沒有足夠的電力供電,千萬不要貿然逕行開機,否則隔沒多久又遇到停電時,就容易會發生UPS電池電量不夠用,而沒有足夠時間,來不及將系統正常關閉。萬一真的遇到UPS電力不夠用,IT人員來不及將資訊系統關掉時,張智欽表示,恢復市電後,仍必須等待UPS先充電,才能開始檢測可能受影響的設備。他特別提醒,這時候千萬不要急著馬上將設備開啟做檢測,「因為部分設備可能已經因為不正常關機而產生異常,例如硬碟受損等,要是復電後,IT人員馬上趕著檢測設備時,又遇到停電時,恐怕造成的損害,只會更加嚴重。」至於如果是常見、可預期的預告停電時,張智欽則建議,在市電還沒切斷前,就可先提前以正常程序將所有主機關閉,而不需要耗用UPS的電力,只有在真正需要時才將UPS投入。圖片來源_臺灣世曦考慮到多次停電的風險,當停電發生時,IT人員可依據機房UPS設備上顯示的剩餘電量及待充電時間,來決定要不要先充電,以便隔沒多久再次停電時,還有充裕的時間可以開完機再關機。復電後的系統重啟步驟,網路優先,資訊系統其次復電後系統的重啟作業程序,張智欽則建議,應優先檢測網路設備,先確認對內、對外網路都恢復正常後,接著才檢查資訊系統有無異常(如硬碟是否故障、重要資料有無遺失等)。他也說明,與其他資訊系統相比,網路設備通常因為停電重啟故障發生的情況較低,所以IT人員在重啟設備時,可以先開啟網路設備,再依各企業SOP,逐一將資訊系統開機。另外,檢測過程中,萬一遇到硬體故障的情況,也應立即聯繫委外或維護廠商,儘快派人來協助處理。要對抗無法預期停電,UPS電池容量最好能撐30分鐘企業要通過無預期停電,甚至是多次停電的考驗,UPS電池容量多少才夠用?張智欽的建議是,最好可以設計到供電能撐上30分鐘,以便於預留有足夠的電力,讓IT人員有充裕的時間開完機再關機。即使是已經於機房設置獨立發電機的中、大型企業,張智欽也建議,將電池可供電力使用的時間提高。他解釋,因為停電發生時,難保不會發生事前無法預料的狀況,例如發電機無法自行啟動時,得改用人工的方式,由負責的IT值班人員到達現場將發電機手動開啟,這段時間完全得仰賴UPS來支撐。「若UPS沒有足夠的電力,來不及撐到手動開啟的時間,就算事前已準備好發電機供電,也沒辦法真正派得上用場。」若是企業IT預算有限,無法針對機房設備提供一次全面性的UPS供電保護時,又該怎麼辦?張智欽表示,則可退一步,先針對重要的關鍵性系統,如ERP等,另外搭配採用額外供電保護的作法,例如雙迴路供電保護等,以便於當共用UPS電力不足時,還有另一個備用UPS能繼續接手供電,以減少重要設備因不正常關機而故障的風險。圖片來源_iThome臺灣世曦資訊系統部副理張智欽表示,若企業IT預算有限,無法針對機房供電提供全面性保護時,則可針對少數關鍵性系統,另搭配採用額外供電保護的作法,例如雙迴路供電等。Windows Update沒做,會成為延遲關機消耗UPS電力的兇手張智欽還提到,另一個與資訊系統關機程序息息相關,但很多IT主管都常會忽略的問題,就是沒有定期完成機房所有系統的Windows Update更新。他進一步說明,這些沒有按時更新Windows系統的資訊設備,通常會排定設備下次重啟時進行更新,「若是沒停電時還好,一旦遇到機房突然斷電,當下就只能靠UPS供電支撐時,這時IT人員要關閉資訊設備,就可能會發生Windows Update下載更新完畢後,才能關完機的情況。」所以張智欽建議,企業IT平時就要養成定期完成Windows Update更新的習慣,以避免遇到無預警停電時,還需要耗費等待系統更新的時間,UPS撐不住時就可能會導致無法正常關機。事前要做好充足演練準備,而不是臨陣磨槍當然只有在發生緊急停電時,IT人員才想到要應對已經來不及,張智欽強調,平時就得事前做好充足演練,像是針對發電機組,必須定期進行有載和無載測試的演練作業,「我們的作法是,每季定期都會有一次無載測試演練,且每年有載測試最少一次」,以確保發電機能在停電時,可以真正派得上用場。另外,針對企業機房內的UPS電池使用,張智欽表示,最好是定期檢測,或是按時更換服役已久的電池,他也建議,理想是3年可以更換一次電池,這是因為電池使用壽命有限,一旦電池太久沒換,以致於沒辦法在停電時提供可靠的電力來源供電,造成的後果就是,資訊系統因為不正常停機發生故障的風險大幅升高。雖然臺灣世曦主要機房並不設在這次停電的主要限電區域內,所以並沒有遇到輪流停電的情況。不過張智欽表示,在當初設計或規劃機房時,就已經事先預留設置UPS和獨立發電機組的空間,並將各種可能遇到的斷電情況,加入設計UPS和發電機的考慮環節,像是將UPS供電設計成至少可以提供到45分鐘,且機房臨時供電的發電機系統也與大樓分開獨立一套,還備有自己的儲油槽,即使是發生無預警停電,或分區輪流限電的情況,也可以馬上投入。張智欽還表示,平時管理機房維運時,他們還會依造不同資訊設備,針對UPS系統及電源監控管理的PDU設備來分群組,可以做到停機開機的全程自動化,而不需要人力介入。「我們規劃開機的順序是,先開啟目錄服務系統,之後才是重開資料庫,以及重啟其他應用程式。」張智欽表示,當停電發生時,UPS可供電力下降到達一定程度後,可透過系統自動化的方式,依據原先設定好的關機程序,依序將不同設備自動關閉,或者是等待電力恢復之後,每間隔一段時間,才分批將設備自動重新啟動,以避免一次重啟全部設備時,可能會導致瞬間電力負載過高的情況。 圖片來源_臺灣世曦機房設備開關機也能做到全程自動化要讓機房設備能更快開關機,還可以根據不同資訊設備類型,將UPS及PDU設備分群,依序將設備自動關機和開機,如上圖臺灣世曦機房PDU設備的啟動延遲設定畫面顯示,PDU在電力恢復分批重啟設備時,每次間隔360秒。IT機房停電因應教戰守則 事件危機 ● 突發性停電:815傍晚因大潭電廠發生供氣中斷而發生全臺大停電,影響全臺17縣市共97個行政區。● 計畫性停電:晚上實施分區輪流供電,以停電編號A、B兩組,共668萬用電戶受影響。每次斷電50分鐘。下午未遇停電者,晚上也可能納入停電對象。高雄部分地區甚至面臨2次停電(中間恢復供電100分鐘。)(臺電已預告下次停電是C、D兩組)。 緊急應變對策 ● 考慮多次停電風險,恢復供電期間應優先充電UPS,待電量足以支撐下次停電所需,才進行系統重開作業。● 應先開啟網路設備,確認網路恢復後,再依序檢查資訊系統有無異常。● 因UPS電力不足而不正常關機時,需等待市電恢復後優先充電UPS,電力足夠後才開始檢測設備災情,切勿貿然開機檢測,以免發生二次斷電而讓系統受損更深。 平時因應建議 ● 因應多次停電,UPS電池容量最少要能支撐30分鐘,才能應付緊急突發狀況。● 若預算不足以提供全面性UPS供電保護,應對少數關鍵性系統,提供雙迴路供電保護等,以降低不正常關機而故障的風險。● Windows系統最好定期完成更新,避免停電後的關機作業,需等待更新而消耗UPS電力。● 平時應事前做好停電演練,包括定期檢測發電機組,按時更換老舊UPS電池等。資料來源:余至浩,iThome整理,2017年8月

更多訊息更多資料都在這裡喔!~蝦紅素~地龍酵素~健康食品~PPLS~智勝王~膠股力~磷蝦油~蚯蚓粉~蝦青素~保健食品~蜂王乳~地龍粉~芙婷寶~蜂王漿~南極寶~力雪達~膠骨力~青春元素~血栓溶解酵素

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *