信息化管理平臺
首頁>探索與創造

某數據中心因UPS重大變更造成宕機事件的分析和預防措施

1. 概況

        某數據中心機房IT負載的UPS供配電系統是由4臺400kVAUPS并機組成,為(3+1)冗余系統。UPS輸入配電母線的進線有兩路,一路是引自大樓總變配電室的市電電源,另一路是引自大樓備用低壓柴油發電機的應急電源,兩個電源經過ATS雙電源自動切換開關后輸入到UPS輸入配電母線上向4臺UPS供電,4臺UPS并機輸出到UPS輸出母線上通過各饋電開關向各機房IT設備供電,UPS輸入配電母線和UPS輸出配電母線之間設有手動總維修旁路。正常運行時ATS切換在市電側供電,當市電應故停電備用柴油發電機啟動正常后ATS將自動切換到備用柴油發電機供電。

        為滿足數據中心擴容發展,數據中心實施把4臺400kVA的UPS(舊機)更換成4臺500kVA的UPS(新機)的方案,考慮到當地市電的不穩定因數,決定在實施方案期間采用備用柴油發電機代替市電供電,并在準備階段預先對柴油發電機進行了多次單機和并機帶載的成功測試,以確保方案實施時萬無一失。

方案實施事件概括成以下幾個階段:

(1)第1階段:ATS切在市電供電,4#UPS(舊機)關機下電做更換施工,1#UPS、2#UPS和3#UPS(3臺舊機)并機帶載運行,系統工作正常;

(2)第2階段:ATS由市電切換為柴油發電機供電,3臺柴油發電機并機供電運行,1#UPS、2#UPS和3#UPS(3臺舊機)并機帶載運行,系統工作正常;

(3)第3階段:3臺柴油發電機繼續并機供電運行,3#UPS(舊機)關機下電做更換施工,1#UPS和2#UPS(2臺舊機)并機帶載運行,在3#UPS關機50分鐘以后,1#UPS和2#UPS自動跳轉到內旁路供電,此時發電機通過UPS的內旁路直接向機房IT負載供電;

(4)第4階段:在1#UPS和2#UPS(2臺舊機)自動跳轉到內旁路供電的12分鐘以后,第1臺柴油發電機發出失磁告警并退出并機系統自動?;?;

(5)第5階段:又過18分鐘以后,第2臺柴油發電機發出失磁告警并退出并機系統自動?;?,緊接著約20秒第3臺柴油發電機發出失磁告警并自動?;?,1#UPS和2#UPS(2臺舊機)同時發出“LOAD OFF”告警,此時負載掉電,機房設備宕機。

(6)第6階段:3分鐘后,ATS切回到市電供電并采取有關措施使機房設備恢復供電。

 

2. 事件分析

        在方案實施的第1階段,ATS切在市電供電,4#UPS(舊機)關機下電退出運行,系統由1#UPS、2#UPS和3#UPS(3臺舊機)并機帶載運行,3臺UPS并機運行的安裝總容量為1200kVA,輸出供電容量為1200kVA*0.8=960kVA,機房IT負載容量為725kVA,UPS系統輸出供電容量大于IT負載容量,系統工作正常。

        在方案實施的第2階段,ATS切在柴油發電機供電,柴發電源是由3臺容量為1275kVA的自激式柴油發電機并機運行供電的,總供電容量為1275kVA*3=3825kVA,完全滿足UPS負載容量需求,其余情況與第1階段相同,系統工作正常。

        在方案實施的第3階段,3臺柴油發電機繼續并機供電運行,3#UPS(舊機)關機下電退出運行,1#UPS和2#UPS(2臺舊機)并機帶載運行,50分鐘以后1#UPS和2#UPS自動跳轉到內旁路供電,此時發電機通過UPS的內旁路直接向機房IT負載供電。第3階段是事件的關鍵階段之一,為什么1#UPS和2#UPS會自動跳轉到內旁路供電的?是因為2臺UPS并機運行的安裝總容量為800kVA,輸出供電容量為800kVA*0.8=640kVA,機房IT負載容量為725kVA,UPS系統輸出供電容量小于IT負載容量,UPS在過負荷運行下自我?;ぷ遠僥諗月飯┑?,系統出現異常。

        在方案實施的第4階段和第5階段,1#UPS和2#UPS(2臺舊機)自動跳轉到內旁路供電以后,3臺柴油發電機陸續發出失磁告警并自動?;?,造成機房負載掉電,IT設備宕機的不良事件發生。第4階段和第5階段是事件的關鍵階段之二。

        事件的關鍵階段之一,原因是由于2臺400kVA的UPS并機運行帶動不了725kVA的IT負載造成的,關于這方面問題的分析研究和解決方案在機房《技術與管理》專業性權威期刊總第68期中有關專家已進行了深入論述,本文不再討論。

        事件的關鍵階段之二是在方案實施的第4階段和第5階段,1#UPS和2#UPS(2臺舊機)因過負荷?;ぷ遠僥諗月飯┑繅院?,為什么三臺柴油發電機會陸續發出失磁告警并自動?;??是柴油發電機容量不足嗎?不是,因為當時柴油發電機單機容量為1275kVA,三臺并機總容量為3825kVA,而所帶的IT負載為725kVA,當時發電機沒有帶其他負載,發電機容量是負載容量的5.2倍。為什么三臺柴油發電機會陸續發出失磁告警并自動?;俏頤潛疚囊致鄣鬧氐鬮侍?。

2.1機房IT負載的特性

        機房IT負載主要由服務器、路由器、存儲器、交換機等用電設備組成,隨著低碳經濟對節能減排的要求的提高,計算機負載的節能要求也顯著提高。我們知道,計算機、服務器的電源通常裝有LC濾波電路,用以提高負載的功率因數和降低負載電流的諧波,達到降低能耗和減少電網污染的要求。

        計算機電源設計時濾波電容一般按滿載容量選取,而通常計算機設備實際平均功耗為滿載設計功耗的50%~80%之間,對于多臺計算機設備用電的數據中心,其總IT負載等效于并聯了多個濾波電容的無功補償電路,本該為感性負載的服務器在低載運行時,這些濾波電容使IT供配電系統的總電流相位前移,輸入電流相位超前于電壓相位,使整體負載呈現容性,即出現功率因數超前現象。IT設備隨著數據處理量大小的變化其耗電量也隨之變化,所以IT負載耗電容量是動態變化的,從而引起負載功率因數也是動態變化的。

        新型計算機負載有兩個重要特性:一是負載的功率因數提升到0.95以上,二是負載可能會由傳統的感性負載變為容性負載。

2.2 UPS的特性

        UPS是一種高質量、高可靠性的獨立電源,是一種蓄電池靜止型不間斷供電裝置,是數據中心最重要的電源設備。UPS由整流器、逆變器、交流靜態開關和蓄電池組組成。平時,市電經整流器變為直流對蓄電池浮充電,同時經逆變器輸出高質量的交流凈化電源向負載供電。當市電因故停電時,系統自動切換到蓄電池組放電經逆變器逆變供電,保持負載供電不間斷,當UPS超載時能自動轉為靜態旁路供電。。

        UPS的基本作用就是解決電源干擾問題,UPS具有穩壓穩頻、凈化電源、降低波形失真和突波?;すδ?。

        UPS在市電停電自動轉換到蓄電池逆變供電、在發現超載時由正常供電轉換到靜態旁路供電以及以上反方向的電源轉換過程中,其轉換時間極短,可以認為是在0ms瞬間完成,不會造成計算機?;?。

        UPS還有一個重要作用就是UPS的輸出端能夠適應IT負載的動態變化而引起的功率因數在一定范圍內的變化,能最大限度地減低輸出電壓總諧波影響;UPS的輸入端不會出現功率因數超前的現象,能最大限度地降低輸入電流諧波失真。比如說新型伊頓塔式高頻UPS,UPS輸入功率因數為0.99,也就是說其UPS輸入功率因數最大為0.99;UPS的輸出功率因數為0.8超前至0.7滯后,也就是說其輸出功率因數范圍完全滿足新型計算機負載的功率因數的變化范圍。

2.3柴油發電機的特性

        數據中心的自備電源一般是由后備柴油發電機提供,當市電因故停電時,后備柴油發電機能夠迅速啟動發電維持機房設備的正常運轉。

2.3.1柴油發電機的分類和工作原理

        數據中心備用柴油發電機組是由柴油發動機、交流同步發電機、控制屏(配電及控制系統)三部分組成。柴油發電機組按照交流同步發電機的勵磁方式的不同可分為永磁發電機與勵磁發電機兩類,而勵磁發電機又分為自勵式和他勵式。

(1)三相交流自激式同步發電機

        自激式同步發電機即為自勵式同步發電機,圖3是在勵磁發電機中具有代表性的自激式同步發電機,自激式同步發電機從發電機本身定子繞組或輔助繞組取得勵磁電源,經自動電壓調節器AVR后再控制勵磁機定子磁場,由勵磁機轉子發出的受控電壓經旋轉整流二極管整流后送到發電機主機轉子繞組勵磁發電。

(2)三相交流PMG永磁式同步發電機組

        圖4是具有代表性的PMG永磁式同步發電機,永磁發電機與勵磁發電機的最大區別在于它的勵磁磁場是由永磁體產生的。永磁體在電機中既是磁源,又是磁路的組成部分。永磁勵磁發電機作為副勵磁機向自動電壓調節器AVR提供電源,在AVR中與取自主發電機定子繞組的檢測信號比較后輸出可控直流給勵磁機定子繞組,由勵磁機轉子發出的受控電壓經旋轉整流二極管整流后送到發電機主機轉子繞組勵磁發電,國際一流品牌康明斯PMG永磁式柴油發電機就是根據這個原理工作的。

(3)三相交流同步發電機的繞組與接線方式

        三相交流同步發電機的定子上安裝有三個發電繞組,分別稱為A相繞組、B相繞組和C相繞組,三個繞組的空間位置間相差120°,發電機運行時,發電機定子三相繞組切割轉子旋轉磁場而產生感生電動勢Ea、Eb和Ec,圖5表示三相交流同步發電機的三相發電繞組的空間分布其相互之間相差120°、輸出電勢與勵磁電流控制的的原理圖,圖6表示低壓三相交流同步發電機的三相繞組為星形接法向負載供電時的電路原理圖。

(4)三相交流同步發電機的電壓與電流的初相位

        三相交流同步發電機帶載運行時,其電壓和電流的初相位相同時,此時相位差θ角度為0,功率因數cosθ=1,表示為純電阻電路,如圖7所示,三相電壓Va、Vb、Vc之間相位角相差120°,三相電流Ia、Ib、Ic之間相位角相差120°,A相電壓Va與A相電流Ia之間的初相角相同,相位差θ角度為0,B相和C相的情況與A相同理,此時發電機輸出的電能全部做有用功,線路中沒有無功損耗,是最理想的節能工作狀況,不過對發電機供電來說功率因數過高會造成線路中無功裕量過低,會影響系統的穩定性。

        在發電機的工作電流相位滯后電壓相位一個θ角度時,這個功率因數角為負值,功率因數cosθ<1,對于負載來說是具有吸收感性的無功功率,功率因數是滯后的,如圖8所示,三相電壓Va、Vb、Vc之間相位角相差120°,三相電流Ia、Ib、Ic之間相位角相差120°,A相電壓Va與A相電流Ia之間的初相位相差θ角度即電流相位滯后于電壓相位一個θ角度,B相和C相的情況與A相同理,在通常的電路中大部分負載都是呈現感性的負載,此時發電機輸出的電能一部分做有用功,一部分做無用功,這是最常見的電路狀況。

        在發電機的工作電流相位超前電壓相位一個θ角度時,這個功率因數角為正值,功率因數cosθ<1,對于負載來說是有發出容性的無功功率,功率因數是超前的,如圖9所示,三相電壓Va、Vb、Vc之間相位角相差120°,三相電流Ia、Ib、Ic之間相位角相差120°,A相電壓Va與A相電流Ia之間的初相位相差θ角度即電流相位超前于電壓相位一個θ角度,B相和C相的情況與A相同理,此時發電機輸出的電能做有用功,吸收無用功。

2.3.2柴油發電機的運行狀態

        在這里主要討論與數據中心備份柴油發電機有關的三相交流同步發電機的兩種運行狀態。

(1)滯后運行

        三相交流同步發電機的滯后運行即為常態運行,電路中的等值負載呈現感性,此時發電機向電路同時送出有功功率和無功功率,電路的功率因數是滯后的。發電機發出的無功功率對發電機有去磁作用,這時發電機必須增加勵磁電流以抵消負載電流的去磁作用,實際是增加了無功電流輸出。負荷功率因素越低,就越增加發電機無功電流的輸出和增加勵磁電流,從而增加了線路損耗和勵磁功率。一般發電機的帶載功率因數為0.8,提高負載的功率因數有利于節約電能和提高線路的帶載能力。

(2)超前運行

        三相交流同步發電機的超前運行即為進相運行,電路中的等值負載呈現容性,此時發電機向電路送出有功功率和吸收電路的無功功率,發電機只發有功,不發無功,電路的功率因數是超前的。三相交流同步發電機進相運行時較滯后運行狀態勵磁電流大幅度減少,發電機電勢E亦相應降低其端部電壓降低,發電機靜態穩定性下降,發電機定子端部漏磁增大,溫升加劇,發電機在超前運行時很容易引起震蕩失步,所以機組一般不允許超前運行。功率因數為1的時候,是發電機滯后運行和超前運行的分界線,這時發電機不向電網送無功功率也不吸收電網無功功率。

2.4綜合分析結論

綜合以上分析,我們得出了以下結論:

2.4.1柴油發電機供電與市電供電的區別

        機房市電是由高壓進線通過電力變壓器降壓后向機房提供低壓電力的,機房市電的短路容量比柴油發電機要大得多,并且電網總是呈現感性的,不會由于負載功率因數的動態變化出現超前現象而跳閘停電;而機房備份柴油發電機在負載功率因數超前一定值時就會出現輸出電壓降低、溫升加劇、穩定性下降、震蕩失步而失磁告警并自動?;窒?。

2.4.2全面認識UPS在機房供配電系統中的重要作用

        一般人們只注意UPS起到不間斷供電的作用,其實UPS還具有穩壓穩頻、凈化電源、降低波形失真,消除電源干擾和突波?;すδ?,UPS另一個重要作用就是UPS的輸出端能夠適應IT負載的動態變化而引起的功率因數在一定范圍內的變化, UPS的輸入端不會出現功率因數超前的現象。

        從本宕機事件我們可以清楚看出,在ATS從原市電切換到備份柴油發電機電源并通過正常運行的UPS向機房IT負載供電期間,系統運行是正常的,在此期間,任憑機房IT負載功率因數如何動態變化,柴油發電機始終工作正常,UPS對機房IT供電系統起到安全?;ど∽饔?。

2.4.3用柴油發電機直接帶機房IT負載的風險

        從對機房IT負載的特性分析我們知道新型計算機負載有兩個重要特性:一是負載的功率因數提升到0.95以上,二是負載可能會由傳統的感性負載變為容性負載。

        從對機房備份柴油發電機特性分析我們知道三相同步交流發電機在負載功率因數超前一定值運行時會出現輸出電壓降低、溫升加劇、穩定性下降、震蕩失步而自保?;窒?。

        從本宕機事件我們可以清楚看出,在UPS退出系統而由柴油發電機直接帶著機房IT負載運行時不久就接二連三出現柴油發電機失磁告警并自動?;窒?,這種現象不是柴油發電機有問題,而是不宜用柴油發電機直接帶IT負載運行。那么機房供配電系統一旦出現由柴油發電機向IT負載直接應急供電的工況時是不是就意味著柴油發電機有可能出現失磁告警并自動?;窒?,如何預防呢?

 

3. 預防措施

        本宕機事件是由柴油發電機直接帶機房IT負載運行不久就出現柴油發電機失磁告警并自動?;?,是柴油發電機選型不佳?本事件的柴油發電機是自激式柴油發電機,如選擇永磁式柴油發電機是不是可以解決這個問題?

        通常數據中心所應用的自激式柴油發電機和PMG永磁式柴油發電機的結構和工作原理前面已經討論,永磁式柴油發電機的許多性能比自激式的好,穩壓勵磁調節受諧波影響小,穩定性也要好,但永磁式柴油發電機在負載功率因數超前工況下安全運行也是有技術范圍的,就拿國際一流品牌康明斯PMG永磁式柴油發電機來說,在發電機額定滿載時允許超前無功功率值范圍為不超過額定滯后無功功率的20%,舉例說一下,對于常用功率為1600kW的柴油發電機,額定滯后有功功率因數為cosθ=0.8,無功功率因數sinθ=0.6,額定滯后無功功率為1600kW*0.6=960kVar,在發電機滿載時允許超前無功功率為960kVar*20%=192kVar,得超前無功功率因數為sinθ=192kVar/1600kW=0.12,θ=arcsin0.12=6.862°,得允許超前有功功率因數cosθ為不小于0.993,可見柴油發電機是不宜在超前功率因數負載狀態下運行的?!斗⒌緇誦泄娉獺分泄娑?,發電機運行功率因數以0.8為宜,不得超過0.95。那如何能解決柴油發電機直接安全可靠帶IT負載運行的這個問題呢?本文提出如下解決方案。

3.1有源動態無功補償器SVG的應用

        有源動態無功補償器即為靜止無功發生器SVG,是補償領域重要而可靠的技術手段,是無功功率控制的最佳方案,最適合在數據中心供配電系統中使用。

        SVG采用的是電源??榻形薰Σ鉤?,補償后的功率因素一般在0.8到0.99之間可調; 

        SVG跟蹤補償速度快,能夠在5-10毫秒的極短時間就完成一次補償,適用于無功功率動態變化快、變化率高和需要感性和容性雙向補償的場合;SVG實現無極補償,做到平滑、無級差、連續精確補償,輕松達到并維持設定的功率因數;SVG不產生諧波更不會放大諧波,并且可以濾除50%以上的諧波;SVG使用壽命長,自身損耗極小且基本上不要維護,無損壞危險。SVG是目前國際上最先進的電力補償技術,中船重工鵬力新能源PESVG就是一種非常適宜數據中心電力補償的有源動態無功補償器。

        如圖10所示,我們可以在UPS輸入電源母線的進線端設置SVG,不論ATS切換在市電變壓器供電位置還是在柴油發電機供電位置均能有效進行雙向電力無功補償和諧波治理,在UPS正常運行時,IT供配電系統具有UPS和SVG雙安全?;すδ?,如在UPS因故退出系統運行而由市電或柴油發電機直接帶IT負載運行時,SVG起到IT供配電系統的安全?;ど∽饔?,SVG優良的快速動態無功雙向自動補償和諧波治理功能確保柴油發電機不會由于IT負載功率因數動態變化出現功率因數超前現象和諧波干擾而影響系統的正常運行,所以數據中心供配電系統采用SVG補償是提高供配電質量確保安全供配電的最有效的技術手段之一。

3.2新建數據中心提高供配電安全的建議

        目前,高頻大功率UPS在數據中心已得到普及應用,高頻UPS具有輸入功率因數高、輸出適應負載功率因數變化范圍大,能有效解決停電、諧波失真、欠壓、過壓瞬變等電路干擾問題,為機房提供純凈的不間斷電源,高頻UPS的輸入功率因數一般達到0.9以上,供電部門要求供電線路的功率因數補償要達到0.9以上,那么采用高頻UPS是不是就不要進行無功補償了?

通過以上分析我們已經知道在UPS輸入電源母線的進線端設置SVG,一當在UPS因故退出系統運行而由市電或柴油發電機直接帶IT負載運行時,SVG起到IT供配電系統的安全?;ど∽饔?,柴油發電機就不會出現由于IT負載功率因數出現超前現象而失磁告警并自動?;?,所以在UPS的輸入母線上設置SVG補償裝置是非常必要的,對于新建數據中心來說在設計時無論是采用高頻UPS還是采用工頻UPS都應該考慮這個問題。

3.3在運行數據中心提高供配電安全的建議

        目前,許多早已建成的在運行的數據中心供配電線路中并沒有配置SVG,運行多年也沒有出現問題,是不是就安全了?

        通過以上分析我們已經知道在UPS因故退出系統運行而由柴油發電機直接帶IT負載運行的應急工況是難得出現的,沒有配置SVG的數據中心運行多年也沒有出現問題不等于就不會出現這種運行工況,一旦出現也是厄運難逃,某數據中心機房因故宕機的事件為我們敲響了警鐘,我們有必要拿出行之有效的解決方案做到預防為主。所以我們建議對在運行的數據中心可以請專業的機房環境評測技術中心(如北京國信天元機房環境評測技術中心)進行評測,做出合理的因地制宜的有效的解決方案為好。

 

作者簡介:呂純強,浩德科技副總工,高級工程師,中國計算機用戶協會機房設備應用分會專家委員會委員。本文發表于《機房技術與管理》。

 

 

返回頂部
  • 成功案例