- 相關推薦
構架電網信息系統狀態的監控和評價論文
0 引 言
“十二五”期間,國家電網公司全面建設堅強智能電網,推動公司和電網創新發展、集約發展、安全發展,信息化工作已成為國家電網公司實現戰略發展目標的基礎工程和重要保障[1].國家電網公司SG186 信息系統、SG - ERP 系統等業務信息系統[2]的大量投入運用,在對公司業務工作支撐力不斷提升和主營業務大幅度融合的同時,也使信息系統的規模急劇膨脹,而新系統、新技術的不斷應用,使系統出現故障的可能性也隨之加大,對系統穩定性和系統管理者的要求也隨之提高。如何提高信息系統檢修的工作效率、工作質量、安全、穩定等問題也隨之突顯。因此,采用創新的管理思想和現代計算機技術手段,保障信息系統的安全、降低生產成本、提高企業競爭力,成為電網企業的當務之急。正是在這種背景下,信息系統狀態檢修已然成為電網檢修模式改變的一種必然趨勢。
基金項目:國網四川省電力公司研究開發項目( 52199713504A)信息系統狀態檢修的基礎是對于信息系統狀態的監控與評價,國家電網公司企業信息系統現階段主要采用 B/S 構架,B/S 模式信息系統主要結構包括應用服務器和數據庫服務器,因此對于應用服務器和數據庫服務器內部狀態和外部狀態的監控與評價成為信息系統狀態評價研究中最為重要的環節。
信息系統檢修是信息運維人員工作的重要內容,信息系統的狀態檢修也是必然發展趨勢[3 -4].目前國內對于信息系統狀態檢修的研究還處于起步階段,大部分研究者對于信息系統狀態的監控和評價僅停留在整體的設計思路上面,并沒有繼續向下延伸到各具體部分狀態的研究。也正是基于此,給出了一種對于 B/S 信息系統狀態全面監控與評價的方法,并給出對于信息系統狀態短期預測的方法,為信息系統狀態檢修提供更為具體的研究思路和實現技術參考。
1 評價系統總體設計
國家電網公司企業信息系統現階段主要采用 B/S 構架,下面主要針對 WebLogic 服務器和Oracle 數據庫服務器搭配技術路線的大型信息系統開展研究。圖 1 為信息系統狀態評價系統的總體設計框架。
由圖 1 可知,所述系統主要包括健康狀態劃分與測試、健康數據采集、狀態評價與預測和健康狀態存儲系統這 4 個部分。健康狀態劃分與測試主要是建立所述評價系統的評價指標體系以及對于信息系統健康度的合理劃分; 健康數據采集模塊是實現對WebLogic 服務器和 Oracle 數據庫服務器內在及外在狀態數據的監控,并將監控數據存儲于健康狀態存儲數據庫中,為狀態評價模塊提供實時數據來源;狀態評價與預測模塊實現對信息系統當前狀態的評價,并結合信息系統歷史狀態數據給出對信息系統狀態的短期預測; 健康狀態存儲系統即建立的存儲數據庫,負責所述評價系統涉及的所有數據的存儲。
2 健康狀態劃分與測試
2. 1 健康狀態劃分
根據 B/S 架構系統的特性,將整個系統狀態劃分成兩部分,即 WebLogic 服務器狀態和 Oracle 服務器狀態。這兩個服務器又有各自不同的子狀態,這些狀態量,根據 WebLogic 和 Oracle 數據庫的官方文檔、書籍介紹和運維人員的建議,對采集到的指標進行了狀態劃分,每一種狀態有相應的閾值,這些閾值也是參考的文檔、書籍以及運維人員的經驗,得到每一個狀態量都劃分為 4 種狀態: 正常狀態、注意狀態、異常狀態、危險狀態,各狀態對應給出分數如表1 所示。
2. 2 基于 LoadRunner 的測試實驗
LoadRunner 是一種預測系統行為和性能的負載測試工具[5].測試分析是根據 LoadRunner 自動生成的各項指標測試結果統計圖,如測試簡述圖、事務平均時間響應圖、系統資源圖等,從中了解和判斷被測系統在不同壓力測試下的運行狀況以及系統資源的使用情況,對它們進行關聯分析,從而確定系統指標不同狀態的閾值。通過模擬上千萬用戶實施并發負載和實時性監測的方式來確認和查找問題,將測試得到的性能指標值與定義的指標狀態閾值進行對比,從而驗證閾值的正確性。同時,經過測試實驗,定義了各級指標權重如表 2 所示。
3 狀態數據采集
根據 B/S 系統的分層,將狀態監視采集系統也分成相應的子模塊分別對每層進行監視。狀態監視采集系統由 3 個子狀態監視采集系統構成[6 ~7].分別是 Weblogic 服務器數據采集程序、Oracle 數據庫數據采集程序、Oracle 宿主機數據采集程序。它們對相應的模塊按照設定的頻率進行采集,將采集到的數據持久化后,由主程序進行讀取,然后按照狀態定義分別對數據進行相應狀態的劃分,最后得出當前系統狀態的評價。
3. 1 Weblogic 服務器數據采集程序
Weblogic 服務器數據采集程序[8]能夠獲得服務器內 JMS 信息、進程信息、線程信息、JVM 內存信息、CPU 使用率等一系列服務器數據。在獲得信息狀態數據之后,可以對數據進行分析,從而得出服務器現階段狀態。
邏輯流程如圖 2 所示。程序啟動后,首先檢測Weblogic 服務器是否啟動,如果沒有啟動,則進行報錯,提示服務器沒有正常啟動。如果 Weblogic 服務器正常啟動后,則啟動系統數據采集子程序以及Weblogic 服務器數據采集子程序,相應的子程序按照相應的時間頻率刷新重新采集相應指標,主程序按照相應的時間頻率獲得相應數據后,程序將數據寫入到 MySql 數據庫中。
3. 2 Oracle 數據庫數據采集程序
Oracle 數據庫數據采集程序能夠獲得服務器內執行隊列、等待執行隊列、數據庫命中率、SQL 讀寫數、數據庫使用率等一系列數據庫服務器狀態。在獲得信息狀態數據之后,將數據寫入到 MySql 數據庫中。
流程邏輯如圖 3 所示。程序啟動后,首先實例化 3 個子數據采集程序,并設置相應的采集頻率。
設置完畢后,則按照相應的頻率各子程序采集數據,3. 3 Oracle 宿主機數據采集程序Oracle 宿主機數據采集程序能夠獲得客戶端服務器的 CPU 狀態信息、交換區信息、內存信息、硬盤信息等一系列客戶端服務器狀態信息。在獲得狀態信息數據之后,可以將數據儲存到 MySql 數據庫中。
流程邏輯如圖4 所示。程序啟動后,首先實例化4 個子程序監控系統,并設置相應的采集頻率。設置完畢后,則按照相應的頻率各子程序采集數據,并將采集得到的數據反饋到服務器上。在獲得相應數據后,程序對數據進行分析并進行相應的狀態提醒。
4 狀態評價與預測
4. 1 基于聚類回歸的狀態評價模型
一般研究認為低負載的系統健康度高于高負載的系統,然而在實際系統運行過程中,一個系統正常態可能是適中的負載,也可能是高負載的。正是考慮到這樣的情況存在,專門設計了一個基于系統歷史狀態聚類與回歸的評價模型。
實際系統運行過程中,對于穩定運行的系統而言,可以認為多數情況下系統是正常的,因此利用聚類的方法,將訓練集合或者采集到的歷史數據劃分成 K 類,取數量最多的前 N 類作為系統正常態的代表。選取每一個指標中心點,各指標偏離中心點一定范圍,依靠線性扣分,超出范圍,以指數扣分,分數扣完為止。依據指標得分健康數目,劃分等級,每個指標得分不到其分配得分的 β( β 默認取 0. 6) ,則認為指標異常,結合利用 M5Rules 回歸模型,計算各個指標相互間的回歸關系,以偏離回歸方程的 4 級指標前 n 個,且偏離比例超過 0. 3( 計算方式為( |實際值 - 回歸值 |) /回歸值) 的指標作為異常指標。如果有 n 個指標,所有指標正常則為正常,如果超過0. 1*n 個指標出現異常為整個系統為注意狀態,超過 0. 2*n 個指標異常為異常狀態,0. 3*n 個指標出現異常則為危險狀態。
這種模型不僅可以避免對于本身就是高負載系統的狀態評價誤差,而且不僅是通過由低級指標直接線性組合成為高級指標判斷系統狀態,其對每一個底層指標聚類分析,指導判斷每一個指標的健康度,充分考慮了影響信息系統狀態的因素,從指標的健康度來度量系統整體的健康度,避免誤報、漏報。
4. 2 基于隱馬爾科夫的短期狀態預測模型
隱馬爾可夫模型( hidden Markov model,HMM)是馬爾可夫鏈的一種,它的狀態不能直接觀察到,但能通過觀測向量序列觀察到,每一個觀測向量都是通過某些概率密度分布表現為各種狀態,每一個觀測向量是由一個具有相應概率密度分布的狀態序列產生。所以,隱馬爾可夫模型是一個雙重隨機過程即具有一定狀態數的隱馬爾可夫鏈和顯示隨機函數集。在充分研究各經典預測模型并結合電網信息系統狀態特性的基礎上,選擇引入隱馬爾科夫模型建立了信息系統狀態短期預測模型。
這種模型以大量系統狀態歷史數據作為訓練樣本,對模型進行充分訓練。對于當評價模型正常運行一段時間后,按照時間順序記錄系統四級指標的得分,便可以通過隱馬爾科夫模型預測將來的一次或多次得分,最終預測三級、二級和一級指標狀態。為了保證預測的實時性和有效性,周期性更新隱馬爾科夫模型。
5 實驗驗證
將所述狀態評價系統應用于四川省電力公司SG186安全監督與管理業務應用系統,它的應用服務器和數據庫服務器分別是 Weblogic 和 Oracle.為測試所述評價系統數據采集以及評價預測功能,設置如表 3 所示測試場景,可得到結果如表 4、表 5 所示。
從表 4 數據分析可以看出,Oracle 服務器采集程序能夠采集此宿主機的硬件的動態信息。從場景1 到場景 3,cpu、內存、swap 的使用率是遞增的,這與測試用戶數成倍增長相符,說明采集的數據是正確的,User Transaction Per Sec 的最大值從場景 1 的1. 8 到場景 2 的 1. 96,再到場景 3 的 2. 1,依次遞增,與場景的用戶數遞增相符,說明采集程序的 Oracle數據庫采集模塊能夠正常工作。同樣,Weblogic 服務器采集程序正常工作。從表 5 數據分析可以看出,評價系統充分評價信息系統當前狀態,并能有效預測 1 min 后信息系統狀態。在充分訓練預測模型的條件下,預測時間可以更長。
6 總結與展望
提出了一種電網信息系統狀態評價方法。通過充分探討建立了信息系統狀態評價指標體系,并根據各級指標重要程度賦予其相應權重。實現對 B/S構架信息系統整體狀態狀態的監控和評價,并以信息系統歷史狀態作為訓練樣本預測其短期狀態,成果將作為重要部分應用于電網信息系統狀態檢修。
參考文獻
[1] 李向榮,郝悍勇,樊濤,等。 構筑數字化電網 建設信息化企業[J]. 電網技術,2007( 17) : 1 -5.
[2] 曾德君。 SG186、ERP、IPSS 三者關系論述[J]. 華東電力,2009( 9) : 1442 -1444.
[3] 劉賢杰,劉旭生。 信息通信狀態檢修系統中狀態評價體系的探索與實踐[J]. 電力信息化,2012( 5) :64 -69.
[4] 張涵。 開展信息系統狀態檢修提高系統運維水平[J].農村電氣化,2014( 6) : 32 -34.
【構架電網信息系統狀態的監控和評價論文】相關文章:
和諧論文藝美學的理論特征和邏輯構架的論文04-27
徐樓節制閘工程安全狀態評價論文04-30
基于ACARS的發動機狀態監控05-02
淺談如何協調城市規劃和電網規劃論文04-30
電器設備在線監測和狀態維修技術論文05-06
工作狀態和計劃04-25
虛擬現實技術在電網監控中的應用04-27
支持向量機在飛機狀態監控中的應用04-27
設備監控論文:卷煙設備監控體系的開發論文05-06
華北電網全景信息系統運行05-01