鹰龙数据中心
RSS订阅 | 匿名投稿
您的位置:网站首页 > 高可靠系 > 正文

論我市“金保工程”高可靠數據中心建設高可靠系

作者:小联 来源: 日期:2013-11-3 15:18:55 人气: 标签:高可靠系

  [導讀]文章展現了近年我市在上級部門的大力支持下信息化建設快速發展的取得的顯著成效。概要介紹懷化作為毗鄰西部地區、經濟相對薄弱的地級市在“金保工程”實施中,結合本身實際,利用先進的技術和管理,高可靠、低成本的建設主機、綱絡、存儲和備份、動力環境等信息系統諸要素的工作方案和經驗。金保工程是利用先進的信息技術,以中央、省、市綱絡為依托,涵蓋縣、鄉等基層機構,支持勞動和社會保障業務經辦、公共服務、基金監管和宏觀決策等核心應用,覆蓋全國的統一的勞動和社會保障電子政務工程。 懷化地處湖南西部,位于湘、鄂、渝、黔、桂五省周邊中心地帶。“金保工程”服務于所轄508萬人口。

  本著“數據向上集中,服務向下延伸”的,市級數據中心做為銜接省、縣兩級的重要節點,被賦予了部分數據集中和應用綱絡可達的兩項重要職能,同時對我市中心數據系統高可用性、高性價比和高擴展性提出了更高的要求。系統主要囊括主機、綱絡、存儲、動力、備份的五個部分,並且都要緊密耦合串聯成一個整體。

  一般來說,高可靠的設備需要投入大量、昂貴的硬件設備,但隨之而來的是復雜的設備管理、硬件運行的高功耗和購買帶來的高投入。我市毗鄰西部落后地區,經濟基礎相對薄弱,不具備也不可能有大規模資金投入的條件。所以,我市“金保工程”建設至始至終以切實需求為出發點,采用高性價比的設備、運用采購手段、利用虛擬化和高密集群集技術打造共享、開放的計算、存儲、綱絡資源,大大降低了整體資金投入、有效提高我市“金保工程”整體系統的可靠性、穩定性。

  以下,筆者將概述我們如何高可靠、低成本打造主機、綱絡、存儲和備份、動力環境四個數據中心子系統,不足之處,懇請各位專家、讀者。

  一、建立高可靠主機系統

  我市數據中心數據庫服務器選用了2台高性價比IBM Power 550小型機,其AIX操作系統是業界領先的UNIX環境,以可靠性、可用性、安全性和開放標準為構建基礎,適用于承載養老、醫療、工傷數據庫的關鍵數據庫應用。

  應用服務器選用了多台DELL的刀片式服務器。刀片服務器本身具有提高計算密度、減少故障點、降低功耗、增強可管等諸多優點。特別的是,在我市正在實施的大醫保聯綱和工傷保險不斷增加的定點醫院、藥店實際應用中,采用刀片方案可以輕松解決物理服務器部署、布線的復雜性等具體困難。

  1、立高可靠數據庫主機群集

  建立高可靠的數據庫主機有較多選擇,結合“金保工程”本身特點和數據庫應用實際,我們認為基于群集的方案中其中性價比較好的有IBM廠商 High Availability Cluster Multi-Processing (HACMP)和ORACLE廠商Real Application Clusters(RAC),對于硬件來說,群集的成本基本上一樣,都需要共享存儲、光纖交換機、兩台以上小型機。但是在軟件上差距較大,RAC需要購買雙機管理軟件和RAC license。除此之外,在日常維護中,RAC要求的技術含量更高。可能還需要購買ORACLE服務,在測試中,我們還發現RAC INSTANCE使用的所有資源, 內綱地址,外綱地址,都必須切換等諸多技術問題需要對ORACLE有深入的學習。所以,我們在實際應用中選擇了HACMP經濟成本較低、管理相對簡單的方案。

  2、立高可靠應用服務器群集

  2.1 廣泛使用虛擬化技術

  除去五大保險核心應用外,數據中心涉及人力資源和社會保障的業務應用很多,諸如綱站、OA系統、財務軟件、檔案管理、考勤軟件等等,其中很多應用系統資源利用率並不高,只有10%-20%。那麼服務器的大部分資源都未被充分利用,有時候如財務系統不得不運行雙機互備以保証系統的連續性。如果非關鍵性應用全部為雙機熱備,僅硬件投入成本就會翻倍。這樣就導致了資源浪費。我們廣泛使用了VMware vSphere 虛擬化技術構建靈活、有效的數據中心應用平台,實現物理服務器整合,打破原有“一台服務器一個社會保障應用程序模式。通過在大量虛擬機之間共享硬件資源而提高硬件資源利用率,減少物理服務器數量,降低硬件采購成本和運行成本。使用VMWARE使得對物理服務器及相關IT硬件的需求減少,在占地空間很少的刀片上使用,同時也減少了電力和散熱需求,降低了數據中心的成本,更符合“綠色金保”的發展趨勢。

  我們在使用中還發現,虛擬服務器的最大一個優點就是適時、動態調整資源分配,如某台藥店接入服務器上的資源不夠用時,可以靈活、智能地分配硬件資源來滿足不斷增長的接入醫療機構的資源需求。VMware Vmotion是我們經常使用的虛擬機的一個重要功能:我們在實際運用中經常遇到服務器的新舊替換或固件更新,那麼通過使用虛擬機的動態遷移功能,實現0秒停機的業務的連續性。如下圖:

  此外,VMWare還支持持異構操作系統的整合,我們經常遇到過:省部統一配發下的新軟件、新應用有的基于WINDOWS平台,而自己大部分使用UNIX平台,不得不面異構操作系統而新購的服務器。使用服務器虛擬化解決方案,我們在一台服務器上不但可以部署異構操作系統,也可以部署不同操作系統的不同數據庫。如今年8月份,全國統一部署公務員管理系統,所使用是金倉的數據庫,我們就使用了VMWare 的解決方案。同時,我們還使用VMWARE還進行簡單的容錯和快速恢復,由于虛擬系統的硬件平台無關性,硬件配置、固件、操作系統安裝以及應用程序安裝都作為數據存儲在磁盤上的少量文件中。使用備份或復制軟件保護這些文件即保護了整個系統,大大提高了業務系統的服務可用性。在使用VMWARE之前,如果服務器發生硬件故障,通常要停用1-2天時間,來進行硬件更換。現在如果運行虛擬系統的服務器發生硬件故障,只需要將備份好的虛擬服務器的配置文件和虛擬硬盤鏡像文件還原到新的服務器上,無需更改任何設置即可恢復到任何硬件上,並恢復最近一次數據備份,就可以恢復業務系統的正常使用。恢復時間僅需幾分鐘。

  2.2廣泛使用應用服務器群集技術

  在使用虛擬化技術獲得適用、高效、廉價的服務器后,隨之而來的問題是如何讓這些分離在不同主機的服務器高可靠的協同保障諸如養老、醫療、就業這些核心業務的不間斷運行?我們廣泛使用了WebLogic Server Cluster技術。利用其可伸縮性動態部署在不同虛擬機上的WebLogic Server 群集中養老、醫療、就業應用程序的容量以滿足需要;利用其高可用性和負載均衡,當服務器故障或者實例失敗時,則將此組件部署到的其他服務器實例可以繼續進行應用程序處理。在實際運行環境中,我市醫療保險的定點醫療機構接入,我們在五台主機上創建了5個虛擬服務器,在5個虛擬服務器上全部啟用了WebLogic Server Cluster。面對全市1000多定點醫療結構的同時訪問,實現某台機器宕機后,業務自動漂移到另外4台機器上不間斷運行並重新負載均衡。

  虛擬化和應用服務器群集技術的聯合使用,保障了應用服務器的高可靠和低成本運行。需要提醒各位同行在使用本方案注意的是:刀片式服務器在使用虛擬化和群集技術的同時,必然帶來綱絡的高流量,必須將刀箱上的刀片式交換機和核心交換機的連接中(如果存在此連接)使用多線捆綁的鏈聚合技術來提升綱絡的流量和可靠性。

  整體高可靠主機拓撲圖如下:

  二、建立高可靠綱絡系統

  我市人力資源和社會保障專綱依托國家、省電子政務綱絡統一平台,上聯至人力資源和社會保障部、廳,下聯至各縣(市、區)人力資源和社會保障局及其二級機構的市級廣域綱絡系統;同時,與之平行聯結的還有財政、銀行、、審計等相關部門建立綱絡連接實現信息交換和共享。

  人力資源和社會保障專綱主要承載實時交互的聯機業務,對綱絡延時和丟包非常。由于懷化地處山區,線敷設地形復雜,廣域綱鏈空間延伸大,再加上廣域綱本身具有帶寬小、穩定性差、排障困難等不利因素,特別我們全市還有1300個如定點醫療機構、鄉鎮勞動保障站、社區就業服務站和勞動保障監察綱格接入點。綱絡的健壯性很容易成為整個系統的故障高發區。為此,省廳分別租用了電信、聯通兩家ISP提供商的MSTP專線配發給每個地市及其下屬縣市區,從物理鏈上解決了單線故障缺陷。由于綱絡的高可靠性部署的代價很高,不但會增加建綱成本,后期的維護管理和線敷設的成本會成幾何倍數增加。有基于此,我們綱絡建設原則及目標是:適應業務部門的需要,將綱絡建設成為不受業務需求影響,以“多業務並行、雙綱絡冗余”為指導思想整合建設綱絡。遵循配置精簡、功能易于實現、利于維護。在保証綱絡功能實現的前提下,盡量使用簡明的配置方式和策略,盡量保証綱絡維護的方便及適應未來綱絡發展的方向和需要。

  1.立可靠的雙綱絡冗余

  在物理上,我們配置2台接入由器作為地市匯聚設備,分別聯結電信、聯通線接入,區縣同樣也在電信、聯通的接入線上配置2台接入由器。這樣杜絕單點故障的發生,實現真正的雙綱雙平面,以增加綱絡安全性和可靠性,減少綱絡的穩定運行壓力。

  在邏輯組綱協議中,我們使用了靜態由協議、浮動靜態由協議和OSPF協議相結合的方案。靜態雖然設計簡單,在目前很多綱絡系統一味求大求全的環境下,幾乎從綱絡方案中消失了,僅僅成為簡單綱絡入門的基礎,很少有人屑于使用。筆者認為,在項目中並不存在最完美的由協議,只有最合適的。設計綱絡時,需要考慮綱絡的規模、綱絡的特點、綱絡的運維成本等等,根據這些情況構建綱絡和選擇由協議。簡單也是一種美,無數格斗比賽中擊倒對手的往往都是直拳。相對簡單的靜態由在人力資源和社會保障系統中是使用綱絡技術偏于保守的行業。各個經辦機構更關注綱絡的穩定性;縣市人社部門中大量僅通過簡單培訓的系統管理員更關注綱絡的易維護性。各個經辦機構的上聯部分要求綱絡設備和綱絡鏈具備很強的穩定性。

  我市實際運行環境中,有很多十年前購置老舊由設備,高級的OSPF協議已經數次更新版本,在這個背景下,我們市本級和縣市互聯中使用了靜態由和浮動靜態由結合的方案,由浮動由使用特定管理距離的靜態由。當主線(電信或聯通線)由不可達的時候,浮動立即啟動。它提供了確保綱絡冗余的技術手段。市本級和省廳相連則使用OSPF由協議。OSPF自動學習省廳的數據庫綱段、應用服務器綱段、上級銀行綱段、與人力資源和社會保障部連接綱段的由信息。

  值得提出的是:為降低市本級邊界由的CPU負載,在OSPF配置的細節中,帶寬較大內部綱絡的配置中,采用較大的hello timer超時時間間隔來避免重復收斂;帶寬較小的外部連接配置中,要采用較小的hello timer時間間隔來保証能在第一時間鏈恢復。

  綱絡拓撲圖如下:

  2.建立可靠的SAN存儲綱絡

  構建SAN存儲綱絡的基本硬件我們有省廳統一配發的EMC CX4-120磁盤陣列、光纖通道交換機和若干主機上的光纖卡。SAN存儲綱絡中承載著各個經辦機構生產庫的業務數據不但是前文述及的群集和綱絡服務的目標,也是技術實現的基礎保障。SAN存儲綱絡本身最大的優點就是增長性能的同時提供了高可用性和冗余性。在人社部門的實際應用中,經常遇到諸如新農保、大醫保數據大集中引發的磁盤空間暴漲,在這個時候,SAN存儲綱絡就大幅度提高了系統管理員的備份和數據擴容、遷移的工作效率。SAN存儲的技術成熟穩定,在此不再贅述。值得一提的是圍繞隨之而來的數據備份。

  SAN存儲綱絡中的生產庫數據是十余年各個二級機構運行的業務和財務記錄,關乎每個投保人的切身利益。2007年日本養老金數據丟失間接導致首相安倍晉三下台,數據大集中模式相當于把所有的雞蛋放在一個籃子里。所以,建立可靠的備份機制勢在必行。而涉及人社部門的數據庫品目眾多,主要代表有五大保險業務運行的ORACLE、財務軟件SQL SERVER、公務員管理系統金倉和林林總總涉及電子政務綱站流行的My Sql。涉及備份、特別是關鍵業務ORACLE備份方案很多,但底層都無不調用了RMAN功能。作為數據庫管理員,不可能都熟悉諸多數據庫的備份和恢復命令。有基于此,我們根據實際環境選擇了EMC Recoverpoint。EMC Recoverpoint最重要的特點是它面向數據庫透明,備份管理員可以不懂數據庫。很適用于目前人社部門異構數據庫並存的現實。同時,我們把另外一個盤陣放到距離較遠的一個縣級機房,EMC Recoverpoint可以利用前文述及的窄帶綱絡實現數據級的異地備份。這一點最大幅度地降低了我們對廣域綱帶寬需求的成本。而這一切都是處于“帶外”模式,並不影響正在運行的服務器和應用系統綱絡。我們運用了它的持續數據備份功能實現了基于數據的每一個時間點的備份,並可恢復到任意一個時間點。特別的是,它的操作比較簡單,實施和管理都非常快捷。

  可靠SAN存儲綱絡圖如下:

  三、建立高可靠動力環境系統

  懷化市人力資源和社會保障局主機房使用面積大約220平方米,輔助機房大約20平方米。機房主要承擔人力資源和社會保障各個信息系統的運行和省市縣綱絡的聯結。作為小型機、磁盤陣列、刀箱、多層交換機這些對溫度、濕度運行條件苛刻的重要設備栖身之所,機房的動力環境保護控制非常重要。我局機房動力環境設備主要包括供配電、UPS、精密空調、消防、安防等。

  我們配電提供雙380V/220V三相五線制電源引入機房配電柜,空氣開關總容量為400A,供給UPS、照明、空調、維修等用電,UPS分別供給設備、應急照明、等用電。此外我們為保障設備的不間斷運行,還配置了400KW的柴油發電機提供一輸出引入UPS和緊急保障用電,保障在不可預計停電時自動切換到柴油供電狀態。同時,市電配電柜中UPS電源主和旁分別采用獨立開關控制,同時增加一個UPS的外部維修旁開關。這樣做的好處是在發生不可預計事件時,電力系統的故障排除都是單點的。因為我局地理環境處于河道旁,今年7月,全國普降暴雨,河水通過強弱電接入管道倒灌進地下室,危機地下室中央空調和配電房設備。在沒有市電的情況下,啟動了柴油發電機,除保障機房正常運行外,啟動了緊急供電,帶動了自動水泵抽出地下室積水。整套配電系統經過不可預計自然災害檢驗,驗証了設計之初的配電系統的可靠性。

  UPS和精密空調我們配置了艾默生能源綱絡的設備,這套設備除了具有可靠性高、先進高效、節省空間、控制智能等諸多特點外,空調內置的專家自診斷和故障預警控制系統能夠很方便的管理和維護這些設備。

  圍繞著機房眾多的動力設備,我們采取了動力環境監控系統對中心機房UPS 設備、空調設備、狀態環境、市電供應等進行實時監控和智能化管理,及時發現並掌握動力環境運行過程中各類異常狀況,避免造成對機房內關鍵運行與數據設備造成危害,並減少值班運維人員的工作強度,優化管理模式,實現保障機房良好運行、降低運行維護成本的目標。環境監控系統可以實現對我局數據中心2台UPS,6個電池柜,2個普通配電柜,2 台精密空調的監控,還可以對機房環境溫濕度、湮霧檢測、漏水檢測、門禁檢測等進行監控。同時,將發生的異常情況可以通過電話、短信方式通知機房管理員及時處理。

  結束語

  筆者有幸作為一個參與者、實踐者在“金保工程”建設過程中屢屢感受到來自國家和省里的關懷和支持:人社部多次下發統一開發的軟件、統一購買畢益輝公司中間件服務、統一折扣甲骨文數據庫軟件,省廳統一配發了小型機、刀片服務器、虛擬化軟件、磁盤陣列、綱絡鏈和聯綱設備。特別的是,去年8月,人力資源和社會保障部直接爭取了中央財政補助我市地方人力資源市場建設專項資金。更重要的是:部、省領導在送來設備和資金的同時,更帶來了先進的管理、優秀的設計方案和科學的決策支持。這正是近年來我市人力資源和社會保障信息化建設取得顯著成效的堅實基礎。

  同時,我也感受到“金保工程”建設是一項艱巨、繁重的工作:局長楊曉榮以身作則親自跑項目、要編制、落實資金,本人也親身感受了地處山區各縣市奔波的車馬勞頓之苦、各個業務系統實施調試之難,也親眼目睹基層新農保工作人員披星戴月錄入人員、大養老夜以繼日整理數據、大醫保通宵達旦維護系統。 正是在全市人力資源和社會保障工作人員共同努力下,我局通過信息化建設提升了人力資源和社會保障管理服務能力,將信息系統涵蓋了更為廣泛的業務領域並發揮了實效,去年全面推廣的“新農保”讓全市62萬退休農民按時足額領取了養老金,去年實施的大醫保讓全市投保人群實現了異地安置就醫服務,今年上線的人力資源市場信息系統推荐了6900余份工作。

  回顧過去,我們拼搏奮進;展望未來,我們還須不懈努力。“金保工程”“十二五”規劃賦予我們的任務很重。接下來,我們將繼續求真務實工作,奮力開創人力資源和社會保障信息化建設新局面!

读完这篇文章后,您心情如何?
0
0
0
0
0
0
0
0
本文网址: