遇到服務器宕機怎麽解決?有什麽預防措施?
宕機,是IT行業常用的一(yī)個專業術語,其實就是我(wǒ)們經常說的死機。對于IT管理者和應用者來說,宕機是一(yī)件讓人很頭疼的事情。
普通家庭用的電腦宕機可能沒有太大(dà)的影響,頂多就是數據無法完全恢複,但是如果是一(yī)台服務器宕機了,可能會導緻機要文件和高等級數據丢失,如果處理不當可能會造成很嚴重的後果。
宕機常見的表象多爲操作界面靜止無響應或“藍(lán)屏”,操作系統無響應,軟件運行無響應,鼠标、鍵盤無響應,硬盤指示燈恒亮不閃爍。盡管造成死機的原因是多方面的,但是萬變不離(lí)其宗,其原因總也脫離(lí)不了硬件與軟件(包括主機系統、操作系統、應用軟件)兩方面。
下(xià)面我(wǒ)們一(yī)起來看一(yī)下(xià)什麽原因會引起服務器宕機,有什麽解決方案和預防措施。
由硬件故障引起的服務器宕機
硬件其實脫不了這幾大(dà)件:CPU、内存、硬盤、電源、散熱系統,而最常見的硬件引起的當機原因則是散熱系統故障。
1.散熱不良
散熱不良是大(dà)家碰到的導緻服務器當機最普遍的原因,CPU、硬盤、電源在工(gōng)作中(zhōng)發熱量非常大(dà),因此保持良好的通風狀況非常重要。CPU相當于人的大(dà)腦,對于服務器來說,它要對服務器内硬件軟件的各種請求進行并發多線程處理,當并發處理要求突然增多時,CPU的熱量就好象人腦飛速思考時一(yī)樣,會出現“腦熱”的症狀,而硬盤I/O的吞吐量也将向額定量靠近,由此帶來的功率增高,必然導緻熱量的增加;同時,功率的增加又(yòu)對電源的支持産生(shēng)了很大(dà)的壓力,必然也會帶來電源高熱量的産生(shēng)。當運算量超過服務器運算負荷之後,這三個“高熱生(shēng)産大(dà)戶”短時間内的熱量突然“增産”,很可能導緻服務器的死機現象。
解決的辦法是,在進行服務器選購時,盡量選擇發熱量較小(xiǎo)的CPU,在系統設計時設置可以實現負載動态平衡的運算系統,選擇散熱性能良好的服務器準系統。
2.硬件之間或軟硬件之間不兼容
在硬件之間,如果主闆、CPU、内存由于内外(wài)頻(pín)相互不匹配,有可能在裝配之初由于處理并發事件較少,還可以正常運行,但是當并發數上升到一(yī)定高度時,設備之間的匹配問題導緻的硬件系統不穩定就凸顯,這樣産生(shēng)的服務器當機事件發生(shēng)幾率也相應提高就算有準系統的支持,也得考慮硬件的兼容性哦。
服務器配件之間的不兼容問題一(yī)般出在朋友們自己DIY的服務器上,軟硬件兼容問題主要出在用戶對于硬件與應用之間的銜接不完善的時候。解決以上問題的方法是在選購硬件設備時,以需要采用的具體(tǐ)系統實現爲基礎,全面的考慮全新硬件之間、需要升級的配件與新配件之間、軟件與硬件之間的兼容性問題,以構建一(yī)個穩定的系統。
3.CPU故障
CPU引起當機的故障主要有以上提到的兼容問題、超頻(pín)引起的處理性能不穩定、一(yī)些JS爲獲更多利潤通過軟件改寫頻(pín)率引起的性能不穩。
改動頻(pín)率引起CPU不穩定從而導緻運行中(zhōng)當機的現象比較少,主要出在一(yī)些DIY市場領域。解決改頻(pín)引起的問題很簡單,服務器本身要求的就是系統的穩定運行,沒有特殊愛好,沒有特别專業的知(zhī)識,不要随便改動。
4.内存故障
内存引起當機的故障主要有前文提到的兼容問題、内存條松動、内存容量不足、内存質量問題、内存資(zī)源沖突。
内存條松動,基本不會出現在品牌服務器中(zhōng),因爲一(yī)般服務器出廠前都會經過專業技術人員(yuán)全面的系統檢測;内存條松動的現象主要出在DIY服務器市場或操作員(yuán)對品牌服務器進行升級時的疏忽導緻的内存條沒有插牢。
内存容量不足主要是由于服務器同一(yī)時間處理并發太多,占用太多的内存資(zī)源,導緻服務器處理響應不過來,産生(shēng)宕機。
内存質量問題主要是内存芯片出廠前的芯片故障或内存廠商(shāng)裝配時的虛焊等。
内存資(zī)源沖突的問題主要是在運行操作系統或應用軟件時,由于系統線程搶占資(zī)源或軟件應用程序争搶内存地址而産生(shēng)的内存資(zī)源沖突,從而導緻服務器死機的現象。
解決的方法隻能是采購員(yuán)與操作員(yuán)在進行裝配和升級、測試等工(gōng)作時,持嚴謹的技術态度,認真細緻的檢查硬件的每個環節;對于内存資(zī)源沖突的問題,主要通過選用冗餘支持的内存和在并發高峰期來臨前進行内存清理等工(gōng)作來避免。
5.硬盤故障
硬盤引起當機的故障主要是由于使用時間長久、讀寫次數過多引起了磁道、扇區損壞的故障,再加上硬盤各部位的老化、磁盤碎片與垃圾文件過多等。
在一(yī)些有實力的公司,每隔兩三年,會對正運行的服務器磁盤進行更新換代,将舊(jiù)硬盤數據向新硬盤實現遷移,并将舊(jiù)硬盤替換到一(yī)些測試或者辦公備用等地方,最大(dà)限度的避免了硬盤故障引起的當機現象。大(dà)家可以以此爲參考,參照成本預算等因素,盡量在磁盤損壞之前進行更新換代,避免引起重要數據的損毀。
磁盤碎片與垃圾文件在每時每刻的運行中(zhōng)都會産生(shēng),由于磁盤碎片過多或垃圾文件過多,造成可用空間資(zī)源過少時,也可能會在服務器多程序運行時當機。解決的辦法是定期對磁盤碎片與垃圾文件進行清理。
6.電源故障
電源引起當機的故障主要是風扇壞掉或電子器件與線路損壞等。現在市面上的服務器廠家批量采用的電源很多都是HIPRO 電源由于風扇或其中(zhōng)電子器件與線路故障引起的當機,除了需要進行防塵處理外(wài),基本沒什麽特殊的防範準則,因爲随機的偶然性,大(dà)多數情況下(xià)隻能在當機出現的時候,拿備用電源替換,盡量減少當機引起的運行時間損耗的問題。
7.操作不當
一(yī)般情況下(xià),機房的空間都是盡量有效利用的。打個比方,如果需要對機櫃内的一(yī)部服務器拆開(kāi)進行硬件升級,在它上面還碼放(fàng)了幾部機架式服務器,爲了不中(zhōng)斷上面幾部服務器的運行,可能需要二至三個操作人員(yuán)協作才能将上面幾部服務器托起,并把需升級的服務器拖出。這個過程看起來很簡單,不過如果沒有什麽移機經驗,冒失地跑上去(qù)拖拽擡放(fàng),很可能就導緻上面幾部服務器内硬盤部件因振動而與總線接觸不良,從而導緻當機。
另外(wài),主闆故障引起的服務器當機基本都需要返廠修理,與電源故障原由基本相同,其處理方法在次不再贅述。
由軟件原因引起的死機
軟件引起的死機需要考慮的問題比較多雜(zá),涉及到主機系統、操作系統和應用軟件
主機系統故障引起的服務器當機
1.CMOS參數設置不合理
CMOS參數設置不合理,是主機系統引起當機故障中(zhōng)最普遍的現象。
由于涉及到具體(tǐ)應用的規劃或更改,如果對系統模式設定、CPU、内存、硬盤、溫度限制等參數設置不合理,很可能會導緻服務器運行中(zhōng)死機。
避免的方法隻能在相對專業的工(gōng)程師指導下(xià),根據服務器所需的一(yī)些應用,對CMOS參數進行合理的設置。
2.BIOS設置或升級不當
BIOS的設置與升級一(yī)般在服務器出廠前已經設置完畢,有部分(fēn)用戶由于特殊需求,對BIOS設置進行改動或生(shēng)機,稍一(yī)不慎就可能導緻服務器無法啓動;另外(wài),一(yī)些應用程序可能會對BIOS不支持或者運行時對BIOS信息進行改動,這些操作也會導緻服務器在以後的使用中(zhōng)不穩定而宕機。
避免的方法是盡量避免對BIOS數據進行改動,遇到有更改BIOS參數的程序,應盡快對服務器内數據進行備份,并對BIOS數據進行出廠設置恢複。
操作系統故障引起的服務器當機
服務器的操作系統相對個人版的操作系統,容錯的能力有很大(dà)的提高,但是,在繁忙的運算與處理過程中(zhōng),免不了也會出現當機的現象。操作系統引起的服務器宕機主要有以下(xià)一(yī)些原因。
1.操作系統導引文件損壞或更改
操作系統運行前,需要導引文件對系統進行引導,如果這些文件損壞,當即會産生(shēng)藍(lán)屏當機,并在重新啓動時仍無法進入系統。
引導程序損壞與更改的解決辦法,隻能利用備用的同類型操作系統引導程序引導與恢複。
2.系統文件誤删除
服務器裏許多重要的系統文件,在删除前都會有提示信息,如果稍不留神多按一(yī)下(xià)回車(chē),删除的文件可就再也沒法恢複了。
解決系統文件誤删除,需要從平常的操作中(zhōng)養成習慣,以Windows服務器系統爲例,删除文件不要按住Shift,讓文件經過系統回收站,這樣當誤删除操作進行後,還可以及時的進行還原恢複。
3.動态鏈接庫文件損壞或丢失暫時系統沒有太大(dà)的問題
當操作者需要通過操作系統調用程序時,會通過調用程序與操作系統之間的動态鏈接庫文件來協調。動态鏈接庫文件大(dà)多屬于多程序共享文件,如果進行程序反安裝等操作,動态鏈接文件由于在操作時被發安裝程序記錄爲曾經使用的文件,會随着反安裝同時被删除。如果被删除的動态鏈接庫文件同時也是操作系統重要程序的調用,很可能産生(shēng)服務器當機。
以WindowsServer操作系統爲例,動态鏈接庫文件損壞或丢失的解決辦法,最好是通過優化大(dà)師與超級兔子等優化軟件對系統内的動态鏈接庫文件進行優化、管理與備份,以盡快在當機發生(shēng)後對文件進行有效的恢複。
應用軟件引起的服務器宕機
1.軟件bug
軟件bug是應用軟件裏最常見的引起服務器當機的故障原因,一(yī)些占用CPU或内存較大(dà)的軟件應用,在bug發生(shēng)時,很容易造成服務器當機。
軟件bug在應用驅動、運算處理、系統與軟件升級等各重要環節中(zhōng)發生(shēng)的時候,因爲本身程序占用内存和處理需求比較高,這就很容易造成程序處理響應不過來而當機。
軟件bug沒有哪家軟件開(kāi)發公司能夠避免,唯一(yī)的方法隻能使得bug發生(shēng)的幾率減少,那就是在應用軟件上線時督促開(kāi)發人員(yuán)進行全面的測試或在bug發生(shēng)後,及時的對軟件程序進行修補。
2.病毒感染與黑客攻擊
病毒感染與黑客攻擊是導緻NOC、IDC等大(dà)型服務器安置中(zhōng)心當機的主要原因。
無論是病毒感染還是黑客攻擊,最主要的解決方式還是提高服務器安全防護人員(yuán)的技術含量,盡量減少服務器被攻擊的危險從而最大(dà)限度的降低服務器宕機的危險性。
3.殺毒軟件與防火(huǒ)牆
結合上文,爲了對那些粗暴複制衍生(shēng)的病毒或木馬程序進行有效的查殺,殺毒軟件與防火(huǒ)牆需要對各種代碼的特征進行辨認,那就需要不斷的提高病毒庫文件的容量;而高等級的防火(huǒ)牆甚至還需要智能的辨别IP訪問許可,并對文件包的接收與發送與否進行人工(gōng)智能式的篩選,這就需要更大(dà)的處理與存儲空間保障其運行。
殺毒軟件與防火(huǒ)牆運行對于處理和存儲空間的高要求,必然帶來實時監控、病毒掃描與查殺時的高存儲占有,如果同時發生(shēng)系統内部的多個線程響應,宕機也是很可能發生(shēng)的事情。
總結
硬件方面,服務器可以通過更好的優化配置,做好新舊(jiù)替換與升級規劃,在系統應用之初就做好硬件兼容、承載和壓力等測試、預測,這樣可以最大(dà)限度的保障服務器的穩定與正常運行,減少宕機發生(shēng)的幾率。
軟件方面,服務器也需要更好的協作硬件、操作系統與軟件系統之間的兼容與穩定性,做好壓力測試、流量測試和負載預測等前期規劃,搭配好網絡與系統的安全防護,爲以後的系統應用做好準備。
當機在我(wǒ)們服務器應用的時候,是可以減少幾率但絕對無法避免的事情。在我(wǒ)們規劃好硬件、軟件、網絡、安全等各方面搭配以後,也隻是将當機的可能性減到最小(xiǎo)。