久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

網(wǎng)維科技

 n_xianghua 2011-01-09

網(wǎng)維大師系統(tǒng)虛擬盤(順網(wǎng)無盤)神奇的“崩潰”之旅——揭秘

初步了解&問題描述:
前幾天接到一位朋友求助,一個(gè)150多臺機(jī)器的有盤換無盤的網(wǎng)吧,,用了2臺系統(tǒng)虛擬盤服務(wù)器,1臺游戲虛擬盤服務(wù)器,,說是裝了網(wǎng)維大師系統(tǒng)虛擬盤1個(gè)月之后,,大概每天晚上8~10點(diǎn)左右開始頻繁出現(xiàn)客戶機(jī)集體卡死,然后藍(lán)屏,,藍(lán)屏代碼77或者7e居多,,重啟后,卡在dhcp分配ip結(jié)束之后的界面上不動(dòng),,重啟網(wǎng)維大師系統(tǒng)虛擬盤服務(wù)之后就好,,偶爾在凌晨2點(diǎn)左右也會(huì)出現(xiàn)這種問題。
后來換了個(gè)交換機(jī)好了一個(gè)星期,,之后又開始出現(xiàn)類似問題,,部分客戶機(jī)卡死,藍(lán)屏重啟,,重啟后到dhcp分配完ip界面就卡死的問題,,必須重啟系統(tǒng)虛擬盤服務(wù)才會(huì)恢復(fù)正常,。
折騰了一個(gè)多星期了都無果,老板已經(jīng)要抓狂了,,因?yàn)槊刻於紩?huì)出問題,,顧客已經(jīng)是怨聲載道,生意逐步開始滑落……

初步判斷:
根據(jù)初次了解的情況來看,,有點(diǎn)糾結(jié),,首先第一個(gè)非常可疑的地方,,最初是正常的,,用了大概一個(gè)月之后開始出現(xiàn)問題,期間未更換過軟件版本,,都是最新的1010,,所以初步定位是硬件故障所致,用了一段時(shí)間之后可能因?yàn)橛布|(zhì)量或者壽命的關(guān)系,,出現(xiàn)了問題,。因?yàn)檫@位兄臺說,換了交換機(jī)之后好了一段時(shí)間,,根據(jù)個(gè)人的經(jīng)驗(yàn)來說,,一個(gè)普通的傻瓜交換機(jī),背板也有48Gbps的帶寬,,在150臺機(jī)器的網(wǎng)吧做核心交換機(jī)肯定是夠的,,于是建議他把下面接入交換機(jī)D-LINK2204拿去做核心交換機(jī)觀察。

但是這個(gè)問題另外一個(gè)奇怪的地方,,每天晚上8~10點(diǎn)左右最愛出問題,,根據(jù)絕大部分網(wǎng)吧的上座率來分析,這個(gè)時(shí)間段應(yīng)該是人比較多,,問了一下這個(gè)時(shí)間段人是比較多,,但是白天人也挺多,而且有時(shí)候人少時(shí)也會(huì)出現(xiàn)問題,,所以判斷這個(gè)時(shí)間段愛出問題有可能是巧合,,或者是人為破壞,也可能是和凈網(wǎng)先鋒等某些部門的監(jiān)管軟件有關(guān)系,,所以就建議他把網(wǎng)吧的這類服務(wù)器關(guān)掉測試,。

最后一個(gè)疑點(diǎn),重啟服務(wù)就好,,所以除了硬件故障也可能是軟件自身bug,,雖然俺在順網(wǎng)上班,但是處理問題還是蠻公正的,,畢竟是新產(chǎn)品,,難免出現(xiàn)bug,,于是根據(jù)自己對軟件的一些了解,來排查軟件上可能遇到的問題,,于是就遠(yuǎn)程連接服務(wù)器,,查看軟件日志,發(fā)現(xiàn)在我朋友說重啟的時(shí)間范圍內(nèi),,確實(shí)發(fā)現(xiàn)軟件重啟的記錄,,但是后來才得知,我所看到的軟件重啟記錄無論是程序自己掛掉,,還是手工重啟服務(wù)(后面分享如何判斷服務(wù)是掛掉了,,還是因?yàn)槭止ぶ貑⒘朔?wù)),都會(huì)看到這條記錄,,所以當(dāng)時(shí)詢問朋友的現(xiàn)象只是,,當(dāng)客戶機(jī)卡死時(shí),服務(wù)器進(jìn)程還在不在,,比如ControlServer.exe和DiskLessServer.exe,,或者當(dāng)時(shí)服務(wù)器cpu使用率和網(wǎng)絡(luò)使用率是否很高,但是當(dāng)時(shí)只觀察了一次,,發(fā)現(xiàn)進(jìn)程是在的,,cpu使用率不高,網(wǎng)絡(luò)利用率沒注意,,那么按照這個(gè)說法來看,,說明服務(wù)并沒自動(dòng)崩潰,軟件的重啟日志是因?yàn)榭蛻魴C(jī)卡死之后,,手工重啟服務(wù)導(dǎo)致的,,此時(shí)陷入冥想,只好先把日志發(fā)給同事分析,,結(jié)果說是有很多客戶機(jī)的網(wǎng)絡(luò)連接被關(guān)閉掉了,,問題可能處在網(wǎng)絡(luò)上,于是這點(diǎn)也驗(yàn)證了換交換機(jī)后好了一周的說法,,那么重啟服務(wù)就好的疑團(tuán)還是無法揭開,于是建議朋友用memtest測試服務(wù)器內(nèi)存是否有問題,,用硬盤哨兵測試硬盤是否有問題,,但是因?yàn)闇y試內(nèi)存需要停止服務(wù),為了不影響客戶機(jī)使用,,之后次日觀察,。

深度糾結(jié):
時(shí)間很快,一日過去了,,測試也初步有了結(jié)果:
1,、交換機(jī)換了,,仍然有掛的。
2,、測試內(nèi)存,,無壞塊,測試硬盤無錯(cuò)誤記錄,,包括系統(tǒng)日志也全無磁盤錯(cuò)誤記錄,,完全正常。
3,、再看軟件日志,,還是和之前的日志無兩樣。
說實(shí)話,,這個(gè)反饋結(jié)果完全是出乎意料的,,因?yàn)榘凑战?jīng)驗(yàn)來說,軟件雖然是新出的,,但是穩(wěn)定性還真沒這么差的,,既然之前分析日志是說網(wǎng)絡(luò)斷開,那么再從網(wǎng)絡(luò)上入手吧,,結(jié)果發(fā)現(xiàn)網(wǎng)卡做了匯聚,,而實(shí)際上當(dāng)前測試的交換機(jī)是不支持匯聚的,同時(shí)這塊主板上集成的2塊網(wǎng)卡也不是同一型號,,一個(gè)pci-e的,,一個(gè)pci的,于是建議朋友把網(wǎng)卡匯聚拆掉再觀察,。

時(shí)間還是很快,,又一日過去了,測試也有了再次反饋:
1,、網(wǎng)卡匯聚取消了,,仍然會(huì)掛……

到這里我一定要暈一下 ,完全沒有道理嘛,,想想前因后果,,問題51%以上是處在硬件上,后來在測試過程中發(fā)現(xiàn)服務(wù)進(jìn)程都在的,,而且軟件的服務(wù)重啟日志都是手動(dòng)的,,并沒自動(dòng)崩潰的記錄,那么硬件故障幾率可以提升到90%以上了,,于是建議朋友拿一臺客戶機(jī)做測試,,弄3塊全新的回寫盤來做測試,來排除服務(wù)器主板自身問題,,或者集成網(wǎng)卡問題,,或者是硬盤檢測不到的錯(cuò)誤來排除問題,,……另外把2個(gè)服務(wù)器分開帶機(jī),一個(gè)服務(wù)器帶一部分,,看看客戶機(jī)掛掉時(shí),,到底是哪個(gè)服務(wù)器上掛的。

就在百般糾結(jié)無語之時(shí),,問題另一頭的哥們發(fā)現(xiàn)服務(wù)器中毒了,,遠(yuǎn)程一看,OMG,,確實(shí)是中毒了,,而且服務(wù)端的程序都感染了病毒,中的還是很令人抓狂的Win32.Almanahe.D病毒,,這個(gè)病毒就類似威金一樣,,會(huì)破壞執(zhí)行程序……
中毒.jpg

連游戲虛擬盤也一起都中毒了……
中毒2.jpg

此時(shí)終于豁然開朗,nnd,,估計(jì)是病毒搞出來的亂子,,因?yàn)閱栴}搞了很久,發(fā)現(xiàn)一線希望,,當(dāng)然啥問題都往病毒上想了,,于是認(rèn)為此次問題是由于病毒引起的,不覺間,,大家心情都好了一下,,于是開始處理病毒,由于工程太過浩蕩,,服務(wù)器,,客戶機(jī),游戲處理病毒,,一天過去了……(這里的感染型病毒處理方法后面分享)

一日之后,,病毒終于搞定,服務(wù)器,,客戶機(jī),,拿軟件掃描橫直都沒病毒了,那就觀察吧,,一面看電影,,一面等崩潰,時(shí)間一點(diǎn)一點(diǎn)的過去,,來到了北京時(shí)間8點(diǎn)整,等啊等,,噩耗一直沒有傳來,,一直加班等到晚上12點(diǎn),,依然沒事,真是滿心歡喜,,跟朋友聯(lián)系說,,先觀察下吧,估計(jì)就是病毒問題,,先回家洗洗誰了,,到家1點(diǎn)左右,再上網(wǎng)詢問出問題沒,?得到的答案是,,沒出問題,于是安心睡了……

結(jié)果第二天上班,,一上QQ,,nnd,又報(bào)告崩潰,,我也差點(diǎn)跟著崩潰了,,見過糾結(jié)的,沒見過這么糾結(jié)的,,無語,,遠(yuǎn)程看來是搞不定了,腦袋呈現(xiàn)糊狀,,到現(xiàn)場搞吧,,于是一路上不管任何疑云,一點(diǎn)一點(diǎn)理思路,,到了現(xiàn)場,,期間朋友對我的訴苦,煙酒過程略1000字 ,,接著處理問題吧,。

逐步觀察以下問題:
1、服務(wù)器分開帶,,看看到底是哪些機(jī)器掛的,。
2、客戶機(jī)掛的時(shí)候到底是什么狀態(tài),。
3,、客戶機(jī)掛的時(shí)候,服務(wù)器什么狀態(tài),,能否ping通,,進(jìn)程是否在,cpu使用率是否高,網(wǎng)絡(luò)利用率是否高,。
4,、用性能監(jiān)視器看當(dāng)時(shí)的服務(wù)器壓力是否非常高。
5,、某些部門的服務(wù)器是否都關(guān)掉了,,是否有系統(tǒng)錯(cuò)誤日志。
6,、用windbg監(jiān)控服務(wù)進(jìn)程,,做服務(wù)進(jìn)程崩潰的dump提取,以便分析問題,。
一頓理論與思路分享完畢,,開始等待出問題,到晚上8點(diǎn)還早,,于是先把所有機(jī)器開一遍,,看看是否是因?yàn)槟硞€(gè)機(jī)器的網(wǎng)線被老鼠咬了,導(dǎo)致內(nèi)網(wǎng)問題,,結(jié)果所有機(jī)器開啟來,,依然沒問題,至此確定客戶機(jī)是正常的,,再看看交換機(jī),,燈閃的也正常,沒啥異常,,于是百無聊賴的等待現(xiàn)象出現(xiàn),。時(shí)間滴答滴答的過去了,來到了出問題的時(shí)間,,各種遠(yuǎn)程桌面打開,,性能監(jiān)視器打開,windbg打開,,任務(wù)管理器打開,,ping監(jiān)控打開,開始監(jiān)控,,說到這里要好好bs下自己,,出問題的時(shí)候所有客戶機(jī)都會(huì)掛掉,結(jié)果當(dāng)時(shí)就在無盤客戶機(jī)上監(jiān)控,,結(jié)果過了一會(huì),,果然掛掉了,一操作自己機(jī)器,,發(fā)現(xiàn)也卡住不動(dòng)了 nnd,,結(jié)果就是啥都沒監(jiān)控到,,一次機(jī)會(huì)錯(cuò)過去了……只好等待下個(gè)機(jī)會(huì),然后就是觀察,,發(fā)現(xiàn)當(dāng)時(shí)機(jī)器不是所有都掛了,,只是部分掛了,但是看交換機(jī)分布,,2臺服務(wù)器上都有客戶機(jī)掛掉,于是認(rèn)為服務(wù)器可能性不太大,,否則怎么可能2臺服務(wù)器上負(fù)載的客戶機(jī)都有掛的呢,?疑惑歸疑惑,還要繼續(xù)排查問題,。,。。

終于次日的崩潰時(shí)間又到了,,客戶機(jī)大部分機(jī)器掛掉的現(xiàn)象也出現(xiàn)了,,但是當(dāng)時(shí)看服務(wù)器沒任何異常,進(jìn)程在,,cpu低,,服務(wù)器壓力沒掛之前算是正常,不是特別高,,等客戶機(jī)掛了壓力也就一下都沒了,,ping測試正常,windbg啥也沒抓找,。

不過是俗話說的好,,天無絕人之路啊 ,因?yàn)橹巴抡f過,,根據(jù)日志判斷是網(wǎng)絡(luò)上的問題,,于是朋友靈光一現(xiàn),既然服務(wù)端沒掛,,重啟下交換機(jī)吧,,結(jié)果重啟交換機(jī)之后,當(dāng)時(shí)卡主沒重啟的機(jī)器緩過來了,,竟然沒死,,重啟起不來的機(jī)器也可以啟動(dòng)了 ,既然現(xiàn)象如此明了,,不容多想,,繼續(xù)換交換機(jī),這里要說下當(dāng)時(shí)交換機(jī)的情況:
1,、當(dāng)時(shí)最初出現(xiàn)問題時(shí),,是客戶機(jī)個(gè)別藍(lán)屏死機(jī),,當(dāng)時(shí)用的交換機(jī)是D-LINK的一款網(wǎng)管交換機(jī)。
2,、后來朋友公司給網(wǎng)吧換了一款他們代理的交換機(jī),,結(jié)果就出現(xiàn)換了一周之前沒問題,一周之后集體掛掉的問題,。
3,、再后來就用了下面的普通傻瓜接入型交換機(jī)測試,但是依然有問題,,只是大部分機(jī)器會(huì)掛,。不過實(shí)際上從開始到現(xiàn)在,機(jī)器掛都不是集體,,而是絕大部分而已,。

于是到這里沒辦法,就再次拿朋友公司代理的交換機(jī)換上,,繼續(xù)觀察,,結(jié)果就是驗(yàn)證了機(jī)器掛確實(shí)不是集體掛,而是絕大部分掛而已,,只是當(dāng)時(shí)用的負(fù)載模式是自動(dòng)分配,,客戶機(jī)不定連到哪臺服務(wù)器上去,而且機(jī)器掛掉時(shí),,顧客都是一片混亂也沒分清楚到底是啥情況,,所以誤報(bào)了是所有機(jī)器都掛……,因?yàn)榕笥压敬淼慕粨Q機(jī)也是網(wǎng)管型的,,于是想進(jìn)交換機(jī)看看是否開了網(wǎng)卡匯聚,,結(jié)果很不巧,密碼不知道被誰改過了,,咋弄也進(jìn)不去,,于是只好把交換機(jī)復(fù)位,結(jié)果又是觀察……觀察到凌晨2點(diǎn)多沒掛,,暫時(shí)認(rèn)為是交換機(jī)問題,,應(yīng)該沒啥事了,但是還不太放心,,于是帶著忐忑的心情去睡覺了,。

次日醒來,到網(wǎng)吧直接就問,,昨天晚上出問題了,,結(jié)果吧臺說,晚上沒出問題,,結(jié)果上午10點(diǎn)多出問題了,,重啟了服務(wù)器好了…… OMG,,簡直想死的心都有了,太沒道理了,,心里真是有點(diǎn)像是霜打的茄子了,,不過現(xiàn)在看來,問題99%是出現(xiàn)在網(wǎng)絡(luò)上了,,那好,,把所有的交換機(jī)都換掉,然后繼續(xù)觀測,。于是就讓朋友聯(lián)系公司找交換機(jī),,但是因?yàn)楫?dāng)時(shí)沒貨,又拿不到交換機(jī),,只好等待,但是在等待的時(shí)候也不能閑著啊,,于是繼續(xù)觀測,,總算還是有一線生機(jī),nnd還真就不信搞不定這個(gè)問題了,,咋說也背負(fù)著朋友的重托,,公司形象呢橫直也得把問題解決了才行吧,所以,,繼續(xù)振奮精神,,拿出臟兮兮的本本,開始觀測,!

到目前為止,,晚上8~10點(diǎn)掛,或凌晨2點(diǎn)掛的迷信說法已經(jīng)排除,,現(xiàn)在已經(jīng)是隨時(shí)都可能掛了,,于是為了讓他早點(diǎn)掛,也看看是不是因?yàn)閴毫μ髮?dǎo)致的問題,,于是開了20多臺機(jī)器一起看pplive,,pps,優(yōu)酷等電影,,結(jié)果看啊看,,看了1個(gè)小時(shí)也沒掛,由此看來,,不太可能是壓力導(dǎo)致的掛了,,那到底是啥原因?qū)е碌膾炷兀?br>
說到這里還是要贊同一下我以前boss說我有解決不了的問題就賴東賴西的想法,他說過沒病死不了人,,于是對于這句話我也是深信不疑,,那好,,就繼續(xù)診斷病因吧,說實(shí)話,,it這個(gè)醫(yī)生還真不好當(dāng)……不扯了,,繼續(xù)吧。

到現(xiàn)在基本就是等交換機(jī)來了,,但是也不能閑著,,繼續(xù)觀察服務(wù)器,開著任務(wù)管理器,,性能監(jiān)視器……一系列的東西開始觀察,,這個(gè)問題實(shí)在很糾結(jié),無法復(fù)現(xiàn)出問題現(xiàn)象,,每次只能等,,解決一個(gè)問題,搞的婚姻保衛(wèi)戰(zhàn)電影的都要看完了,,真是頭大,,不過即便是守株待兔是被動(dòng)的,還是要干嘛,,繼續(xù)觀察吧,!

或許一切問題都會(huì)有解決的那一天,此次也不例外,,正在看著電影,,朋友正在用的無盤客戶機(jī)卡住不動(dòng)了,而且部分客戶機(jī)也開始卡住不動(dòng),,不過與前幾次不同的是,,這次是非常有收貨的,因?yàn)橛^測到如下幾張圖:
壓力1.jpg

第一張:當(dāng)時(shí)抓這張圖時(shí),,性能監(jiān)視器的圖是動(dòng)的,,但是遠(yuǎn)程操作服務(wù)器無任何相應(yīng),點(diǎn)任何地方都點(diǎn)不了,,就好像網(wǎng)絡(luò)斷開一樣,,于是跑到服務(wù)器上登陸administrator去看,發(fā)現(xiàn)密碼無法輸入,,但是Numlock燈也是正常的,,按Ctrl+Alt+Del鍵也無任何反映,但是服務(wù)器并未死機(jī),。這個(gè)現(xiàn)象機(jī)器像是硬盤偷停,,或者硬盤故障導(dǎo)致的無響應(yīng),卡死狀態(tài),。那么再看這張圖,,可以看出以下問題:
1,、當(dāng)時(shí)服務(wù)器沒死機(jī),因?yàn)樾阅鼙O(jiān)視器當(dāng)時(shí)的監(jiān)控圖是動(dòng)態(tài)的,,有變化的,,只是無法用鼠標(biāo)點(diǎn)擊任何窗體。
2,、服務(wù)器的cpu使用率為0,,因此并不是服務(wù)器cpu過高導(dǎo)致的操作無響應(yīng)。
3,、從任務(wù)管理器上可以看出服務(wù)器的內(nèi)存占用還有3G多,,因此服務(wù)并沒掛掉,否則內(nèi)存會(huì)釋放掉,。
4,、磁盤壓力異常,表現(xiàn)出規(guī)律的鋸齒型狀態(tài),,這個(gè)磁盤正是存放img鏡像分區(qū)的盤符,。
5、回寫盤幾乎無壓力,,途中的白色線就是E盤回寫盤的監(jiān)視圖,當(dāng)時(shí)回寫盤屬于沒活干的狀態(tài),。
綜合上圖的結(jié)論,,就是服務(wù)器的存放img鏡像的磁盤有問題了,類似于硬盤偷停的故障,,而事實(shí)也正式如此,,客戶機(jī)卡死狀態(tài)維持了近20~30秒左右時(shí)間,此時(shí)正和朋友分析問題,,結(jié)果朋友用的客戶機(jī)緩過來了,,而且服務(wù)器遠(yuǎn)程也可以動(dòng)了,性能監(jiān)視器的壓力顯示也恢復(fù)正常,。


于是為了驗(yàn)證這個(gè)問題,,又趕緊開起來hdtune來監(jiān)視回寫盤的情況,真是天宮作美,,恢復(fù)正常不到半個(gè)小時(shí),,再次出現(xiàn)卡機(jī)狀態(tài),服務(wù)器一樣是無法移動(dòng)任何窗體,,點(diǎn)什么都正常,。狀態(tài)與之前的情況完全相同,點(diǎn)開hdtune一看,,果然在卡死那一時(shí)間內(nèi),,回寫盤是沒壓力的,,下圖中只有愛生活 愛順網(wǎng)線條的部分,只有100KB/S不到的寫入壓力,,完全是沒壓力的狀態(tài),,因此更加證明是由于存放img文件的磁盤出了問題。
QQ截圖未命名22.jpg

雖然種種跡象表明,,是服務(wù)器上存放img鏡像的磁盤有問題,,但是用各種工具檢測均無異常,當(dāng)時(shí)用了磁盤哨兵,,hdtune,,hddscan,檢查系統(tǒng)日志,,檢查硬盤型號,,全部參數(shù)都是正常的,沒有一個(gè)報(bào)告異常的,,但是證據(jù)如此,,我們就直接把存放img鏡像的硬盤換掉了,于是繼續(xù)監(jiān)測,,當(dāng)時(shí)卡死時(shí)在線人數(shù)大概是100多人,,2臺服務(wù)器帶,只有主服務(wù)器出問題,,副服務(wù)器沒問題,,于是把所有客戶機(jī)轉(zhuǎn)移到副服務(wù)器上,等待主服務(wù)器沒人用了才開始換硬盤,,到此位置,,問題算是水落石出了,但是為了保險(xiǎn)起見,,我們一起把交換機(jī)都換掉了,,然后再觀測。

用副服務(wù)器帶所有客戶機(jī),,已經(jīng)帶了7天左右了,,一直沒再出問題,至此基本已經(jīng)可以判定是由于主服務(wù)器存放img鏡像的磁盤故障,,導(dǎo)致的這一問題,,當(dāng)然交換機(jī)也是有問題的,但是只限于主交換機(jī),。由于這次故障完全是復(fù)合型故障,,而兩個(gè)故障原因的都會(huì)導(dǎo)致同一故障現(xiàn)象,所以查起來確實(shí)比較麻煩,而導(dǎo)致這種麻煩的主要原因一共是以下幾點(diǎn):
1,、因?yàn)榻粨Q機(jī)已經(jīng)換過3個(gè),,新的舊的,傻瓜的,,網(wǎng)管的都換過,,但很不巧,這3個(gè)交換機(jī)初期都有問題,。其中朋友代理的交換機(jī)是因?yàn)橹霸O(shè)置不合理,,導(dǎo)致問題出現(xiàn),復(fù)位后恢復(fù)正常,,但是當(dāng)時(shí)的想法是,,設(shè)備是新的,應(yīng)該沒問題的,,同時(shí)也是因?yàn)閐-link個(gè)垃圾交換機(jī)太爛了,,雖然是千兆交換機(jī),但是背板帶寬肯定不夠48Gbps的,,因?yàn)楫?dāng)時(shí)換上這個(gè)交換機(jī),,掛的尤其厲害。同時(shí)也是因?yàn)橐粫r(shí)沒有其他設(shè)備可更換,,所以在排查網(wǎng)絡(luò)這塊花費(fèi)了很長時(shí)間,。

2、替換法解決問題的思路執(zhí)行的打折嚴(yán)重,,起初換交換機(jī),,因?yàn)闆]有貨,無法找個(gè)正常的交換機(jī)來替換,,同時(shí)在排除服務(wù)器問題時(shí),,又因?yàn)榭蛻魴C(jī)電源功率太低,,拿臨時(shí)服務(wù)器測試時(shí),,服務(wù)器直接死機(jī)了,然后報(bào)了一堆a(bǔ)tapi磁盤錯(cuò)誤,。所以換服務(wù)器測試問題的方式又沒能執(zhí)行下去,。

3、問題現(xiàn)象沒弄清楚,,由于問題現(xiàn)象盤根錯(cuò)節(jié),,實(shí)際上最初的問題是交換機(jī)導(dǎo)致的,因?yàn)閱栴}現(xiàn)象被交換機(jī)掩蓋了,,所以當(dāng)時(shí)有點(diǎn)搞不清楚到底是誰的問題,。

其實(shí)總結(jié)下來問題搞這么就的主要原因就是,受現(xiàn)象和資源影響嚴(yán)重,,沒有能按照思路很好的執(zhí)行排除過程,,所以下次解決問題時(shí),,懷疑哪部分有問題,換設(shè)備時(shí)一定要換不同型號,,而且要全新設(shè)備,,至少是別的網(wǎng)吧都用著正常的同樣規(guī)格的硬件來替換。當(dāng)問題排除后,,再逐一發(fā)現(xiàn)其中的差異,,例如之前的固件門問題,例如之前的64m緩存硬盤問題,,例如之前的主板bios導(dǎo)致客戶機(jī)隨機(jī)藍(lán)屏死機(jī)問題,,例如之前的低價(jià)劣質(zhì)的內(nèi)存問題,例如此次的交換機(jī)問題等,,硬件是換了,,但要么換的是同型號的設(shè)備,即便是全新的,,要么是相信這個(gè)設(shè)備是新的就不會(huì)有問題等等,。

教訓(xùn)是慘痛的,但經(jīng)驗(yàn)是寶貴的,,希望這些經(jīng)驗(yàn)可以分享給大家,,有助于大家早日解決問題,如果得到方法就一定要嚴(yán)格執(zhí)行,,即便現(xiàn)象再古怪,,還是要有個(gè)自己的主心骨!不過好在是問題解決了,,否則在部分不熟悉軟件的人來下結(jié)論時(shí)很可能得到這樣的結(jié)論:要么是這個(gè)人不靠譜,,要么是這個(gè)軟件不靠譜。

最后再羅索一句,,任何問題都會(huì)有被解決的那一天,,排除法是解決問題最強(qiáng)大的一個(gè)辦法,對網(wǎng)吧尤其適用,!最后希望大家再遇到問題時(shí),,不要直接說,之前用別人系統(tǒng)好的,,用俺的系統(tǒng)就有問題,,之前用別的軟件沒事,用你這軟件就有事,,因?yàn)?,任何對比只在完全相同的環(huán)境下才有可比性!包括系統(tǒng)里的軟件,包括優(yōu)化設(shè)置,,包括硬件型號,,批次,固件版本,,驅(qū)動(dòng)……

————————————————————————————————————————————————————————
這個(gè)問題磕磕絆絆到最后,,已經(jīng)過去一個(gè)多月了,上次發(fā)完帖子,,到后來那家網(wǎng)吧又出問題了,,現(xiàn)象很確定,就是主服務(wù)器上的機(jī)器掛掉了,,于是再看日志,,發(fā)現(xiàn)日志里4塊回寫盤都有錯(cuò)誤,而且是同一時(shí)間,,這個(gè)有點(diǎn)蒙了,,怎么可能4塊回寫盤一起有問題呢,想想電源,,數(shù)據(jù)線都換過了,,也就差主板了,于是第二天將主板換上繼續(xù)測試,,因?yàn)榈浆F(xiàn)在位置,,問題出現(xiàn)周期已經(jīng)變成1周出現(xiàn)1次,所以再觀察已經(jīng)是一周以后了……

當(dāng)一周以后再來到這個(gè)網(wǎng)吧觀察時(shí),,我朋友在網(wǎng)吧等到凌晨4點(diǎn)多沒掛,,結(jié)果第二天早上起來聽說又掛了,到現(xiàn)在已經(jīng)想不出什么原因了,,因?yàn)閺拇篌w上說“主板,、電源、硬盤,、數(shù)據(jù)線”都換過了,,內(nèi)存也測試過了,總不可能是cpu針腳插彎了吧,,此時(shí)已經(jīng)想不出其他原有,,繼續(xù)看下日志吧,,因?yàn)槌绦驋炝巳罩纠镆话愣寄苷业近c(diǎn)蛛絲馬跡,,這個(gè)一定要贊一個(gè)!結(jié)果最后查看日志時(shí),,發(fā)現(xiàn)仍然有一個(gè)回寫盤報(bào)錯(cuò),,最后將這塊回寫盤再換掉,根據(jù)我朋友的最終反饋,目前一切終于階段性恢復(fù)正常,!

我想寫到這里,,這篇文章終于算是有個(gè)了解了

那最終可能還是要再簡單總結(jié)下此次問題中的一些盲點(diǎn):
1、導(dǎo)致此次問題比較糾結(jié)的主要原因之一是問題發(fā)生周期太長,,并且?guī)в幸欢ǖ恼T導(dǎo)性,,開始每天晚上8~10點(diǎn)或者凌晨2~4點(diǎn)出現(xiàn)問題,而且較為有規(guī)律,,就是這個(gè)時(shí)間出問題,,白天出問題的幾率低的不能再低。但是按照上座率來看,,并不是100%的晚上8~10點(diǎn)人比白天多,,而凌晨2~4點(diǎn)人更加少。所以要觀察到現(xiàn)象基本要等20個(gè)小時(shí)左右,。
2,、問題是屬于復(fù)合型問題,并且比較隱蔽,。
3,、最初是交換機(jī)故障,因?yàn)樽畛鯖]有替換設(shè)備,,只能拿之前就有問題的設(shè)備來替換,,而且問題不只這一點(diǎn),所以也出現(xiàn)了替換也沒用的問題,,當(dāng)然在這之前還沒懷疑到交換機(jī),,是懷疑到服務(wù)器,所以當(dāng)時(shí)就采取了a服務(wù)器帶一半,,b服務(wù)器帶一般的策略,,結(jié)果都出問題,所以當(dāng)時(shí)就糾結(jié)萬分,。這也是有同學(xué)說你早一個(gè)服務(wù)器帶一半早發(fā)現(xiàn)問題了,,而我沒發(fā)現(xiàn)問題的一個(gè)主要原因。
4,、后來出問題后,,沒重啟服務(wù),直接重啟了交換機(jī),,結(jié)果客戶機(jī)卡死的活過來了,,這里開始意識到是交換機(jī)問題,,并且最終強(qiáng)制更換了一批其他品牌的傻瓜交換機(jī)測試,,但是后來還是出現(xiàn)掛了,結(jié)果當(dāng)時(shí)又不知道誰進(jìn)服務(wù)器把分服務(wù)器負(fù)載改為均衡負(fù)載,,也不知道什么時(shí)間改的,于是又要等出問題來判斷是否與服務(wù)器有關(guān)系,。
5,、再后來終于發(fā)現(xiàn)了主服務(wù)器鋸齒型的日志體現(xiàn),這里就換了存放img的磁盤,。
6,、換了完了還是有問題,結(jié)果檢查日志又發(fā)現(xiàn)所有回寫盤幾乎在同一時(shí)間一起報(bào)錯(cuò),,但是不太可能4塊盤一起出問題,,之前電源,數(shù)據(jù)線就已經(jīng)換過了,,于是懷疑主板,,并將主板更換了同型號的另外一塊新板子繼續(xù)觀察。
7,、換了還還是出問題了,,再次查看日志,只有一塊回寫盤報(bào)錯(cuò),,最后把這塊盤又換掉,,到目前未知大概有2周左右,沒再出問題了,。

其實(shí)我相信很多人看完了文章都覺得我搞的太羅嗦了,,其實(shí)導(dǎo)致這么羅嗦的原因也很多了:
1、這些服務(wù)器配置用了n個(gè)網(wǎng)吧了,,鳥事沒有,,我朋友并太認(rèn)為和硬件有關(guān)系,但是開始1個(gè)月啥事沒有,,后來突然出問題,,這種問題一般都是硬件故障或者軟件升級導(dǎo)致。
2,、因?yàn)槌R?guī)檢測手段都無法看到硬件有任何異常,,所以無法認(rèn)定是硬件問題導(dǎo)致,所以上去就叫人家換服務(wù)器并不是非??孔V,,好歹也要找出個(gè)理由來才能讓人家換吧。
3,、對于這種比較糾結(jié)的問題,,從個(gè)人的角度來講我是希望發(fā)現(xiàn)真正的問題原因,這樣對日后排除問題解決問題的信心堅(jiān)定方面是非常有必要,,有價(jià)值的,,我經(jīng)常出口就叫人家差硬件也是在這些問題上來的。
4,、主要是這段時(shí)間碰到的硬件問題太多,,但是基本都能看到現(xiàn)象,唯獨(dú)這個(gè)硬件故障是出在主板和交換機(jī)上,,看不出來……
5,、我去幫朋友解決問題,并不完全是為了解決問題而解決問題,,而是希望把這種處理問題的方式方法自我檢驗(yàn),,并且和朋友分享。
所以說到這里,,我也希望大家能把自己解決問題的經(jīng)歷,,經(jīng)驗(yàn)總結(jié)一番,這不僅可以幫助到別人,,也可以記錄下自己的歷程,。

——(完)——

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多