發(fā)布于:2020-12-19 18:39:15
0
125
0
您可能已經(jīng)注意到,NetCraftsmen會進(jìn)行各種類型的評估(網(wǎng)絡(luò),安全性等)。在執(zhí)行這些操作時(shí),我注意到的一件事是客戶的操作習(xí)慣差異很大。
該博客介紹了您應(yīng)該定期執(zhí)行的某些事情(流程),并在您重復(fù)執(zhí)行這些操作時(shí)有所改進(jìn)。它還涵蓋了一些良好的操作規(guī)范。
這里有一個(gè)教訓(xùn),它適用于許多領(lǐng)域:您可以以可控的方式提前安排時(shí)間,每次執(zhí)行任務(wù)時(shí)都可以逐步改進(jìn)流程,或者可以做得差一些。匆忙的消防演習(xí),一遍又一遍。
對于那些說“但我沒有時(shí)間”的人,我聽到了。但是,這是“現(xiàn)在付錢或以后付錢”的事情?;ㄐr(shí)間讓您的生活變得更好。
為了控制此博客的大小,我們將重點(diǎn)放在與網(wǎng)絡(luò)相關(guān)的任務(wù)上。每個(gè)技術(shù)領(lǐng)域都有其自己的領(lǐng)域。對于服務(wù)器和虛擬機(jī),要想到具有可靠過程的良好備份或克隆,以及良好的備份驗(yàn)證過程。您不想發(fā)現(xiàn)急需的備份已失敗并且沒有人注意到,或者您不想因?yàn)闆]有考慮到某些原因而損壞了每個(gè)備份。當(dāng)cryptolocker命中并且備份似乎全部損壞時(shí),您就不想成為 那個(gè)人。
以下是定期維護(hù)任務(wù)。如果您不對它們進(jìn)行管理,它們將無法完成,或者不會相當(dāng)定期地完成,特別是如果您像大多數(shù)網(wǎng)絡(luò)工作人員那樣忙碌時(shí)。
對我有用的是(a)建立一個(gè)跟蹤電子表格,其中包含任務(wù)以及上次執(zhí)行的時(shí)間,以及(b)將它們放入日歷中,也許是一年中的幾周列表,哪些是維護(hù)周,哪些是變更-窗口周等
我已經(jīng)看到在三個(gè)大型站點(diǎn)完成并在其他地方推薦的一項(xiàng)是對高可用性(HA)的定期驗(yàn)證。該操作可能每年執(zhí)行一次,或者每兩年執(zhí)行一次,具體取決于因故障切換失敗而被燒死的頻率。
這項(xiàng)工作的重點(diǎn)是計(jì)劃是人為的并且容易出錯(cuò),并且設(shè)備上的配置會隨著時(shí)間的推移而變化。假設(shè)您可能不想找出破壞高可用性配置的困難方式(停機(jī)時(shí)間)。如果足夠重要,則可以選擇承擔(dān)測試的人員和其他費(fèi)用。
要實(shí)現(xiàn)這一點(diǎn),需要遍歷網(wǎng)絡(luò)圖,確定發(fā)生故障轉(zhuǎn)移的點(diǎn),檢查配置以查看功能是否配置正確。最佳實(shí)踐是實(shí)際上觸發(fā)故障轉(zhuǎn)移并進(jìn)行故障回復(fù)以確保它確實(shí)有效。通常,這是分批進(jìn)行的,并在每個(gè)可用更改窗口中進(jìn)行了一些測試。這通常是低風(fēng)險(xiǎn)的,但可能會在測試時(shí)中斷服務(wù)。此處的關(guān)鍵點(diǎn)是根據(jù)您的時(shí)間表而不是墨菲先生的身份(如“墨菲定律”)確定故障轉(zhuǎn)移失敗 。
您可能要測試的場所和HA功能包括HSRP,到HSRP或防火墻VRRP VIP的靜態(tài)路由(包括確保目標(biāo)是VIP不是“真實(shí)”設(shè)備IP),交換機(jī)堆棧成員故障,兩個(gè)WAN路由器和鏈路之間的路由故障轉(zhuǎn)移,等等
如果您是視頻愛好者,我們中的一些人會與Network Collective進(jìn)行有關(guān)HA和彈性的聊天 。
對我來說,自動存檔配置是一種很好的做法。多種工具通常會在退出配置模式時(shí)觸發(fā)Cisco syslog消息,從而觸發(fā)此操作。SolarWinds NCM,Cisco Prime基礎(chǔ)設(shè)施/ APIC-EM,NetMRI等。
這可以在發(fā)生故障時(shí)進(jìn)行配置比較,例如“發(fā)生了什么變化?” –故障排除中經(jīng)常會問的第一個(gè)問題。它還啟用回滾。
我也喜歡出于教育/流程改進(jìn)目的的審核跟蹤(誰進(jìn)行了更改)。
我個(gè)人更喜歡在筆記本電腦上也有當(dāng)前配置的加密ZIP,以解決無法訪問存檔的情況。當(dāng)遠(yuǎn)程訪問或文件共享的路徑不起作用時(shí),這很方便。
我真的很想擁有強(qiáng)大的網(wǎng)絡(luò)設(shè)備清單,至少包括設(shè)備名稱,IP地址,硬件模塊,序列號,當(dāng)前的IOS / OS版本以及SmartNet或其他支持合同信息。您可能想知道的所有內(nèi)容。
這是關(guān)鍵的一個(gè)原因:將配置管理設(shè)備清單和其他網(wǎng)絡(luò)管理工具中的清單同步到“主”清單。如果您有自動發(fā)現(xiàn)開啟,那么工具可以捕獲你忘記添加到您的庫存設(shè)備。上面命名的工具可以提供清單信息。
順便說一句,您是否使用網(wǎng)絡(luò)自動發(fā)現(xiàn)?當(dāng)我們不得不擔(dān)心SNMP導(dǎo)致設(shè)備重新啟動或“大量”網(wǎng)絡(luò)流量時(shí),我們已經(jīng)走過了黑暗時(shí)代,不是嗎?是的, SolarWinds 或其他產(chǎn)品的許可強(qiáng)制對設(shè)備進(jìn)行手動管理。效率低下。
我在很多網(wǎng)站上看到了帶有不同設(shè)備列表的工具。這就是為什么我認(rèn)為需要定期(每年一次)同步庫存的原因-這樣您就不會在故障排除過程中發(fā)現(xiàn)差距。
對于那些誰認(rèn)識我,我強(qiáng)烈相信你應(yīng)該管理的每個(gè)設(shè)備和每個(gè)接口。盲點(diǎn)是浪費(fèi)時(shí)間。如果許可費(fèi)用太高,那么您使用的工具不正確。
我還喜歡自動設(shè)置閾值(錯(cuò)誤,丟棄,利用率百分比,進(jìn)出)和警報(bào)的工具,因此您可以意識到問題。不應(yīng)容忍高于0.001%(或什至更低的水平)的錯(cuò)誤和丟棄百分比-固定電纜(通常是電纜,但并非總是如此-光學(xué)器件也很臟)。
是的,您確實(shí)確實(shí)需要管理用戶和服務(wù)器端口。您可能有一些用戶認(rèn)為網(wǎng)絡(luò)速度很慢,因?yàn)樗麄兌嗄陙硪恢庇龅诫p工不匹配或電纜故障,而您卻一無所知。
我非常喜歡緩存的信息。原因如下:當(dāng)發(fā)生網(wǎng)絡(luò)危機(jī)時(shí),我經(jīng)??吹饺藗兓ù罅繒r(shí)間來挖掘信息。手動跟蹤路線,從A到B,從B到A,記下躍點(diǎn),繪制示意圖。然后找出涉及的接口并查看其配置。等等,這既費(fèi)時(shí)又容易出錯(cuò),請不要去那里。
在這里,好的網(wǎng)絡(luò)管理工具可以并且確實(shí)集成了所有這些信息,以節(jié)省您的時(shí)間。 NetBrain 和SolarWinds具有一定程度的路徑功能。太多的工具在將信息埋藏在其中的某種意義上提供了“可見性”,但是您仍然最終不得不在太多的不同地方進(jìn)行過多的挖掘,以匯總所需的知識。
好的意味著在您需要時(shí)它就在那里。不好的是,當(dāng)它們都放在某個(gè)地方時(shí),但是需要花費(fèi)兩個(gè)小時(shí)的尋寶游戲才能將其全部拉出并放入基于紙張的桌子中。
緩存的信息包括(a)良好的圖表,以及(b)在DNS中包含您的路由器名稱。并且請遵循結(jié)構(gòu)化命名約定使用簡短的設(shè)備名稱。不要在名稱中包含設(shè)備類型,它會使名稱變得很長,很難記住,并且稍后會咬住您(設(shè)備類型是好的庫存為您提供的功能)。
圖必須是可持續(xù)的(結(jié)構(gòu)化,模塊化的),否則會浪費(fèi)時(shí)間。千篇一律的站點(diǎn)和園區(qū)設(shè)計(jì)可能意味著您可以用通用圖和按站點(diǎn)信息的XLS替換圖。使用常識。圖表因浪費(fèi)時(shí)間而聲名狼藉,因?yàn)槿藗冞^度使用圖表,包含過多信息或以難以改變的方式進(jìn)行繪制(例如海報(bào)大小的圖表)。
對于那些說他們沒有時(shí)間來生成好的功能圖的人,我說:“嘿,每次執(zhí)行traceroute / sketch東西時(shí),您都會浪費(fèi)一個(gè)小時(shí),而且還要冒錯(cuò)誤的風(fēng)險(xiǎn)。您最終會反復(fù)這樣做。正確地做,并在重要時(shí)節(jié)省時(shí)間!”
熵發(fā)生了-這就是定律(熱力學(xué))。您需要施加能量來反轉(zhuǎn)熵。
適用于配置合規(guī)性:配置會隨時(shí)間推移而漂移-人們可能會前后矛盾或混亂。
符合性檢查工具可以幫助您解決此問題,但價(jià)格昂貴(許可加添加規(guī)則)。自行開發(fā)的工具必須應(yīng)對各種語法和默認(rèn)值(在所有Cisco平臺上)造成的復(fù)雜性(“全部顯示運(yùn)行”并不能始終如一地顯示默認(rèn)值)。
新的IOS代碼有風(fēng)險(xiǎn),但是當(dāng)我看到設(shè)備已經(jīng)7年沒有重啟時(shí),我的反應(yīng)是“那是相當(dāng)健壯的,做得很好的Cisco(或其他供應(yīng)商)”,然后是“哦,但是安全補(bǔ)丁還沒有”被應(yīng)用”。
NetCraftsmen和Cisco通常建議使用“ N-1”方法,就像在最新的代碼版本中一樣-其他站點(diǎn)已經(jīng)為您測試過,發(fā)現(xiàn)了嚴(yán)重的/常見的錯(cuò)誤,并進(jìn)行了多次補(bǔ)丁更新。
我們還建議定期將代碼刷新到N-1,也許一年一次或兩次。許多網(wǎng)站都不記得要這樣做。
大多數(shù)網(wǎng)絡(luò)管理工具都會匯總歷史測量數(shù)據(jù),以消除流量峰值。
對于容量規(guī)劃,你可以選擇一些數(shù)字,如95個(gè) 百分位,或80個(gè) 百分點(diǎn),和捕獲的流量測量(入站,出站)到Excel的關(guān)鍵接口。假設(shè)您每月這樣做。然后,您可以繪制數(shù)據(jù)點(diǎn)圖,應(yīng)用趨勢線,插入年度或季度容量目標(biāo)。通過這樣做,您可以了解自己的看法和實(shí)際數(shù)據(jù),從而可以學(xué)習(xí)和改進(jìn)。
感謝我們的特里斯萊特里,我喜歡他的約百分?jǐn)?shù)據(jù)關(guān)鍵點(diǎn):95個(gè)百分位的手段,你測量的5%,分別為糟,甚至更糟。這樣,每分鐘的數(shù)據(jù),72分鐘的平均值分別為壞或大于95更糟個(gè) 百分位(51440分鐘%)。詳細(xì)介紹這是一個(gè) 單獨(dú)的博客主題。
更改期間的時(shí)間Windows運(yùn)行很快。提前徹底準(zhǔn)備;擁有configlet,回滾configlet,電話號碼/聯(lián)系信息以及手邊所有必要的信息是提高效率的關(guān)鍵。幾個(gè)大型站點(diǎn)使用一個(gè)XLS中的標(biāo)簽將它們捆綁在一個(gè)地方。
制定可靠的測試計(jì)劃也是關(guān)鍵。不要從那里走過(取決于關(guān)鍵性)。這更多是一個(gè)過程項(xiàng)目,不一定是周期性的,但可以改善您進(jìn)行變更的方式。
經(jīng)驗(yàn)表明,草率的準(zhǔn)備常常與轉(zhuǎn)換延遲和障礙有關(guān)。未能計(jì)劃測試可能意味著差距,然后在星期一早上咬住您。
人們尤其會忘記做某事,例如,他們將VLAN添加到下行鏈路,而不是添加到VPC或核心交換機(jī)之間的其他中繼。然后可能要花一些時(shí)間才能解決該問題-這是您沒有的時(shí)間。
預(yù)先對變更進(jìn)行VIRL建??梢杂兴鶐椭?盡管L2在那里有些問題。VIRL至少可以捕獲語法和路由問題。
第二個(gè)相關(guān)實(shí)踐是在更改的早期驗(yàn)證1-3層。連接性問題可能會偽裝成路由或更高級別的問題,從而浪費(fèi)寶貴的轉(zhuǎn)換時(shí)間。這也是CCIE實(shí)驗(yàn)室的建議:在花費(fèi)時(shí)間處理復(fù)雜的癥狀之前,請檢查您的基礎(chǔ)知識(鏈接,尋址,路由鄰接關(guān)系并保持穩(wěn)定)。
對于單獨(dú)的博客,這是一個(gè)足夠大的主題。我的印象是組織傾向于做出各種方便的假設(shè),為災(zāi)難恢復(fù)失敗做好準(zhǔn)備。所有車隊(duì)都必須做好準(zhǔn)備。
我將在這里強(qiáng)調(diào)的是具有詳細(xì)的DR網(wǎng)絡(luò)計(jì)劃,包括configlet,尤其是在需要即時(shí)重新配置的情況下。并測試它們。在DR網(wǎng)絡(luò)啟動之前,所有操作都將無效,所以所有的目光都將注視著您!
網(wǎng)絡(luò)和應(yīng)用程序團(tuán)隊(duì)確實(shí)需要討論應(yīng)用程序的DR故障轉(zhuǎn)移是如何工作的。這有助于進(jìn)行適當(dāng)?shù)脑O(shè)計(jì),自動故障轉(zhuǎn)移并減少發(fā)生災(zāi)難恢復(fù)時(shí)的指責(zé)。定期測試有幫助。
作者介紹