背景
眾所周知,業(yè)務(wù)高峰帶來的流量大幅增加會(huì)對(duì)系統(tǒng)造成巨大的壓力和風(fēng)險(xiǎn),就像消防局在火災(zāi)高發(fā)期需要加強(qiáng)火災(zāi)風(fēng)險(xiǎn)關(guān)注一樣,貨拉拉也需要在高風(fēng)險(xiǎn)時(shí)段投入更多資源識(shí)別和解決問題。而業(yè)務(wù)高峰通常還具備一些特殊意義,往往伴隨著公司業(yè)務(wù)目標(biāo)的達(dá)成,如單日訂單破峰,如果因?yàn)橄到y(tǒng)故障導(dǎo)致目標(biāo)未達(dá)成,影響也會(huì)非常惡劣。當(dāng)前貨拉拉會(huì)經(jīng)歷各種業(yè)務(wù)高峰場(chǎng)景,像新業(yè)務(wù)開城放量、優(yōu)惠權(quán)益秒殺、節(jié)前貨運(yùn)需求激增等等,都要求系統(tǒng)具備高度穩(wěn)定性和抗風(fēng)險(xiǎn)能力。
自2020年下半年起,貨拉拉開始系統(tǒng)化地進(jìn)行業(yè)務(wù)高峰保障,經(jīng)過三年多努力,技術(shù)團(tuán)隊(duì)累計(jì)發(fā)起34次業(yè)務(wù)高峰保障,且自2021年以來連續(xù)三年多在業(yè)務(wù)高峰期間保持零故障記錄。接下來我將與大家分享在此過程中積累的實(shí)踐心得和思路。
一、業(yè)務(wù)高峰保障應(yīng)該如何開展?有哪些重難點(diǎn)?
1.1 明確業(yè)務(wù)高峰保障的目標(biāo)
對(duì)于業(yè)務(wù)高峰穩(wěn)定性保障,毫無疑問,我們最重要的目標(biāo)是確保期間不發(fā)生任何系統(tǒng)故障。除此之外,要與業(yè)務(wù)部門充分溝通,對(duì)齊要保障的具體業(yè)務(wù)目標(biāo)。比如,確定用戶下單指標(biāo)的具體目標(biāo)數(shù)值是多少,100萬還是200萬。如果業(yè)務(wù)目標(biāo)單量過于夸張,比如相比日常增長(zhǎng)100倍,那技術(shù)團(tuán)隊(duì)肯定需要提前評(píng)估這一目標(biāo)的可行性和成本。這樣,我們才能向業(yè)務(wù)部門提供準(zhǔn)確信息,幫助他們做出合理決策。
除了上述目標(biāo)之外,技術(shù)內(nèi)部也有一些關(guān)鍵過程指標(biāo),比如系統(tǒng)的SLA表現(xiàn)、線上問題的應(yīng)急處理時(shí)效等。最后,難度較大的目標(biāo)還是關(guān)于成本的目標(biāo)管理,在發(fā)展初期,穩(wěn)定性保障往往需要較大的投入,成本管理也是較容易被忽視的點(diǎn)。這方面需要思考的主要問題,一個(gè)是我們?cè)谶M(jìn)行保障工作的過程中,人效是否能有所提高;其次,在相同增長(zhǎng)規(guī)模下,服務(wù)器資源的單位投入是否有所降低:舉例來說,如果之前業(yè)務(wù)高峰時(shí),需要投入50萬的服務(wù)器成本,那么下一次同樣的單量增長(zhǎng)情況下,投入的資源成本是不是能比之前要少?
1.2 業(yè)務(wù)高峰保障應(yīng)該怎么開展(項(xiàng)目管理的視角)
定好目標(biāo)之后,就需要從項(xiàng)目管理的視角出發(fā),來審視和規(guī)劃后續(xù)的工作。我們先來看下業(yè)務(wù)高峰保障的特點(diǎn)。穩(wěn)定性保障項(xiàng)目相比一般項(xiàng)目來說,參與的人數(shù)更多,涉及的部門跨度也更大。而且,業(yè)務(wù)高峰保障通常是一個(gè)不能延期的項(xiàng)目——有些業(yè)務(wù)開城或許可以適當(dāng)延期,但像雙11這樣的大型促銷活動(dòng),以及貨拉拉隨著市場(chǎng)需求增加而面臨的高峰,是不可能推遲的。因此,保障項(xiàng)目組在整個(gè)過程中扮演著至關(guān)重要的角色。相比攻克技術(shù)難題,如何組織不同職能的人員共同達(dá)成目標(biāo)可能更具挑戰(zhàn)性。
可以通過以下這些措施,確保項(xiàng)目管理視角下的保障工作有效開展。
1)建立保障項(xiàng)目組。
明確組織矩陣——對(duì)于整個(gè)保障項(xiàng)目組,在一開始就要明確保障工作的組織結(jié)構(gòu)。需要確定引入哪些人員,以及這些人分別負(fù)責(zé)哪些領(lǐng)域的工作。
對(duì)齊保障節(jié)奏——由于這大多數(shù)是一個(gè)倒排期項(xiàng)目,必須安排好整個(gè)保障項(xiàng)目的周期,確保每個(gè)關(guān)鍵里程碑的達(dá)成。
2)業(yè)務(wù)輸入/更新。在整個(gè)大橫向組織的對(duì)接中,保障項(xiàng)目組承擔(dān)著向上接收業(yè)務(wù)輸入和信息更新的任務(wù)。需要與業(yè)務(wù)部門對(duì)齊,明確業(yè)務(wù)高峰保障的具體時(shí)間、目標(biāo)業(yè)務(wù)指標(biāo),以及可能發(fā)生的關(guān)鍵運(yùn)營(yíng)動(dòng)作。3)任務(wù)輸出/驗(yàn)收。這部分主要面向保障工作的實(shí)際執(zhí)行者——技術(shù)研發(fā),下發(fā)保障具體工作任務(wù),并對(duì)整體完成情況進(jìn)行驗(yàn)收。在這個(gè)過程中,會(huì)采用一些常規(guī)的項(xiàng)目管理手段。項(xiàng)目Kick-off,項(xiàng)目整體進(jìn)展定期溝通,包括保障大群、項(xiàng)目周例會(huì)等組織形式。
1.3 保障任務(wù)的具體內(nèi)容(技術(shù)保障的視角)
從技術(shù)視角來看,整個(gè)業(yè)務(wù)高峰保障流程的核心是風(fēng)險(xiǎn)管理,從風(fēng)險(xiǎn)識(shí)別到風(fēng)險(xiǎn)消除,確保沒有遺漏的風(fēng)險(xiǎn)點(diǎn),并為每個(gè)已識(shí)別的風(fēng)險(xiǎn)制定解決方案。在主體層面,可以將風(fēng)險(xiǎn)分為三個(gè)主要部分:公司內(nèi)部、外部使用者、三方依賴。根據(jù)穩(wěn)定性保障的通用經(jīng)驗(yàn),風(fēng)險(xiǎn)類別又可大致分為——容量風(fēng)險(xiǎn)、變更風(fēng)險(xiǎn)、鏈路風(fēng)險(xiǎn)、人員風(fēng)險(xiǎn)。結(jié)合風(fēng)險(xiǎn)類別和風(fēng)險(xiǎn)主體,可以構(gòu)建起整個(gè)技術(shù)保障的框架。
1)外部客戶。這方面可能帶來的主要風(fēng)險(xiǎn)是流量沖擊,要求我們根據(jù)系統(tǒng)承載能力的上限,提前設(shè)定合理的限流閾值。2)公司內(nèi)部。這部分是主戰(zhàn)場(chǎng)。
在容量風(fēng)險(xiǎn)方面,除了進(jìn)行壓測(cè)和系統(tǒng)擴(kuò)容,還需要準(zhǔn)備充分的預(yù)案,包括提前的營(yíng)銷場(chǎng)景數(shù)據(jù)預(yù)熱和緊急情況下的降級(jí)預(yù)案。
變更管理是另一個(gè)關(guān)鍵點(diǎn),我們通常會(huì)采取封網(wǎng)措施,規(guī)定在特定時(shí)間內(nèi)不允許進(jìn)行任何變更。同時(shí),也會(huì)在高峰前對(duì)核心變更內(nèi)容進(jìn)行審查,避免已治理過的內(nèi)容發(fā)生變動(dòng),以確保保障工作的效果是可控的。
鏈路健壯性方面,重點(diǎn)關(guān)注服務(wù)風(fēng)險(xiǎn)治理,包括各項(xiàng)超時(shí)、降級(jí)熔斷、依賴關(guān)系等等的合理性。完成治理后,我們將在關(guān)鍵點(diǎn)進(jìn)行攻防演練,以檢驗(yàn)效果。
人員風(fēng)險(xiǎn)同樣不容忽視。為避免在關(guān)鍵時(shí)刻找不到處理問題的人,我們要求團(tuán)隊(duì)提前安排好值班人員,并在高峰期間進(jìn)行系統(tǒng)巡檢和打卡。除此之外,設(shè)置小黑屋值班機(jī)制也是很有必要的,把各核心系統(tǒng)的關(guān)鍵負(fù)責(zé)人集中在一個(gè)大會(huì)議室里,方便快速溝通、將問題消滅在萌芽階段。
3)三方依賴。這里特別要關(guān)注容量風(fēng)險(xiǎn)和降級(jí)手段。由于三方容量采購(gòu)流程通常較長(zhǎng),需要確保提前準(zhǔn)備到位。對(duì)于有備份或弱依賴的服務(wù),要制定一鍵降級(jí)預(yù)案,并進(jìn)行演練驗(yàn)證。另外在應(yīng)急響應(yīng)方面,也要提前通知所有廠商業(yè)務(wù)高峰期的時(shí)間,確保他們能夠提供必要的支持。
1.3.1 云商重保
三方依賴這里,我將就云服務(wù)商的保障重點(diǎn)展開分享,因?yàn)樵粕痰姆€(wěn)定性對(duì)完全上云的業(yè)務(wù)系統(tǒng)是至關(guān)重要的。①信息拉齊。貨拉拉會(huì)由專業(yè)的云資源團(tuán)隊(duì)負(fù)責(zé)與云服務(wù)商對(duì)接。將業(yè)務(wù)高峰的信息拉齊是一開始的關(guān)鍵,要確保所有相關(guān)人員都能充分理解和重視業(yè)務(wù)高峰保障的重要性。②資源備貨。提前備貨是最重要的事項(xiàng),因?yàn)樵粕痰馁Y源并不是無限的,有些特殊規(guī)格的資源存量較小,需要提前與云商協(xié)調(diào)準(zhǔn)備好所需的資源。
③資源預(yù)熱。在高峰期來臨前,某些資源可能需要進(jìn)行預(yù)熱。確保這些資源在高峰期前得到充分預(yù)熱,以防止資源短缺或性能問題。
④機(jī)器巡檢。對(duì)底層物理機(jī)器進(jìn)行必要的巡檢工作,包括檢查硬件是否存在風(fēng)險(xiǎn)。如果發(fā)現(xiàn)風(fēng)險(xiǎn),可以進(jìn)行硬件替換,以避免風(fēng)險(xiǎn)在業(yè)務(wù)高峰期間爆發(fā)產(chǎn)生故障。
⑤聚合度管理。雖然服務(wù)架構(gòu)和底層資源已經(jīng)做到盡可能隔離,但在物理機(jī)視角上的資源聚合度仍需關(guān)注。之前曾遇到云商只掛了一臺(tái)物理機(jī),但對(duì)我們系統(tǒng)影響很大,主要原因就是許多核心實(shí)例都部署在了這臺(tái)機(jī)器上,聚合度太高。因此,我們要求云商定期掃描聚合度,如果發(fā)現(xiàn)聚合度過高的情況,要提前進(jìn)行資源打散操作。
⑥變更通知。盡管無法要求云商在業(yè)務(wù)高峰期封網(wǎng),但可以盡可能要求他們?cè)诖似陂g提前通知任何變更動(dòng)作。這有助于提前準(zhǔn)備,出現(xiàn)問題后快速確認(rèn)及處理,縮短影響時(shí)長(zhǎng)。
⑦應(yīng)急值班。貨拉拉與主要依賴的兩個(gè)云商都有相關(guān)的應(yīng)急溝通群,這些群組設(shè)在我們內(nèi)部的辦公聊天軟件上,以提高溝通效率,減少使用微信、釘釘?shù)榷鄠€(gè)平臺(tái)的麻煩。在一些重要的業(yè)務(wù)高峰期間(通常一年一兩次),還會(huì)要求云商提供駐場(chǎng)支持,確保得到最大力度的保障。
1.4 業(yè)務(wù)高峰保障的重點(diǎn)
最后再次回顧下整個(gè)保障思路中的兩個(gè)重點(diǎn)內(nèi)容。
1.4.1 項(xiàng)目組織
必須高度重視項(xiàng)目組織工作。就像修建高樓需要各個(gè)工種通力合作一樣,項(xiàng)目的順利進(jìn)行也需要專業(yè)的PMO人員。在貨拉拉,有專業(yè)的PMO團(tuán)隊(duì)負(fù)責(zé)整體項(xiàng)目的組織與協(xié)調(diào),確保項(xiàng)目按計(jì)劃推進(jìn)并統(tǒng)籌解決實(shí)施過程中的各種問題。由于項(xiàng)目涉及的人員眾多,可采用接口人機(jī)制。項(xiàng)目組與各部門接口人對(duì)齊,再由接口人與部門內(nèi)部的具體實(shí)施者對(duì)接。這樣可以有效降低保障工作的復(fù)雜度,明確責(zé)任分工,提升溝通效率,確保信息準(zhǔn)確傳遞和任務(wù)順利執(zhí)行。
3)固定會(huì)議把控進(jìn)度
確保項(xiàng)目例會(huì)制度嚴(yán)格執(zhí)行,以把控整體項(xiàng)目進(jìn)展。通過定期例會(huì),各部門可以及時(shí)溝通任務(wù)進(jìn)展、分享工作經(jīng)驗(yàn)、暴露過程風(fēng)險(xiǎn)、提出訴求、協(xié)調(diào)資源配置等等,確保項(xiàng)目按計(jì)劃高質(zhì)量推進(jìn)。
1.4.2 系統(tǒng)容量
另一個(gè)重點(diǎn),作為系統(tǒng)工程師,在高峰來臨前應(yīng)當(dāng)特別重視系統(tǒng)容量風(fēng)險(xiǎn)。業(yè)務(wù)高峰意味著流量的增加,如果系統(tǒng)健壯性不足,可能還有容錯(cuò)空間,但如果容量不足,問題一定會(huì)發(fā)生。在容量方面,應(yīng)當(dāng)關(guān)注以下幾點(diǎn):
1)打好提前量
不論是三方容量還是云商資源,如果這一點(diǎn)有疏漏,當(dāng)緊急需要資源時(shí),將無計(jì)可施,大概率要犧牲業(yè)務(wù)或用戶體驗(yàn)。
2)關(guān)注爬坡階段
與秒殺場(chǎng)景不同,貨拉拉的業(yè)務(wù)高峰在高峰當(dāng)日會(huì)有一個(gè)緩慢的爬坡過程。在這段黃金時(shí)間內(nèi)密切關(guān)注系統(tǒng)表現(xiàn),迅速發(fā)現(xiàn)并解決短板容量問題,可以大幅降低故障發(fā)生的概率。
3)為最壞的情況做好打算
如果容量保障做得不夠好,出了問題,需要準(zhǔn)備保大舍小,部分用戶可使用總比所有用戶都不能使用要好得多。例如,是否可以將流量做進(jìn)一步限制,以確保系統(tǒng)容量水位健康,或者根據(jù)前期準(zhǔn)備進(jìn)行必要的業(yè)務(wù)功能降級(jí)。哪怕業(yè)務(wù)因?yàn)榻导?jí)而減半或者用戶體驗(yàn)大幅受損,也比完全崩潰要好。
二、貨拉拉具體是怎么做的?效果如何?
2.1 業(yè)務(wù)高峰保障的策略
- 首先,站在巨人的肩膀上,借鑒他人成功經(jīng)驗(yàn)。如果完全靠自己摸索,效率會(huì)非常低。
- 其次,有意識(shí)做好本土化工作。因?yàn)閺乃四抢飳W(xué)來的知識(shí)或方法,不一定完全適用于自己的情況。
- 第三,必須不斷優(yōu)化。要通過不斷的復(fù)盤和優(yōu)化,確保每次都比上一次做得更好。
- 最后,保持激情至關(guān)重要。采用一些運(yùn)營(yíng)手段來激發(fā)團(tuán)隊(duì)的激情。相比簡(jiǎn)單地下達(dá)指令驗(yàn)收?qǐng)?zhí)行效果,我們更傾向于激發(fā)大家的主動(dòng)意識(shí)。所有人自發(fā)地為即將到來的業(yè)務(wù)高峰考慮要做什么,能帶來更好的結(jié)果。
2.2 策略落地
2.2.1 如何站在巨人的肩膀上?
我之前在阿里本地生活有幾年工作經(jīng)驗(yàn),因此借鑒了阿里雙11大促的保障經(jīng)驗(yàn),快速建立起了貨拉拉業(yè)務(wù)高峰保障的初步方案。這樣做的好處是,確保了整個(gè)保障工作覆蓋的顆粒度足夠細(xì)致。阿里的保障經(jīng)驗(yàn)已經(jīng)經(jīng)過了大量?jī)?yōu)化改良和實(shí)踐檢驗(yàn),可以有效避免重復(fù)別人已經(jīng)踩過的坑。
貨拉拉在業(yè)務(wù)穩(wěn)定性保障發(fā)展初期只提供了一些高峰保障的待辦事項(xiàng)列表,對(duì)問題的認(rèn)知不夠全面?,F(xiàn)在已經(jīng)有了一套完整的保障框架體系,主要圍繞風(fēng)險(xiǎn)預(yù)防和應(yīng)急快恢兩大主題開展。
2.2.2 如何做本土化改善?
我們?cè)趯?shí)踐過程中發(fā)現(xiàn),按照最初的一套方案執(zhí)行后,有些保障手段在貨拉拉的收益并不大,同時(shí)存在可能還沒有關(guān)注到一些風(fēng)險(xiǎn)。因?yàn)橄啾入娚檀蟠?,貨拉拉作為一個(gè)訂單撮合平臺(tái),更關(guān)心供需特征訂單匹配。
展開說一下。業(yè)務(wù)高峰時(shí),需求量通常比供給量要多很多。用戶下單量增長(zhǎng)迅猛,但能夠承接的訂單的司機(jī)數(shù)量不會(huì)一下子增加,甚至還可能減少,比如在五一前,有些司機(jī)可能選擇休假。這種運(yùn)力不足的情況非常明顯,直接導(dǎo)致系統(tǒng)里待配對(duì)的訂單越來越多。對(duì)于待配對(duì)的訂單,我們的系統(tǒng)會(huì)有一些既有策略。例如,如果一個(gè)訂單發(fā)布后沒有人接單,系統(tǒng)會(huì)擴(kuò)大搜索范圍,比如從10公里擴(kuò)大到20公里,從而圈選到更多的司機(jī)重復(fù)推送這個(gè)訂單(實(shí)際策略要復(fù)雜很多)。所以在業(yè)務(wù)高峰運(yùn)力不足場(chǎng)景下,系統(tǒng)的壓力增長(zhǎng)是非常恐怖的,單純依靠擴(kuò)容代價(jià)太大。因此,我們將保障重心調(diào)整到了整個(gè)訂單調(diào)度系統(tǒng)的穩(wěn)定性保障上。在研發(fā)團(tuán)隊(duì)出色完成架構(gòu)優(yōu)化的基礎(chǔ)上,結(jié)合著相關(guān)場(chǎng)景降級(jí)預(yù)案的梳理和演練,比如最嚴(yán)重的情況下可以完全關(guān)閉重推邏輯以降低系統(tǒng)負(fù)載,現(xiàn)在我們面對(duì)這種場(chǎng)景具備非常充足的信心。
2.3 具體實(shí)施
2.3.1 時(shí)空維度上的策劃(宏觀視角)
首先,我們會(huì)進(jìn)行一個(gè)宏觀視角上的策劃。這個(gè)策劃工作主要是在年初時(shí),就會(huì)列出全年會(huì)遇到的業(yè)務(wù)高峰和重大事件的時(shí)間表。這樣做的好處是,全年的保障工作計(jì)劃都能心中有數(shù),能夠提前規(guī)劃好在大概什么時(shí)間需要開展哪個(gè)業(yè)務(wù)高峰的保障工作,并給出消息提醒,避免遺漏。
2.3.1 圖1 - 貨拉拉全年大事件一覽表
其次,所有保障工作都會(huì)進(jìn)行文檔沉淀,將相關(guān)信息統(tǒng)一存放在一個(gè)共享空間中,方便查閱。
2.3.2 項(xiàng)目視角下的管理(執(zhí)行落地)
從項(xiàng)目管理的視角出發(fā),確保整個(gè)保障團(tuán)隊(duì)的構(gòu)成清晰明確。我們需要知道每個(gè)領(lǐng)域的接口人和負(fù)責(zé)人是誰,他們主要負(fù)責(zé)哪些內(nèi)容,以及整個(gè)領(lǐng)域的協(xié)作成員包括哪些人。
2.3.2 圖1 - 業(yè)務(wù)高峰保障組織
在明確了團(tuán)隊(duì)成員和責(zé)任分配之后,我們會(huì)和各領(lǐng)域團(tuán)隊(duì)成員進(jìn)行溝通,商討制定保障方案,并進(jìn)行KO會(huì)議。在會(huì)議中,我們會(huì)收集大家的反饋,看看方案中有哪些地方需要補(bǔ)充或改進(jìn)。
2.3.2 圖2 - 業(yè)務(wù)高峰保障方案框架
隨后,PMO會(huì)設(shè)立一個(gè)項(xiàng)目進(jìn)度看板,用來跟進(jìn)整個(gè)項(xiàng)目的進(jìn)度和完成情況。
2.3.2 圖3 - 業(yè)務(wù)高峰保障項(xiàng)目進(jìn)度看板
2.3.3 組織運(yùn)營(yíng)提振士氣
高峰當(dāng)日,我們會(huì)有一個(gè)被稱為“小黑屋”的作戰(zhàn)室。在這里,會(huì)確定關(guān)鍵人員的名單、時(shí)間安排,以及一些物資的準(zhǔn)備工作。這些準(zhǔn)備工作包括為團(tuán)隊(duì)成員安排下午茶等福利,以確保他們?cè)诰o張的工作中也能得到適當(dāng)?shù)男菹⒑蜖I(yíng)養(yǎng)補(bǔ)充。
其次,在保障工作結(jié)束后,我們也會(huì)注重儀式感。PMO會(huì)提前準(zhǔn)備一些物料,比如橫幅、KT板等,組織大家一起進(jìn)行合影留念。這樣的活動(dòng)不僅能夠增強(qiáng)團(tuán)隊(duì)的凝聚力,也能讓團(tuán)隊(duì)成員對(duì)參與高壓力工作的辛苦付出有一個(gè)難忘的回憶。
2.2.4 復(fù)盤總結(jié)更進(jìn)一步
在業(yè)務(wù)高峰過后,第一件事就是開展全面的復(fù)盤總結(jié)工作。
首先,我們會(huì)回顧目標(biāo)達(dá)成情況。
接下來,我們會(huì)進(jìn)行兩個(gè)重要分析:1)對(duì)每一個(gè)保障子項(xiàng)進(jìn)行深入分析。檢查保障的目標(biāo)是否達(dá)成,以及在治理過程中是否存在可以后續(xù)優(yōu)化的點(diǎn)。
2)收集復(fù)盤參與方的反饋和建議,幫助我們識(shí)別出后續(xù)改進(jìn)項(xiàng)。這些改進(jìn)項(xiàng)將被跟蹤并反饋到下一次的保障工作中。
2.2.5 踩過的一些坑
貨拉拉在業(yè)務(wù)高峰保障過程中,也遇到了一些教訓(xùn)——
只關(guān)注研發(fā)服務(wù)發(fā)布配置變更,結(jié)果因?yàn)槠渌I(lǐng)域的變更出了問題。之前在封網(wǎng)前只關(guān)注了研發(fā)自己服務(wù)的發(fā)布和配置變更。但問題卻出在了其他領(lǐng)域的變更上,比如運(yùn)營(yíng)的一些配置變更,或者是業(yè)務(wù)上的AB實(shí)驗(yàn)變更,包括安全策略等的變更。后續(xù)我們把這類變更也被納入了整個(gè)保障范圍。
- 有個(gè)服務(wù)和業(yè)務(wù)流量負(fù)相關(guān),結(jié)果出現(xiàn)在了待擴(kuò)容名單里。我們?cè)谌萘抗芾矸矫嬉恢弊龅眠€不錯(cuò),但在成本控制方面,確實(shí)也經(jīng)歷了一些摸索。比如有一個(gè)服務(wù)實(shí)際上與業(yè)務(wù)流量負(fù)相關(guān),即業(yè)務(wù)單量越多,它的壓力反而越小。這個(gè)服務(wù)和訂單熱力圖有關(guān),而訂單熱力圖的作用是告訴司機(jī)哪里更容易接到訂單。但在業(yè)務(wù)高峰時(shí),司機(jī)其實(shí)并不缺單子,因此對(duì)熱力圖的訪問量并不大。后來,我們對(duì)這類服務(wù)實(shí)施了更精細(xì)化的管理。
- 縮容的時(shí)候沒有精打細(xì)算,如果縮掉特定的服務(wù)器,能更省錢。在縮容時(shí),需要注意的不僅僅是擴(kuò)容后的機(jī)器要縮容回來,更重要的是要思考縮容哪些機(jī)器才能更節(jié)省成本。因?yàn)閿U(kuò)容時(shí)擴(kuò)的是新機(jī)器,但縮容時(shí),并不一定非得縮容這些新擴(kuò)的機(jī)器,而是可以選擇已經(jīng)在使用中的機(jī)器。這樣做會(huì)涉及到一些成本計(jì)算規(guī)則,能夠幫助節(jié)省更多的成本。在這方面,我們有專業(yè)的云成本團(tuán)隊(duì)來幫助我們進(jìn)行管控。
3.3 業(yè)務(wù)高峰保障成效
經(jīng)過2020年至今3年多時(shí)間的建設(shè),貨拉拉已經(jīng)具備了非常成熟的業(yè)務(wù)高峰保障能力。截止目前,貨拉拉技術(shù)穩(wěn)定性團(tuán)隊(duì)已累計(jì)發(fā)起34次業(yè)務(wù)高峰保障;且2021年至今,貨拉拉業(yè)務(wù)高峰期間已連續(xù)3年保持0故障水平。同時(shí),業(yè)務(wù)高峰保障也幫助強(qiáng)化了日常穩(wěn)定性水平,貨拉拉全年故障數(shù)也在逐年下降。
3.3 圖 - 貨拉拉全年故障數(shù)逐年下降
三、總結(jié)與展望
未來的目標(biāo)之一是逃不掉的降本增效,我們主要關(guān)注兩方面的成本——
- 資源成本。各系統(tǒng)擴(kuò)容資源的精細(xì)化管理;極致把控服務(wù)器資源使用天數(shù),明確資源回收對(duì)象;
- 人力成本。加強(qiáng)各保障工作的工具化能力;關(guān)注多平臺(tái)間的聯(lián)動(dòng),打造流水線式的穩(wěn)定性保障產(chǎn)品生態(tài)。
另一個(gè)目標(biāo)是實(shí)現(xiàn)高峰保障的日?;?。每次高峰保障都是對(duì)整體技術(shù)穩(wěn)定性的一次加固,也是對(duì)日常治理工作的一次反哺。未來在提效的基礎(chǔ)上,應(yīng)該把風(fēng)險(xiǎn)識(shí)別風(fēng)險(xiǎn)治理手段放到每一天來做,自然可以極大提高全年系統(tǒng)穩(wěn)定性水平。