快手聯(lián)合阿里云打造混合云彈性調度架構
10月25日消息,為應對直播秒殺的極端流量峰值,快手容器云聯(lián)合阿里云打造了混合云彈性調度架構。日前,快手電商在2023年某大V大促直播活動中,首次采用混合云彈性調度架構,成功支撐了百萬級別秒殺峰值的計算資源需求。
據(jù)介紹,“快手容器云+阿里云”的深度技術結合,在“快手電商直播秒殺”場景下,既解決了大V活動中短時間內快速彈性擴容、峰值結束后快速縮容的問題,又提高了系統(tǒng)應對峰值的快速伸縮、系統(tǒng)穩(wěn)定性、高并發(fā)訴求,并能大大減少資源的持有成本。
數(shù)據(jù)顯示,快手APP目前平均日活躍用戶達3.76億,平均月活躍用戶達6.73億,累計互關用戶對數(shù)超過311億對,日均互動(包括點贊、評論和轉發(fā)等)總量達80億次。為了支撐如此龐大的用戶規(guī)模、業(yè)務量級,快手建立了多個龐大的數(shù)據(jù)中心,海量的服務器集群來承載每日數(shù)億用戶的訪問。
(圖源阿里云公眾號,下同)
快手技術面臨的挑戰(zhàn),除了用戶規(guī)模龐大帶來的分布式架構的復雜性,更大的挑戰(zhàn)來自于直播間秒殺場景,瞬時海量用戶的搶購并發(fā)極高。直播是快手技術挑戰(zhàn)最大的場景,而快手直播電商的秒殺活動為之最,具有并發(fā)量大、要求極高的特點。
在秒殺活動期間,大量用戶會同時訪問快手的電商平臺,對系統(tǒng)的并發(fā)處理能力提出了極高的要求。對于上億粉絲的大V直播間秒殺期間,單件秒殺商品可能達到數(shù)百萬件,單品最高秒殺請求達每秒百萬次,下單交易鏈路系統(tǒng)同時支撐每秒百萬次的并發(fā)。從下圖可以看出,大V直播期間的秒殺尖峰與日常相比,提交訂單接口的峰值流量是日常的90多倍。
為了應對并發(fā)量極高的秒殺場景,快手采用了如下圖所示的分布式系統(tǒng)架構、負載均衡技術、緩存技術、消息隊列、服務限流排隊、熱點緩存優(yōu)化等技術手段,以提高系統(tǒng)的并發(fā)處理能力和擴展性;在數(shù)據(jù)中心能力上,提高服務器的處理能力和可靠性,以確保系統(tǒng)的穩(wěn)定性和可用性。
此外,還加強對系統(tǒng)的監(jiān)控和運維,及時發(fā)現(xiàn)和解決問題,確保系統(tǒng)的高可用性。同時,也不斷優(yōu)化系統(tǒng)的性能,提升用戶體驗和滿意度。
為了解決大促秒殺尖峰時刻的資源不足問題,快手建立了彈性容器云能力??焓值膹椥匀萜髟破脚_基于Docker建設的平臺,它能夠根據(jù)業(yè)務需求自動擴展和收縮容器實例,以滿足高并發(fā)和大流量場景下的業(yè)務需求。
通過使用彈性容器云,快手可以在大促秒殺期間快速擴展容器實例,以應對突然增加的流量和請求。當流量和請求減少時,彈性容器云又可以自動收縮容器實例,以節(jié)省資源成本。這種彈性伸縮能力可以幫助快手更好地應對業(yè)務的突發(fā)變化,提高系統(tǒng)的可靠性和可用性。彈性容器云為快手解決大促秒殺期間的彈性伸縮問題提供了有力的支持。
圖注:全量使用自建IDC資源的電商業(yè)務架構
為了應對峰值,快手容器云平臺構建了快手IDC+阿里云的混合云架構,通過專線打通雙方網絡互聯(lián)互通,利用阿里云豐富的產品能力和彈性優(yōu)勢進行業(yè)務“削峰填谷”。阿里云計算資源具備快手彈性和庫存優(yōu)勢,為快手容器的彈性和擴展提供了強有力的支持,從而更好地應對峰值,滿足高并發(fā)和大流量場景下的業(yè)務需求。
在擴展公有云資源的過程中,會基于時延和容災域將相應公有云上不同可用區(qū)資源合入到快手內部不同可用區(qū)內,并優(yōu)先將非高頻訪問緩存類的服務擴容到公有云機房,以優(yōu)化業(yè)務性能。當發(fā)生單可用區(qū)的故障時,可通過可用區(qū)級的快速切流來完成業(yè)務恢復。同時為了加速業(yè)務的啟動耗時,在公有云機房建立了鏡像倉庫緩存節(jié)點,結合p2p鏡像下載機制,顯著加速公有云上的容器實例的啟動速度。
圖注:啟用彈性混合云資源的電商業(yè)務架構
其中的混合云調度平臺,通過打通預算管理、容器資源運營及資源交付等多平臺,實現(xiàn)了混合云彈性資源的快速交付,滿足業(yè)務突發(fā)流量的算力資源訴求。
整體過程中實現(xiàn)了如下平臺能力:彈性云服務器資源快速納入容器集群可實現(xiàn)10萬核計算資源30分鐘內接入快手容器云并達到業(yè)務可用狀態(tài);快手自建機房與公有云機房資源通過容器集群統(tǒng)一納管可提供一致化的算力交付,業(yè)務側不感知底層資源差異;智能化的資源調度策略,平臺統(tǒng)一托管資源分配策略,突發(fā)流量所需要的業(yè)務擴容優(yōu)先使用云上資源,活動結束縮容優(yōu)先退還云上資源并自動下線主機。
圖注:混合云彈性資源交付流程示意圖
據(jù)了解,在2023年某大V大促活動中,快手電商為了應對大V秒殺峰值的資源計算需求,快手的彈性容器云快速利用以上打通阿里云的系統(tǒng),進行了峰值資源的擴容,擴充總量級達到數(shù)萬核CPU,將下單的峰值吞吐能力提高了1倍,秒殺期間實際峰值流量達到每秒百萬次請求,系統(tǒng)各項指標穩(wěn)定,系統(tǒng)100%可用,阿里云順利通過了快手大促考驗,可以平穩(wěn)支撐快手頂流大V大促直播。
下圖中峰值的請求,即為通過阿里云彈性資源應對的峰值計算資源,解決了短時間內快速彈性擴容、峰值結束后快速縮容的問題,既提高了系統(tǒng)應對峰值的快速伸縮、系統(tǒng)穩(wěn)定性、高并發(fā)訴求,又能大大減少資源的持有成本。
官方表示,通過“快手容器云 + 阿里云”的技術深度結合,在“快手電商直播秒殺”場景下的大規(guī)模首次應用,也論證和驗證了快手彈性容器云能力在應對高峰彈性上的實際效果,也為快手未來借助阿里云解決資源成本優(yōu)勢、快速擴縮容提供了堅實的基礎,為快手引領直播電商技術的趨勢提供了有力的支持。
2、電商號平臺僅提供信息存儲服務,如發(fā)現(xiàn)文章、圖片等侵權行為,侵權責任由作者本人承擔。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn