阿里云周靖人:AI時(shí)代,云計(jì)算要服務(wù)不同開發(fā)者和客戶群體
11月1日消息,阿里日前舉辦了以“計(jì)算,為了無(wú)法計(jì)算的價(jià)值”為主題的2023云棲大會(huì)。會(huì)上,阿里云CTO周靖人表示,面向智能時(shí)代,阿里云將通過(guò)從底層算力到AI平臺(tái)再到模型服務(wù)的全棧技術(shù)創(chuàng)新,升級(jí)云計(jì)算體系,打造一朵AI時(shí)代最開放的云。
在現(xiàn)場(chǎng),周靖人公布了云計(jì)算基礎(chǔ)能力的最新進(jìn)展,升級(jí)了人工智能平臺(tái),并發(fā)布千億級(jí)參數(shù)規(guī)模的大模型通義千問(wèn)2.0,以及一站式模型應(yīng)用開發(fā)平臺(tái)阿里云百煉,阿里云已初步建成AI時(shí)代全棧的云計(jì)算體系?!澳壳?,中國(guó)有一半大模型企業(yè)跑在阿里云上,280萬(wàn)AI開發(fā)者活躍在阿里云魔搭社區(qū)上,未來(lái),阿里云將攜手千行百業(yè)推動(dòng)AI創(chuàng)新,共享技術(shù)紅利?!?/p>
《晚點(diǎn)LatePost》在本次云棲大會(huì)前對(duì)話周靖人,他談了阿里云如何看待AI帶來(lái)的云計(jì)算新機(jī)會(huì),他們計(jì)劃如何搭建新環(huán)境下的計(jì)算基礎(chǔ)設(shè)施,以及在這次技術(shù)變革中的轉(zhuǎn)型,到底會(huì)如何改變阿里云。
阿里云CTO周靖人
圖源阿里云公眾號(hào)
《晚點(diǎn)》:現(xiàn)在已有不少中國(guó)大模型公司是你們的客戶,如智譜AI和百川智能等。但阿里云自己也更新了通義2.0大模型,并發(fā)布了一系列基于通義的行業(yè)應(yīng)用模型。為什么你們一邊想做基礎(chǔ)設(shè)施,一邊又在自己做模型?
周靖人:我們?cè)粕嫌懈鞣N客戶,表面看起來(lái)我們這也做、那也做,但這都對(duì)應(yīng)著AI時(shí)代,云計(jì)算要服務(wù)的不同開發(fā)者和客戶群體。
有一類客戶,像你講的百川,自己能開發(fā)通用模型,他需要的是AI基礎(chǔ)設(shè)施;還有客戶,他不見得要從頭訓(xùn)練通用模型,但想結(jié)合行業(yè)知識(shí)訓(xùn)練模型,比如這次我們發(fā)布了一個(gè)工具“阿里云百煉”,它能基于通用模型,讓客戶方便地結(jié)合自身數(shù)據(jù)集產(chǎn)生專屬大模型;還有人是想直接調(diào)用已有的模型。
而且我們做大模型不是為了做端到端的超級(jí)應(yīng)用,這次發(fā)布的模型大部分不是完整產(chǎn)品,我們的目的是給大家展示和開放能力,歡迎客戶通過(guò)API方式把它們放到自己的系統(tǒng)里,真正解決業(yè)務(wù)問(wèn)題。我們的所有模型都?xì)g迎“被集成”。
不僅是大模型,我們每一層能力,從訓(xùn)練模型的能力到微調(diào)、部署和調(diào)用的能力,都希望“被集成”。阿里云要給每一類開發(fā)者和客戶都提供支持。
《晚點(diǎn)》:既做算力基礎(chǔ)設(shè)施又做模型不會(huì)和客戶沖突嗎?
周靖人:這不是競(jìng)爭(zhēng)生態(tài),大家還是理念上沒跨過(guò)這個(gè)坎。你看Snowflake、Databricks和MongoDB都是在云上發(fā)展起來(lái)的“云原生”企業(yè)(上述公司的業(yè)務(wù)都與數(shù)據(jù)分析或數(shù)據(jù)庫(kù)有關(guān)),Databricks最大的用量就在AWS和微軟Azure上,但不妨礙AWS和Azure也有自己的大數(shù)據(jù)與數(shù)據(jù)庫(kù)產(chǎn)品。
在模型時(shí)代是一樣的。云計(jì)算的生態(tài)不是onesizefitsall(一套產(chǎn)品滿足所有客戶需求),有你沒我、有我沒你。市場(chǎng)里有不同定位的產(chǎn)品才是一個(gè)健康生態(tài)。
《晚點(diǎn)》:為幫助構(gòu)建這個(gè)生態(tài),阿里云做了什么?
周靖人:我們是中國(guó)大公司里唯一開源自研大模型的,之前開源了70億和140億參數(shù)的通義大模型,11月還將開源720億參數(shù)的版本。Meta開源的Llama2的最大版本是700億,其實(shí)我們開源的模型在各種性能指標(biāo)上都超過(guò)了Llama2,開發(fā)者里也有口碑。
另一件事是我們?nèi)ツ?月上線了模型社區(qū)ModelScope魔搭。短短一年多,魔搭已累積了上億次模型下載量。這一定程度反映了我們的判斷:更多開發(fā)者是希望把模型集成在自己的系統(tǒng)里。
這次我們還宣布了一個(gè)新計(jì)劃“云工開物”,給每個(gè)想嘗試AI前沿技術(shù)的高校學(xué)生提供全年300元的阿里云產(chǎn)品免費(fèi)額度,這相當(dāng)于給每個(gè)學(xué)生配備了一臺(tái)云服務(wù)器。我們還給學(xué)生提供全線產(chǎn)品的三折優(yōu)惠,上限是5000元人民幣,一些產(chǎn)品甚至低于成本價(jià)。對(duì)高校老師我們也有計(jì)劃,讓他們科研使用的部分能享受5折優(yōu)惠。
云工開物不限制學(xué)生名額,只要你是學(xué)信網(wǎng)注冊(cè)學(xué)生,大學(xué)生、大專生都可以申請(qǐng)。全國(guó)有四千多萬(wàn)注冊(cè)學(xué)生,我們估計(jì)其中有1/5到1/4有需求。
這是阿里云有史以來(lái)的最大投入力度之一。我們希望有需要的開發(fā)者、學(xué)生、研究機(jī)構(gòu)、創(chuàng)業(yè)公司和ISV(獨(dú)立軟件開發(fā)商)都能有效把模型集成到自己的環(huán)境里,一起推動(dòng)AI產(chǎn)業(yè)發(fā)展。
《晚點(diǎn)》:阿里云做大模型和AI基礎(chǔ)設(shè)施的想法是怎么形成的?你們2022年第一次對(duì)外提MaaS,同時(shí)整合了過(guò)去的模型并開始建設(shè)模型社區(qū),為什么在當(dāng)時(shí)有這些動(dòng)作?
周靖人:我們最開始在2022年提MaaS時(shí),包括做魔搭,大家可能沒那么關(guān)注和理解,覺得這只是一個(gè)another term。今年我們看到越來(lái)越多友商也在跟進(jìn)。
其實(shí)到今天,全社會(huì)更多關(guān)注的還是大模型發(fā)布,大家不太注意的一點(diǎn)是:這背后是整個(gè)云系統(tǒng)的升級(jí),是技術(shù)體系的競(jìng)爭(zhēng)。
我們最開始做大模型時(shí)想用更多機(jī)器,把幾百臺(tái)服務(wù)器連起來(lái)。想法很好,系統(tǒng)做不了,你會(huì)發(fā)現(xiàn)各種問(wèn)題:分布式編譯、系統(tǒng)穩(wěn)定性、網(wǎng)絡(luò)擁塞等等。
幸運(yùn)的是,這個(gè)過(guò)程中,云技術(shù)團(tuán)隊(duì)和模型團(tuán)隊(duì)一直緊密配合,遇到問(wèn)題時(shí)云團(tuán)隊(duì)就去優(yōu)化,優(yōu)化一點(diǎn),大模型就發(fā)展一點(diǎn),模型發(fā)展到一定程度又遇到挑戰(zhàn),又需要云去升級(jí),是交替往前走的過(guò)程。
所以在這次AI變革中,AI和云是不可分割的整體。模型是對(duì)數(shù)據(jù),甚至對(duì)算力的進(jìn)一步抽象,它要求對(duì)算力體系做一系列重構(gòu)和創(chuàng)新。這點(diǎn)全球都一樣,OpenAI融了這么多資,它還是要與微軟Azure密合作,這是因?yàn)锳I進(jìn)化離不開云的支撐,它們是一個(gè)問(wèn)題的上下部分。
阿里云過(guò)去積累了這么多年云計(jì)算技術(shù),現(xiàn)在是well positioned(處在好的位置),剛好能做好AI基礎(chǔ)設(shè)施,支持上面更大、更繁榮的生態(tài)。
《晚點(diǎn)》:為什么這個(gè)基礎(chǔ)設(shè)施是由云廠商提供?企業(yè)也可以買很多GPU和服務(wù)器,自己搞一個(gè)數(shù)據(jù)中心。
周靖人:很多人有一個(gè)誤解,覺得只要有很多GPU,就可以堆起來(lái)訓(xùn)練大模型,實(shí)際上這樣做不成任務(wù)。你需要把成千上萬(wàn)個(gè)GPU連起來(lái),像一臺(tái)超級(jí)計(jì)算機(jī)那樣工作,這是個(gè)非常復(fù)雜的分布式系統(tǒng)。
這涉及芯片的選擇和適配、服務(wù)器設(shè)計(jì)、數(shù)據(jù)中心的分布式框架設(shè)計(jì),還有網(wǎng)絡(luò)設(shè)計(jì):一個(gè)高效網(wǎng)絡(luò)有規(guī)模限制,有hierarchical(按等級(jí)劃分的)的網(wǎng)絡(luò)架構(gòu),還要解決擁塞和穩(wěn)定問(wèn)題。網(wǎng)絡(luò)之后還有存儲(chǔ),因?yàn)橛?xùn)練模型要清洗大量數(shù)據(jù),過(guò)程中還要讀取大量數(shù)據(jù)。
同時(shí),當(dāng)我們有了這么大規(guī)模的分布式系統(tǒng),計(jì)算節(jié)點(diǎn)出故障是必然的,就要有容錯(cuò)功能。過(guò)去我們也跑壞了不少GPU,發(fā)現(xiàn)了一些bug,比如它的溫度控制比較難?,F(xiàn)在訓(xùn)練大模型短則幾周,長(zhǎng)則幾個(gè)月,不能因?yàn)槟硞€(gè)機(jī)器出問(wèn)題,所有工作都重跑。
我們現(xiàn)在可以做到,即使某些計(jì)算模塊出故障,仍然能實(shí)時(shí)調(diào)整,支持模型繼續(xù)訓(xùn)練,我們也有一套在不同時(shí)間點(diǎn)做checkpoint的機(jī)制,這讓我們的系統(tǒng)能支持10萬(wàn)卡級(jí)的GPU一起做訓(xùn)練。
這些能力都是需要長(zhǎng)時(shí)間積累的、有挑戰(zhàn)的技術(shù)。我們從服務(wù)器設(shè)計(jì)到網(wǎng)絡(luò)設(shè)計(jì)都是自研的,甚至很多網(wǎng)絡(luò)協(xié)議都是自己開發(fā)的。最后能提供這個(gè)復(fù)雜分布式系統(tǒng)服務(wù)的人會(huì)非常少。
《晚點(diǎn)》:有一種觀點(diǎn)認(rèn)為,未來(lái)只會(huì)剩下少數(shù)幾個(gè)通用大模型。如果模型集中度足夠高,開發(fā)模型的公司自己建立這套計(jì)算能力長(zhǎng)期看可能更經(jīng)濟(jì)。
周靖人:不管未來(lái)通用大模型的格局是否集中,明確的趨勢(shì)是,推理(即使用大模型時(shí)的計(jì)算過(guò)程)對(duì)計(jì)算的需求會(huì)越來(lái)越大,遠(yuǎn)大于訓(xùn)練。
推理比訓(xùn)練更離不開云。一是推理需求遍布全國(guó)甚至全球各地,因?yàn)槟愕挠脩艨赡苡械脑诤贾?、有的在北京。這需要低延時(shí),需要就近的數(shù)據(jù)中心支持。只有大型云廠商才能提供遍布各地的算力服務(wù)。二是推理有用量波動(dòng),有些應(yīng)用是早上用戶多,有些是晚上。也只有云廠商才能處理這種波峰波谷的彈性需求。所以考慮到推理場(chǎng)景,AI的發(fā)展就更和云密不可分了。
《晚點(diǎn)》:這些能力能被多快學(xué)習(xí)?在模型和算法層,很多開源項(xiàng)目和論文分享促進(jìn)了技術(shù)擴(kuò)散。
周靖人:每個(gè)云廠商做系統(tǒng)優(yōu)化時(shí)都有一些獨(dú)門絕技,這是每個(gè)公司的看家本領(lǐng),是體現(xiàn)細(xì)致功底和見真章的地方,不經(jīng)過(guò)長(zhǎng)年累月的實(shí)踐掌握不了。
比如網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)就有很多課題:怎么用交換機(jī)?每一個(gè)交換機(jī)服務(wù)多少臺(tái)服務(wù)器?每臺(tái)服務(wù)器多少網(wǎng)卡?中間怎么連接?怎么解決數(shù)據(jù)延遲的損失?接下來(lái)還有怎么做執(zhí)行:什么時(shí)候做模型并行?什么時(shí)候做數(shù)據(jù)并行?怎么讓不同任務(wù)被分配、調(diào)度在不同模塊上做聯(lián)合訓(xùn)練?
要充分發(fā)揮GPU的能力,就是靠這些硬核的計(jì)算技術(shù)和經(jīng)驗(yàn)。從去年提出MaaS后,我們就一直在圍繞模型的整個(gè)生命周期重新設(shè)計(jì)云的技術(shù)體系,從最開始的數(shù)據(jù)收集、清洗,到模型的訓(xùn)練、驗(yàn)證、微調(diào),最后到模型服務(wù),涉及方方面面。這也是為什么現(xiàn)在客戶在阿里云上訓(xùn)練大模型的整體效率會(huì)更高。
《晚點(diǎn)》:總結(jié)而言,阿里云要怎么做以適應(yīng)AI新環(huán)境?你們這一年來(lái)發(fā)布了很多新產(chǎn)品和服務(wù),為什么是這樣的產(chǎn)品結(jié)構(gòu)?
周靖人:我們認(rèn)為MaaS的核心理念是,模型會(huì)成為人工智能時(shí)代一個(gè)重要的生產(chǎn)元素,整個(gè)計(jì)算體系會(huì)圍繞模型重新升級(jí)。
阿里云要做的事有四層:
一是用AI升級(jí)既有云計(jì)算技術(shù),把云更自動(dòng)化地管理起來(lái)。過(guò)去云計(jì)算中的很多部署、運(yùn)維、故障處理要靠人的經(jīng)驗(yàn),靠工程師輪班24小時(shí)盯著,現(xiàn)在要逐步換成AI,比如引擎參數(shù)的調(diào)整、內(nèi)存管理、網(wǎng)絡(luò)擁塞的解決,這些決策和流程都可以引入AI,實(shí)現(xiàn)autonomous cloud(自動(dòng)的云)。
云里也要寫很多腳本,我們這次發(fā)布的通義靈碼就能幫云計(jì)算工程師寫代碼,提高開發(fā)效率。另外大語(yǔ)言模型也能幫云的運(yùn)維人員更高效地查找文檔、維護(hù)工單和響應(yīng)客服。相當(dāng)于用AI和大模型把云本身的開發(fā)和運(yùn)維都優(yōu)化一遍。
第二是,我們從IaaS層到PaaS層的每一個(gè)計(jì)算產(chǎn)品都會(huì)為AI升級(jí)。比如我們面對(duì)AI推出了彈性計(jì)算實(shí)例(“實(shí)例”是云計(jì)算中的管理單元,相當(dāng)于一臺(tái)虛擬機(jī)),開發(fā)了專門的存儲(chǔ)產(chǎn)品;在網(wǎng)絡(luò)上也做了大升級(jí),實(shí)現(xiàn)了AI需要的低延時(shí)、高帶寬網(wǎng)絡(luò)。
第三層是做AI基礎(chǔ)設(shè)施。阿里云有一個(gè)重要理念:數(shù)據(jù)中心就是一臺(tái)計(jì)算機(jī)。這是指通過(guò)高效連結(jié)計(jì)算資源,讓開發(fā)者感覺這就是一臺(tái)機(jī)器,不用分心考慮底層問(wèn)題,專注做應(yīng)用開發(fā)。
這個(gè)理念在AI場(chǎng)景里更加重要,因?yàn)锳I背后不單是CPU,而是有各種芯片的異構(gòu)架構(gòu),有的算力強(qiáng),有的還要提升,我們是通過(guò)云的能力和高效網(wǎng)絡(luò)把這么大規(guī)模的不同計(jì)算單元連接起來(lái),形成一個(gè)強(qiáng)大的計(jì)算引擎。
最后一層就是我們自己的系列模型。當(dāng)然再說(shuō)一次,我們做模型最重要的目標(biāo)不是做終端應(yīng)用,是要服務(wù)好開發(fā)者。
《晚點(diǎn)》:今年8月,阿里云組織了“西溪論道”,匯集了國(guó)內(nèi)多個(gè)大模型公司和應(yīng)用公司,包括智譜、百川、瀾舟和妙鴨等等,他們提了什么需求和反饋?
周靖人:他們關(guān)心剛才我們講的——AI基礎(chǔ)設(shè)施能怎么幫他們更好地做模型和應(yīng)用創(chuàng)新。當(dāng)然,他們也在意價(jià)格。我們也會(huì)努力提供更好的性價(jià)比,很多時(shí)候性價(jià)比能反映技術(shù)實(shí)力。
《晚點(diǎn)》:阿里云的AI計(jì)算成本現(xiàn)在下降到什么程度了?
周靖人:降低整體成本和降低門檻相輔相成,一個(gè)是便宜,一個(gè)是容易,要一起說(shuō)。
在降低門檻上,今年我們PaaS層幾乎所有產(chǎn)品都提供了serverless(一種能按需彈性伸縮、按需付費(fèi)的軟件系統(tǒng)架構(gòu))方案,在AI算力上我們也推出了PAI靈駿智算serverless化服務(wù),是國(guó)內(nèi)第一個(gè)做到的廠商。
過(guò)去大家要選固定的硬件,自己做一些維護(hù),而serverless方案能提供開箱即用的體驗(yàn),開發(fā)者不需要關(guān)心背后的硬件資源。
今年還我們推出了阿里云容器服務(wù)ACS。之前我們更多不是容器,是虛擬機(jī),它還是涉及要用什么CPU,什么內(nèi)存等一些中間管理。
ACS現(xiàn)在支持所有主流語(yǔ)言,能讓大家方便地編排業(yè)務(wù)體系,支持快速擴(kuò)容和縮容,讓客戶能真正按需彈性使用資源。我們也提供了能一鍵式自動(dòng)編排容器的工具(“ServerlessDevs”)并推出了流程式開發(fā)服務(wù)(云工作流“CloudFlow”)。這都能大幅降低客戶開發(fā)人員的復(fù)雜性。
價(jià)格方面,serverless本身有很大價(jià)格優(yōu)勢(shì),因?yàn)樗前葱枋褂玫?,客戶不需要提前?gòu)買資源做準(zhǔn)備。我們也在不斷推新產(chǎn)品,包括大數(shù)據(jù)、數(shù)據(jù)庫(kù)都會(huì)推一些標(biāo)準(zhǔn)實(shí)例。其實(shí)從4月11日開始說(shuō)降價(jià)后,我們一直在降價(jià),調(diào)價(jià)頻率呈上升趨勢(shì),不是一定要到大節(jié)點(diǎn)再說(shuō)降價(jià)。
《晚點(diǎn)》:你認(rèn)為做好AI基礎(chǔ)設(shè)施會(huì)給阿里云帶來(lái)哪些改變?比如公共云的業(yè)務(wù)占比會(huì)上升嗎?或者對(duì)你們做政企業(yè)務(wù)有什么幫助嗎?
周靖人:這次AI變革確實(shí)與公共云形態(tài)是有機(jī)融合的。首先模型訓(xùn)練需要大量算力,如果都分散建設(shè)會(huì)有浪費(fèi),公有云的彈性使用特點(diǎn)更能避免算力閑置。而且自己建數(shù)據(jù)中心,往往會(huì)遇到機(jī)房容量和供電等各種限制。
推理就更適合公有云。當(dāng)進(jìn)入大規(guī)模應(yīng)用后,你需要使用全國(guó)乃至全球的算力,用量一天之內(nèi)可能就有波峰波谷的變化,你也很難預(yù)估業(yè)務(wù)未來(lái)的增長(zhǎng),如果自建數(shù)據(jù)中心,高估或低估了業(yè)務(wù)需求都是問(wèn)題,要么是買機(jī)器的速度趕不上發(fā)展,要么買太多都浪費(fèi)了。大家必然會(huì)更依賴公有云。
至于具體行業(yè)的需求,我還沒看到哪一個(gè)行業(yè)不會(huì)受這次AI變革的影響。政企領(lǐng)域也一樣,我們已經(jīng)看到了非常旺盛的需求。
《晚點(diǎn)》:這次AI變革的商業(yè)落地過(guò)程會(huì)像過(guò)去那樣,被過(guò)高期待后又經(jīng)歷低谷嗎?
周靖人:現(xiàn)在才剛開始,我們還沒看到波峰。這次AI技術(shù)的變化不是解決了某個(gè)特定問(wèn)題,而是通用AI的進(jìn)步。
《晚點(diǎn)》:投資機(jī)構(gòu)a16z曾估算,云計(jì)算公司最后會(huì)獲得生成式人工智能行業(yè)10%-20%的收入,你怎么看云在AI時(shí)代的未來(lái)空間?
周靖人:很難預(yù)估,但我并不覺得這是無(wú)理之談。我們拭目以待。
《晚點(diǎn)》:阿里云涉及復(fù)雜的技術(shù)體系,作為CTO,你一定要想明白的事情是什么?
周靖人:對(duì)技術(shù)趨勢(shì)的思考,和做好對(duì)應(yīng)趨勢(shì)的整體設(shè)計(jì)。首先確保阿里云處于領(lǐng)先位置,同時(shí)追求引領(lǐng)一些技術(shù)發(fā)展。
《晚點(diǎn)》:大模型之后,還有哪些新技術(shù)會(huì)對(duì)云計(jì)算產(chǎn)生很大影響?
周靖人:AI本身還有很多工作,包括模型本身的進(jìn)化,未來(lái)的多模態(tài),如何能把模型應(yīng)用起來(lái)。同時(shí)我們要關(guān)注云計(jì)算怎么支持行業(yè),云計(jì)算本身怎么做轉(zhuǎn)型以適應(yīng)這次巨變。
過(guò)去十幾年,無(wú)論是ImageNet還是AlphaGo都沒辦法與這次相比,這也許是一生中少有的計(jì)算技術(shù)革命。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn