国产精品视频一区牛牛视频,性欧美精品,日韩福利视频一区,国产精品美女久久久久网,涩涩国产精品福利在线观看,国产91av视频在线观看,国产操视频

再奪全球頂級(jí)競(jìng)賽CVPR NTIRE冠軍,打造更好用戶體驗(yàn),淘寶擁有哪些內(nèi)容技術(shù)?

電商報(bào)
2023-07-10 15:02

不知不覺間,內(nèi)容電商似乎已經(jīng)成為人們生活中不可或缺的存在:在閑暇時(shí)間,我們已經(jīng)習(xí)慣于拿出手機(jī),從電商平臺(tái)的直播間隨手下單自己心儀的商品。

盡管優(yōu)質(zhì)的貨品、實(shí)惠的價(jià)格、精致的場(chǎng)景布置、有趣的內(nèi)容輸出都是非常關(guān)鍵的影響因素,這些也必須基于兩個(gè)前提:畫質(zhì)要高清、播放要流暢。曾經(jīng),有不少商家和主播因?yàn)橹辈ラg畫質(zhì)較差的問題而苦惱,不了解如何實(shí)現(xiàn)高畫質(zhì)開播。

在一系列前沿音視頻技術(shù)的加持下,淘寶內(nèi)容技術(shù)團(tuán)隊(duì)解決了這個(gè)問題。

下圖是一個(gè)直播間畫質(zhì)體驗(yàn)極致打磨案例,主播通過團(tuán)隊(duì)自研的一系列音視頻技術(shù),包括視頻編碼、視頻增強(qiáng)處理、視頻質(zhì)量評(píng)價(jià)等,實(shí)現(xiàn)了超低碼率的 1080p 高清直播:

format-jpg

左:720p 直播;右:超低碼率 1080p 直播。

同樣還有短視頻畫質(zhì)體驗(yàn)極致打磨案例,通過團(tuán)隊(duì)自研的上述音視頻技術(shù),實(shí)現(xiàn)了視頻清晰度和紋理細(xì)節(jié)的大幅提升:

 format-jpgformat-jpg

左:增強(qiáng)前;右:增強(qiáng)后。

不難發(fā)現(xiàn),在上述案例中,改造后的畫面質(zhì)感變得更好,從「標(biāo)清」飛躍到了「超清」,人像膚色也變得更自然,連商品色彩都更加準(zhǔn)確了。這種肉眼可識(shí)別的提升,都來自團(tuán)隊(duì)提供的音視頻技術(shù)能力加持。

上述提到的一系列自研音視頻技術(shù),包括視頻編碼器(淘寶自研的 S265)、視頻增強(qiáng)方案(STaoVideo)、無參考視頻質(zhì)量評(píng)價(jià)模型(MD-VQA)以及媒體處理系統(tǒng)(TMPS),并通過接入低延時(shí)傳輸網(wǎng)絡(luò) GRTN,為淘寶的直播和短視頻提供底層核心技術(shù),打造業(yè)界領(lǐng)先的音視頻體驗(yàn),尤其是視頻畫質(zhì)和流暢度。

近年來,圖像和視頻處理的一系列技術(shù)也經(jīng)歷了巨大的變革,包括超分處理、噪聲去除等等。這些技術(shù)都是為了實(shí)現(xiàn)更好的畫質(zhì)服務(wù),同時(shí)也希望盡量降低內(nèi)容生產(chǎn)、處理和分發(fā)過程的總體成本。

但從技術(shù)層面上說,如何分析、定位視頻內(nèi)容存在的問題并找到有針對(duì)性的改造方法,仍然是一個(gè)復(fù)雜的過程。而所有的視頻內(nèi)容處理方法,都基于一個(gè)非常重要的前置環(huán)節(jié):視頻質(zhì)量評(píng)價(jià)。

一場(chǎng)聚焦「視頻質(zhì)量評(píng)價(jià)」的頂級(jí)比拼

在視頻內(nèi)容行業(yè)規(guī)模不斷增長(zhǎng)的背景下,全球范圍內(nèi)的眾多機(jī)構(gòu)開始圍繞視頻處理的一系列前沿命題開展競(jìng)賽,希望以領(lǐng)先技術(shù)推動(dòng)行業(yè)進(jìn)步。近年來,「視頻質(zhì)量評(píng)價(jià)」這一命題受到的關(guān)注度也不斷攀升。

CVPR NTIRE(New Trends in Image Restoration and Enhancement)是計(jì)算機(jī)視覺和視頻領(lǐng)域最具影響力的全球性賽事,今年的賽事由蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)視覺實(shí)驗(yàn)室主辦。往年賽事覆蓋許多圖像和視頻處理的經(jīng)典任務(wù),比如圖片和視頻超分、圖片抖動(dòng)去除、噪聲去除等,吸引了全球眾多技術(shù)團(tuán)隊(duì)的踴躍參與。

format-jpg

今年的 CVPR NTIRE 比賽增設(shè)了一個(gè)全新的方向:視頻質(zhì)量評(píng)價(jià),且只設(shè)置了單個(gè)賽道,即「無參考視頻質(zhì)量評(píng)價(jià)」。

主辦方構(gòu)建了包含 1,211 個(gè)真實(shí)應(yīng)用場(chǎng)景的視頻的數(shù)據(jù)集,對(duì)其進(jìn)行包括色彩、亮度、和對(duì)比度增強(qiáng)、去抖動(dòng)、去模糊等增強(qiáng)處理,并對(duì)處理后的視頻進(jìn)行打分作為 GT(ground truth,真實(shí)的有效值)。參賽團(tuán)隊(duì)通過各自技術(shù)方案對(duì)上述視頻打分,與 GT 越接近名次越高。

本場(chǎng)比賽云集了國(guó)內(nèi)外頂級(jí)的幾十只參賽隊(duì)伍,包括字節(jié)、快手、網(wǎng)易、小米、Shopee 在內(nèi)的知名科技企業(yè),以及北京航空航天大學(xué)、新加坡南洋理工大學(xué)等高校。來自淘寶音視頻技術(shù)團(tuán)隊(duì)的同學(xué)組成「TB-VQA」隊(duì)伍,經(jīng)過激烈的角逐,從 37 支隊(duì)伍中脫穎而出。團(tuán)隊(duì)所提交的質(zhì)量評(píng)價(jià)方法 TB-VQA 在主得分(Main Score)、SRCC(Spearman Rank Order Correlation Coefficient)及 PLCC(Pearson Linear Correlation Coefficient,SRCC 和 PLCC 越高表明與 GT 越接近)三項(xiàng)指標(biāo)均位居第一。

 format-jpg

CVPR NTIRE 2023 視頻質(zhì)量評(píng)價(jià)比賽排行榜。

此次冠軍是團(tuán)隊(duì)繼 MSU 2020 和 2021 世界編碼器比賽、CVPR NTIRE 2022 視頻超分與增強(qiáng)比賽奪魁后,再次在音視頻核心技術(shù)的權(quán)威比賽中折桂。

眾所周知,從參考視頻可用性的維度出發(fā),視頻質(zhì)量評(píng)價(jià)一般可以分成三類:全參考視頻質(zhì)量評(píng)價(jià)、部分參考視頻質(zhì)量評(píng)價(jià)、和無參考視頻質(zhì)量評(píng)價(jià)。為什么本場(chǎng)比賽要將「無參考視頻質(zhì)量評(píng)價(jià)」設(shè)置為唯一的賽道?想必這一點(diǎn)令許多人感到好奇。

這與近年來互聯(lián)網(wǎng)內(nèi)容視頻化的趨勢(shì)密不可分,從生活、娛樂到學(xué)習(xí),視頻都已經(jīng)成為了很多人獲取信息的第一介質(zhì)。相比于文字,視頻的理解門檻更低,人腦對(duì)于視覺信息的處理速度也比文字更快。其中,UGC 視頻內(nèi)容幾乎占據(jù)了整個(gè)互聯(lián)網(wǎng)視頻流量中的 70% 到 80%。人們既消費(fèi)這些 UGC 視頻內(nèi)容,也在創(chuàng)造著自己的「作品」。任何人都可以使用一臺(tái)手機(jī)拍攝、上傳短視頻,也可以開通自己的直播賬號(hào),分享自己的生活。

但 UGC 視頻的質(zhì)量往往是參差不齊的。首先是因?yàn)槠滟|(zhì)量受制于拍攝設(shè)備、拍攝環(huán)境、拍攝技巧等因素,即使視頻內(nèi)容的制作方極具經(jīng)驗(yàn)且原始視頻質(zhì)量非常高,一旦經(jīng)過平臺(tái)的各種處理、分發(fā)環(huán)節(jié)或是其他用戶的二創(chuàng),消費(fèi)者在另一端看到的視頻效果都有可能打折扣。 

在缺乏理想的視頻參考源的質(zhì)量評(píng)價(jià)場(chǎng)景逐漸成為主流的趨勢(shì)下,無參考視頻質(zhì)量評(píng)價(jià)作為質(zhì)量評(píng)價(jià)的主要的技術(shù)手段,在過去的幾年里越來越受到廣泛關(guān)注。這也是 CVPR NTIRE 設(shè)置「無參考視頻質(zhì)量評(píng)價(jià)」賽道的出發(fā)點(diǎn)之一。

那么,為什么淘寶內(nèi)容技術(shù)團(tuán)隊(duì)能夠一舉拿下這場(chǎng)比賽的冠軍?接下來,讓我們深入了解一番冠軍方案。

奪冠背后的 VQA 技術(shù)

目前,無參考視頻質(zhì)量評(píng)價(jià)的主流方法包括:基于圖像識(shí)別或者圖像質(zhì)量評(píng)價(jià)任務(wù)的預(yù)訓(xùn)練模型來提取視頻的幀級(jí)特征、考慮時(shí)序上的相關(guān)性回歸特征或者進(jìn)一步結(jié)合時(shí)域特征、以及針對(duì)視頻失真進(jìn)行端到端的特征表征學(xué)習(xí)等。

在本次比賽中,TB-VQA 團(tuán)隊(duì)提出的方法基于端到端的特征表征學(xué)習(xí),并且考慮到近年來 Swin Transformer 在 CV 領(lǐng)域取得巨大成功,使用 Swin Transformer V2 替換較為傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)骨干網(wǎng)絡(luò) ResNet 提取空域特征。同時(shí),為了更好地融合時(shí)空域特征,在時(shí)空特征融合模塊中,TB-VQA 團(tuán)隊(duì)引入了一個(gè) 1×1 卷積層,它加深了從預(yù)訓(xùn)練網(wǎng)絡(luò)的中間階段提取的空間特征,以彌補(bǔ)淺層和深層特征之間的差距。此外,為了解決常見的質(zhì)量評(píng)價(jià)數(shù)據(jù)集規(guī)模過小、大模型容易過擬合的問題,TB-VQA 團(tuán)隊(duì)同時(shí)在空域和時(shí)域兩個(gè)維度進(jìn)行數(shù)據(jù)增強(qiáng),提高模型性能。

模型設(shè)計(jì)

如圖 1 所示,TB-VQA 團(tuán)隊(duì)所提出的無參考視頻質(zhì)量評(píng)價(jià)模型的框架,包括空域特征提取模塊、時(shí)域特征提取模塊和時(shí)空特征融合回歸模塊。其中,空域特征模塊提取空間失真相關(guān)特征,時(shí)域特征提取模塊提取運(yùn)動(dòng)相關(guān)信息,此外,考慮到運(yùn)動(dòng)信息對(duì)失真感知的影響,團(tuán)隊(duì)進(jìn)一步融合時(shí)空域特征,然后通過特征回歸映射到最終的質(zhì)量分?jǐn)?shù)。

format-jpg

TB-VQA 模型的網(wǎng)絡(luò)架構(gòu)示例。

 

具體而言,這一框架的設(shè)計(jì)基于以下思考:

語(yǔ)義特征作為重要的空域特征經(jīng)常用于質(zhì)量評(píng)價(jià),其描述圖像中物體的物理特性、物體之間的時(shí)空關(guān)系、以及物體的內(nèi)容信息等,屬于圖像的高維特征。對(duì)于不同的圖像內(nèi)容,語(yǔ)義特征會(huì)影響人眼的視覺感知:人眼通常無法容忍紋理豐富的內(nèi)容(例如草坪、地毯)的模糊,而對(duì)紋理簡(jiǎn)單的內(nèi)容(例如天空、墻面)的模糊相對(duì)不敏感。綜上考慮,該架構(gòu)利用從預(yù)訓(xùn)練的 Swin Transformer V2 網(wǎng)絡(luò)倒數(shù)第二層 Transformer 模塊輸出的特征作為幀級(jí)的空間域特征。

手機(jī)拍攝時(shí)的抖動(dòng)會(huì)導(dǎo)致視頻發(fā)生時(shí)域失真,并且,其無法被視頻空域特征有效地描述。因此,為了提高模型的準(zhǔn)確度,該架構(gòu)利用預(yù)訓(xùn)練的 SlowFast 網(wǎng)絡(luò)獲取視頻片段級(jí)的運(yùn)動(dòng)特征,作為時(shí)域特征表征。

由于不同層空域特征之間存在較大的差異,對(duì)其進(jìn)行直接拼接不利于時(shí)空特征融合,因此該架構(gòu)先對(duì)倒數(shù)第二層輸出特征進(jìn)行卷積處理,然后再與最后一層輸出的空間特征融合以及空域特征進(jìn)行融合,并通過兩層全連接層回歸得到視頻片段級(jí)質(zhì)量分?jǐn)?shù),如圖 2 所示。

format-jpg時(shí)空域特征融合與回歸。 

數(shù)據(jù)增強(qiáng)

由于本次比賽官方提供的訓(xùn)練數(shù)據(jù)集共包括 839 個(gè)視頻,不足以訓(xùn)練基于 Transformer 的模型。因此,TB-VQA 團(tuán)隊(duì)從數(shù)據(jù)集增強(qiáng)策略和大型數(shù)據(jù)集預(yù)訓(xùn)練兩個(gè)方面入手,進(jìn)一步提高模型的性能。

視頻質(zhì)量評(píng)價(jià)方法常采用在圖像中隨機(jī) crop 固定大小 patch 的方式進(jìn)行空間數(shù)據(jù)增強(qiáng)。作為對(duì)比,TB-VQA 團(tuán)隊(duì)同時(shí)考慮考慮空間和時(shí)間數(shù)據(jù)增強(qiáng),如圖 3 所示。

 format-jpg


時(shí)空域數(shù)據(jù)增強(qiáng)示例。 

其中,整個(gè)視頻會(huì)被分成 T 個(gè)視頻片段(每秒一個(gè)片段)。提取空域特征時(shí),每個(gè)視頻片段隨機(jī)抽取 1 幀。同時(shí),為保留幀間的時(shí)間關(guān)聯(lián)性,抽樣幀之間的時(shí)間間隔保持不變。

此外,考慮到 LSVQ 視頻質(zhì)量評(píng)價(jià)數(shù)據(jù)集有 38,811 個(gè)視頻樣本,是目前最大的開源質(zhì)量評(píng)價(jià)數(shù)據(jù)集。因此,TB-VQA 團(tuán)隊(duì)先在 LSVQ 數(shù)據(jù)集上對(duì)模型進(jìn)行預(yù)訓(xùn)練,之后基于特定的任務(wù)以相對(duì)小型的數(shù)據(jù)集微調(diào)模型。

「特別重要的是,不管是面向比賽的數(shù)據(jù)集,還是面向日常業(yè)務(wù)的海量?jī)?nèi)容,視頻質(zhì)量評(píng)價(jià)的模型都需要強(qiáng)大的泛化能力,以識(shí)別不同的視頻質(zhì)量以及各種各樣的視頻場(chǎng)景?!固詫氁粢曨l技術(shù)的參賽同學(xué)總結(jié)本次參賽的經(jīng)驗(yàn)時(shí)表示。

值得注意的是,這次比賽的冠軍方案 —— 視頻語(yǔ)義、失真、運(yùn)動(dòng)多維信息融合方案,是 TB-VQA 團(tuán)隊(duì)同學(xué)在日常業(yè)務(wù)研發(fā)中探索出的新方法?;谌粘I(yè)務(wù)的經(jīng)驗(yàn)積累,盡管本場(chǎng)比賽從賽題發(fā)布到最后提交結(jié)果大概只有一個(gè)月的時(shí)間,TB-VQA 團(tuán)隊(duì)還是交出了一份滿意的答卷。

此前,團(tuán)隊(duì)自研了無參考視頻質(zhì)量評(píng)價(jià)模型 —— MD-VQA(Multi-Dimensional Video Quality Assessment),綜合視頻的語(yǔ)義、失真、運(yùn)動(dòng)等多維度信息衡量視頻絕對(duì)質(zhì)量的高低。目前,MD-VQA 已經(jīng)全面應(yīng)用于包括淘寶直播、淘寶信息流、淘寶逛逛等淘寶內(nèi)容業(yè)務(wù),「量化」并監(jiān)控視頻業(yè)務(wù)的大盤畫質(zhì)變化,快速、精準(zhǔn)地篩選出不同畫質(zhì)水位的直播間和短視頻,幫助提升平臺(tái)內(nèi)容畫質(zhì)。

以淘寶直播為例,MD-VQA 可提供分鐘級(jí)的在線質(zhì)量監(jiān)控能力,能夠快速、精準(zhǔn)地篩選不同畫質(zhì)水位的直播間,協(xié)助線上低畫質(zhì) bad case 的挖掘分析,實(shí)時(shí)提醒主播畫質(zhì)問題方面的瓶頸問題。

淘寶音視頻技術(shù)團(tuán)隊(duì)負(fù)責(zé)人總結(jié)道:「無論是短視頻還是直播,都存在一個(gè)問題 —— 源頭的畫質(zhì)并不一定是最好的,比如用戶可能使用一款低端手機(jī)設(shè)備去拍攝、開播。面向這種應(yīng)用場(chǎng)景,我們希望為淘寶甚至業(yè)界提供的無參考視頻質(zhì)量評(píng)價(jià)方案,能夠發(fā)揮類似 VMAF 在有參考質(zhì)量評(píng)價(jià)方法的影響力?!?/p>

從質(zhì)量評(píng)價(jià)到編碼、增強(qiáng)處理,淘系音視頻技術(shù)的演進(jìn)之路

 視頻質(zhì)量評(píng)價(jià)之后,視頻編碼、增強(qiáng)處理等環(huán)節(jié)的技術(shù)水平同樣對(duì)用戶的最終視頻體驗(yàn)起到?jīng)Q定作用。

這些也是團(tuán)隊(duì)始終在思考的方向:「在包括視頻內(nèi)容的供給和分發(fā)等環(huán)節(jié)的整個(gè)視頻業(yè)務(wù)生命周期中,視頻處理技術(shù)對(duì)于整體視頻的畫質(zhì)影響最為重要?!苟M(fèi)者對(duì)于視頻畫質(zhì)的需求是越來越高的,比如要兼顧較高的清晰度和播放的流暢度,也要控制從生產(chǎn)到下發(fā)的整體成本。這意味著平臺(tái)的視頻處理技術(shù)演講必須面對(duì)千變?nèi)f化的市場(chǎng)需求和業(yè)務(wù)體量爆炸式增長(zhǎng)所帶來的各種挑戰(zhàn)。 

為此,團(tuán)隊(duì)支持短視頻、直播等內(nèi)容的整體解決方案保持著持續(xù)、高速的迭代。

 淘寶音視頻技術(shù)團(tuán)隊(duì)主要承載著其中的視頻處理技術(shù),尤其是保障視頻高畫質(zhì)和流暢度。通過視頻編碼器 S265、視頻增強(qiáng)方案 STaoVideo、無參考視頻質(zhì)量評(píng)價(jià)模型 MD-VQA、媒體處理系統(tǒng) TMPS 以及低延時(shí)傳輸網(wǎng)絡(luò) GRTN 的接入,打造業(yè)界領(lǐng)先的音視頻體驗(yàn)。通過持續(xù)的技術(shù)打磨和算法創(chuàng)新力求高質(zhì)量、低成本賦能淘寶內(nèi)容業(yè)務(wù),助力淘寶內(nèi)容化戰(zhàn)略,所沉淀的平臺(tái)技術(shù)和產(chǎn)品能力亦可被集團(tuán)其它業(yè)務(wù)復(fù)用。這些多年來沉淀的技術(shù)能力,也曾經(jīng)在多個(gè)音視頻核心技術(shù)的國(guó)際權(quán)威比賽中折桂。 

視頻編碼方面,團(tuán)隊(duì)自研的奇點(diǎn)編碼器 S265 和 S266,在 MSU 視頻編碼器大賽中連續(xù)兩屆取得佳績(jī)。

MSU(莫斯科國(guó)立大學(xué))世界視頻編碼器大賽是視頻編碼領(lǐng)域最權(quán)威的全球性頂級(jí)賽事,迄今已由 MSU 的 Graphics & Media Lab 連續(xù)舉辦了十七屆,其評(píng)測(cè)報(bào)告被業(yè)界廣泛認(rèn)可,吸引了包括 Google、Netflix、Intel、Nvidia、騰訊、字節(jié)、華為等國(guó)內(nèi)外知名科技企業(yè)參與,代表了行業(yè)發(fā)展的風(fēng)向標(biāo)。

S265 和 S266 相比業(yè)界流行的開源編碼器 X265、VVEnC 等,在編碼速度、編碼質(zhì)量和編碼延時(shí)等多方面均有明顯突破,聯(lián)合內(nèi)部團(tuán)隊(duì)參加了 MSU 2020 和 2021 連續(xù)兩屆世界視頻編碼器大賽,取得多個(gè)賽道第一(如表 2 和表 3 所示)。

 

format-jpg

MSU 2020 Main FullHD 1 fps YUV-PSNR 排名。


format-jpg

MSU 2021 Main FullHD 1 fps YUV-PSNR 排名。

具體而言,團(tuán)隊(duì)研發(fā)的 H.265 編碼器 S265 在碼率控制、快速算法、編碼工具實(shí)現(xiàn)、工程加速幾個(gè)方面進(jìn)行了創(chuàng)新,實(shí)現(xiàn)了對(duì) X265 編碼器的超越,在 1fps 速度檔位下 YUV-PSNR 指標(biāo)領(lǐng)先 35%;團(tuán)隊(duì)自研的 H.266 編碼器 S266 在 S265 編碼器的基礎(chǔ)上,進(jìn)一步在符合 VVC 標(biāo)準(zhǔn)(VVC 是近年來頒布的、繼 H.265/HEVC 之后的最新國(guó)際視頻標(biāo)準(zhǔn))的范疇下進(jìn)行優(yōu)化,實(shí)現(xiàn)了對(duì)比 H.265 開源軟件 X265 very slow 檔 50% 的編碼效率提升(同等畫質(zhì)下,碼率減少 50%)。

S265 編碼器經(jīng)過多年的產(chǎn)品化打磨,已全面應(yīng)用于包括淘寶直播、淘寶信息流、淘寶逛逛在內(nèi)的淘寶內(nèi)容業(yè)務(wù),并以較低的帶寬和資源消耗實(shí)現(xiàn)高清畫質(zhì)編碼。經(jīng)過 S265 編碼器壓縮后,普通手機(jī)在 3G 網(wǎng)絡(luò)也可順滑觀看 1080p 高畫質(zhì),最新發(fā)布的手機(jī)亦可支持 4k 30FPS 超高清直播。S266 編碼器也已在規(guī)劃落地中,用戶不久將可在淘寶 APP 中更流暢地觀看高清的 VVC 視頻。

視頻增強(qiáng)處理方面,團(tuán)隊(duì)自研的視頻超分方法 TaoMC2 曾在 CVPR NTIRE 2022 視頻超分與增強(qiáng)比賽的三個(gè)賽道獲得兩冠一亞的成績(jī)(如表 4 所示)。

CVPR NTIRE 視頻超分與增強(qiáng)比賽自 2020 年起已舉辦三屆,在工業(yè)界和學(xué)術(shù)界均產(chǎn)生了重大的影響。CVPR NTIRE 2022 視頻超分與增強(qiáng)比賽吸引了騰訊、字節(jié)、華為等知名科技企業(yè),中科院、北大、港中文、ETH 等科研機(jī)構(gòu)參賽,其中很多參賽者都有多年的參賽經(jīng)驗(yàn),競(jìng)爭(zhēng)激烈。

CVPR NTIRE 2022 視頻超分與增強(qiáng)比賽包含三個(gè)賽道,其中一個(gè)賽道的任務(wù)保持分辨率不變的視頻增強(qiáng),另外兩個(gè)賽道疊加超分問題。

 format-jpg


CVPR NTIRE 2022 視頻超分與增強(qiáng)比賽排行榜。TaoMC2 在賽道 1 上超第二名 0.01dB、第三名 0.13dB,且在 15 個(gè)測(cè)試集中的 9 個(gè)視頻上表現(xiàn)最佳,說明方法具有較好的泛化性。同時(shí),TaoMC2 在賽道 2 上超出其他隊(duì)伍 0.1dB 以上,在賽道 3 上僅次于第一名 0.01dB。

在實(shí)際業(yè)務(wù)應(yīng)用方面,團(tuán)隊(duì)打造了視頻增強(qiáng)方案 STaoVideo,服務(wù)于淘寶直播和短視頻,分別幫助在直播生產(chǎn)端和短視頻轉(zhuǎn)碼服務(wù)端提升畫質(zhì)。作為媒體處理系統(tǒng) TMPS(Taobao Media Processing System)中最主要模塊之一,STaoVideo 包含差異化的普惠高清和智美高清視頻增強(qiáng)算子,通過傳統(tǒng)算法和深度學(xué)習(xí)結(jié)合,在考慮計(jì)算成本的前提下,給用戶最好的畫質(zhì)體驗(yàn)。在播放端,STaoVideo 的超分增強(qiáng)方案廣泛用于諸如弱網(wǎng)等場(chǎng)景下的低分辨率視頻傳輸、保障低傳輸帶寬下用戶播放的高清畫質(zhì)體驗(yàn)。

全面內(nèi)容化戰(zhàn)略下,淘寶內(nèi)容技術(shù)的探索實(shí)踐

音視頻技術(shù)之外,淘寶也擁有全面的內(nèi)容領(lǐng)域基層技術(shù)布局,包含內(nèi)容理解、內(nèi)容搜索和內(nèi)容推薦等領(lǐng)域,覆蓋計(jì)算機(jī)視覺、自然語(yǔ)言處理、多模態(tài)和 AIGC 等。這些都是淘寶內(nèi)容化戰(zhàn)略的核心技術(shù),團(tuán)隊(duì)長(zhǎng)期在這些方向有深度的打磨,沉淀出一定的技術(shù)領(lǐng)先性。

在淘寶全面內(nèi)容化的戰(zhàn)略背景下,短視頻與直播等富媒體內(nèi)容,在興趣種草、內(nèi)容消費(fèi)、商品展示、視頻買家秀等各個(gè)維度展現(xiàn)出巨大的優(yōu)勢(shì),從而也在淘寶的流量場(chǎng)里扮演著愈發(fā)重要的角色。與商品不同,內(nèi)容存在制作成本高、時(shí)效性強(qiáng)、生命周期短、用戶行為稀疏等特點(diǎn),這給內(nèi)容生產(chǎn)與分發(fā)均帶來了較大的挑戰(zhàn)。

面對(duì)這些挑戰(zhàn),淘寶內(nèi)容技術(shù)團(tuán)隊(duì)在內(nèi)容理解與內(nèi)容分發(fā)上深耕細(xì)作,在解決實(shí)際業(yè)務(wù)難題的同時(shí),也將其中一些創(chuàng)新的工作總結(jié)沉淀,在 CVPR、AAAI 等國(guó)際頂級(jí)學(xué)術(shù)會(huì)議發(fā)表了多篇論文,包括在內(nèi)容理解方面關(guān)于「商品定位」的工作。

團(tuán)隊(duì)設(shè)計(jì)了雙分支跨模態(tài)定位架構(gòu),能夠同時(shí)處理全局視覺以及語(yǔ)音文本兩路信息,并進(jìn)行充分交互來完成商品坐標(biāo)的準(zhǔn)確定位;同時(shí),還首次提出了利用遷移學(xué)習(xí)的無監(jiān)督域自適應(yīng)商品定位。該方案已經(jīng)在直播智能切片、短視頻掛品等業(yè)務(wù)場(chǎng)景中上線使用,也在通用數(shù)據(jù)集與淘寶數(shù)據(jù)集都達(dá)到了業(yè)界最優(yōu)水平,該工作《DATE: Domain Adaptive Product Seeker for E-commerce》發(fā)表在 CVPR 2023。

團(tuán)隊(duì)也針對(duì)開放詞表檢測(cè)問題展開了深入研究,針對(duì)以往方法在知識(shí)提取與遷移過程中的信息損失和低效性問題,提出了基于目標(biāo)感知注意力掩碼的知識(shí)提取模塊(OAKE)和全局 - 區(qū)塊 - 目標(biāo)多層蒸餾金字塔結(jié)構(gòu)(DP),在多個(gè)公開數(shù)據(jù)集上超過了 SOTA(State-Of-The-Art)方案,論文《Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection》發(fā)表在 CVPR 2023。

 format-jpg

DATE 網(wǎng)絡(luò)結(jié)構(gòu)示意圖。

在以上領(lǐng)域之外,內(nèi)容技術(shù)團(tuán)隊(duì)還擁有前端、客戶端、服務(wù)端和數(shù)據(jù)科學(xué)團(tuán)隊(duì),負(fù)責(zé)面向億級(jí)消費(fèi)者提供服務(wù)的淘寶首頁(yè)、淘寶信息流、淘寶逛逛等核心業(yè)務(wù)場(chǎng)域,通過規(guī)?;瘍?nèi)容供給和高效率內(nèi)容運(yùn)營(yíng),提高消費(fèi)的豐富度,輔助消費(fèi)決策;面向千萬級(jí)商家、品牌、機(jī)構(gòu)、達(dá)人,提供內(nèi)容創(chuàng)作工具、內(nèi)容運(yùn)營(yíng)平臺(tái)和內(nèi)容商業(yè)化解決方案,打開流量新增量的更大空間,助力商家觸達(dá)更廣泛的消費(fèi)人群。團(tuán)隊(duì)同時(shí)也支撐阿里巴巴電商板塊各業(yè)務(wù)線的內(nèi)容管理,提供高效、低成本、靈活的業(yè)務(wù)架構(gòu),協(xié)助各業(yè)務(wù)線實(shí)現(xiàn)內(nèi)容創(chuàng)新和運(yùn)營(yíng)的轉(zhuǎn)型升級(jí)。

內(nèi)容化是當(dāng)前淘寶的五大戰(zhàn)役之一。淘寶內(nèi)容業(yè)務(wù)包含多樣化的真實(shí)場(chǎng)景,具備足夠的技術(shù)挑戰(zhàn)。淘寶內(nèi)容化的大環(huán)境為技術(shù)同學(xué)提供了持續(xù)迭代技術(shù)、實(shí)時(shí)賦能業(yè)務(wù)和創(chuàng)造價(jià)值的舞臺(tái)。依托當(dāng)前技術(shù)儲(chǔ)備,適當(dāng)投入高水平的國(guó)際賽事,對(duì)技術(shù)同學(xué)來說是一個(gè)很好的面向業(yè)界前沿學(xué)習(xí)交流和練兵的機(jī)會(huì)。團(tuán)隊(duì)亦可籍此沉淀技術(shù)領(lǐng)先性,不斷打磨技術(shù),在這場(chǎng)內(nèi)容化戰(zhàn)役中更好地為用戶體驗(yàn)保駕護(hù)航。

1、該內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電商報(bào)觀點(diǎn)或立場(chǎng),文章為作者本人上傳,版權(quán)歸原作者所有,未經(jīng)允許不得轉(zhuǎn)載。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn
相關(guān)閱讀
近日,CVPR NTIRE 2023比賽結(jié)果公布,淘寶音視頻技術(shù)團(tuán)隊(duì)(TB-VQA)拿下視頻質(zhì)量評(píng)價(jià)項(xiàng)目冠軍。
4月21日消息,全球頂級(jí)賽事CVPR NTIRE 2023比賽結(jié)果近日公布,淘寶音視頻技術(shù)團(tuán)隊(duì) 獲得視頻質(zhì)量評(píng)價(jià)項(xiàng)目冠軍。據(jù)介紹,淘寶視頻質(zhì)量評(píng)價(jià)技術(shù),綜合了視頻語(yǔ)義、失真、運(yùn)動(dòng)等多維度來衡量視頻絕對(duì)質(zhì)量高低,并能夠快速、精準(zhǔn)地篩選出不同畫質(zhì)水位,幫助提升內(nèi)容質(zhì)量。目前該技術(shù)已全面應(yīng)用于首頁(yè)信息流、直播、逛逛等淘寶內(nèi)容業(yè)務(wù),也支持著釘釘直播、ICBU直播和支付寶直播等畫質(zhì)體驗(yàn)。
CVPR NTIRE是圖像和視頻增強(qiáng)處理領(lǐng)域最具影響力的全球頂級(jí)賽事。
日前,上海交通大學(xué)電子信息與電氣工程學(xué)院與淘寶技術(shù)團(tuán)隊(duì)宣布達(dá)成戰(zhàn)略合作,共建媒體計(jì)算聯(lián)合實(shí)驗(yàn)室。
7月28日消息,日前,上海交通大學(xué)電子信息與電氣工程學(xué)院與淘寶技術(shù)團(tuán)隊(duì)宣布達(dá)成戰(zhàn)略合作,共建媒體計(jì)算聯(lián)合實(shí)驗(yàn)室。雙方將在視頻編碼、視頻處理、沉浸式媒體體驗(yàn)等核心領(lǐng)域展開研究,推動(dòng)碼流信息復(fù)用、智能編碼、視頻超分等關(guān)鍵技術(shù)發(fā)展。此外,未來,該實(shí)驗(yàn)室還將在視頻編碼、增強(qiáng)、畫質(zhì)評(píng)價(jià)方面建立直播和UGC領(lǐng)域的行業(yè)技術(shù)標(biāo)準(zhǔn)。該實(shí)驗(yàn)室將從“體驗(yàn)”角度進(jìn)行媒體計(jì)算研究。
7月19日消息,據(jù)報(bào)道,淘寶Meta技術(shù)團(tuán)隊(duì)撰寫的論文《Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning》被國(guó)際頂會(huì)OSDI 2022收錄,并獲得了主旨演講者David Tennenhouse的專門推薦。據(jù)悉,這是淘寶首篇被該會(huì)議收錄的系統(tǒng)領(lǐng)域論文。論文的主角“瓦力”是業(yè)界首個(gè)端到端、通用型、規(guī)?;a(chǎn)業(yè)應(yīng)用的端云協(xié)同機(jī)器學(xué)習(xí)系統(tǒng)。相較于單純的云計(jì)算,端云協(xié)同具有低延時(shí)、保護(hù)數(shù)據(jù)隱私、節(jié)省云端計(jì)算資源等優(yōu)勢(shì)。
借助AI技術(shù),淘寶正以“一件定制,按需生產(chǎn)”的模式,推動(dòng)整個(gè)行業(yè)的蓬勃發(fā)展。
8月21日消息,淘寶近日邀請(qǐng)部分高校計(jì)算機(jī)大賽獲獎(jiǎng)大學(xué)生團(tuán)隊(duì)參加“淘寶Vision未來技術(shù)開放日”活動(dòng)?,F(xiàn)場(chǎng),針對(duì)“T-star頂尖人才招聘計(jì)劃”中三維重建算法人才方向,開啟招聘綠色通道:三維重建算法方向投遞的簡(jiǎn)歷將在3個(gè)工作日內(nèi)完成處理,活動(dòng)現(xiàn)場(chǎng)同學(xué)可直通面試。此次三維重建算法人才綠通招聘應(yīng)聘成功者,將加入淘寶Vision團(tuán)隊(duì),參與后續(xù)淘寶Vision Pro版的改進(jìn),改善淘寶的消費(fèi)體驗(yàn)。