国产精品视频一区牛牛视频,性欧美精品,日韩福利视频一区,国产精品美女久久久久网,涩涩国产精品福利在线观看,国产91av视频在线观看,国产操视频

搜狗CEO王小川:數(shù)字機器人在不斷提升

劉峰
2021-05-26 17:56

5月26日消息,在日前的2021搜狐科技5G&AI峰會上,搜狗公司CEO王小川發(fā)表了主題演講,分享數(shù)字機器人背后的黑科技。

42_1622022337.png

王小川介紹,第一代還很僵硬,第二代的時候從坐立的形象走向站起來,有肢體語言。三季度的時候發(fā)布了第四代技術,開始有多種語言,從中文走向英文、俄文,應用也是在海淀知識產(chǎn)權法庭使用。

他指出,2019年的時候有了第六代的大規(guī)模肢體語言,到了2020年的時候走向3D,這是更大的突破,從2D到3D使它的肢體和場景有無限的展開。

42_1622022344.png

此外,王小川還在搜狐科技的專訪中表示,下一個階段,包括不斷提升“主播”的流暢度,使得大家能夠得到更高的理解能力,行業(yè)60,我們到85。同時能夠在更多場景應用,手語要需要規(guī)范的,官方有官方的手語以外,還有方言的手語,全球有全球的手語體系?!拔覀兲醿蓚€核心的理念,自然交互、知識計算,知識計算使得最大化的給用戶的滿足能夠提高?!?/p>

42_1622022969.png

以下為王小川演講全文:

搜狗更讓人熟悉的產(chǎn)品是輸入法搜索,背后也有一套AI的理念和產(chǎn)品,這次和搜狐一塊推出柳巖主播形象,背后有更多的內容跟大家分享。

早在2018年,搜狗推出了第一款“數(shù)字人”,這是以新華社的崔浩命名合作了“新小浩”的形象,這也是全球第一款AI合成主播的亮相。引起了國際上面的熱議,尤其是全球的頂尖媒體,包括像華盛頓郵報、Times,從主流到擴展開有500多家媒體報道事件,當時新華社的人物成為了全球AI人物的亮點。

當然,第一代“數(shù)字人”的整個表情和手勢還是非常拘束的。之后我們在道路上一直引領著發(fā)展,現(xiàn)在我們已經(jīng)推出了七代“數(shù)字人”產(chǎn)品,從第一代,之后2019年第一季度推出了表情更加豐富的“數(shù)字人”。

第一代還很僵硬,第二代的時候從坐立的形象走向站起來,有肢體語言。三季度的時候發(fā)布了第四代技術,開始有多種語言,從中文走向英文、俄文,應用也是在海淀知識產(chǎn)權法庭使用。

2019年“數(shù)字人”有完整的能力,一個感知的人的表情和語言能力,另一方面語言的問答能力合并,客服的能力,這個產(chǎn)品在平安進行了使用。2019年的時候有了第六代的大規(guī)模肢體語言,到了2020年的時候走向3D,這是更大的突破,從2D到3D使它的肢體和場景有無限的展開。

在行業(yè)應用中,新聞主播是第一代的原型,之后有了AI營養(yǎng)師,在搜狗產(chǎn)品里面跟用戶交互,能夠使用戶的體驗度有更多的好感。還有AI的法官,下面的客服和證券也是在使用的,包括平安有“數(shù)字人”,我們還有數(shù)字人分身。這是著名的氣象主播楊丹,我們也數(shù)字化了。

為什么會考慮推出“數(shù)字人”?源頭是搜狗基因里涵蓋著搜索,表達了知識獲取、和人對話的能力,輸入法更強調溝通,輸入法和搜索背后的原始核心都是強調的語言。

語言存在兩個能力。首先語言承載了溝通的能力,通過語言人和人進行交流。其次語言承載了認知能力,如果沒有語言人類是沒辦法進行深層次思考的。以語言為核心以交互的技術進行溝通,從文字走向語音、圖像、視覺。在認知層面的知識計算,語言搜索的核心加進去,里面有對話、翻譯的能力,把溝通能力和它的計算思考合在一塊。

我們認為有機會給行業(yè)人士去制造他們的分身,讓他們的知識能力拓展到不止一個肉身去工作,同時讓他一天24小時無休地做更多的服務。在行業(yè)當中今天有另一個走向是偶像,是打造一個虛擬的情感和崇拜能力,解決行業(yè)效率提升的問題。

除了剛才講的以外,搜狗在語音識別合成里面做了非常多年的積累,今天可以秀一下口音里面背后有大量的技術,包括語音音節(jié)的表征遷移技術。比如特朗普口音,下載素材并通過半個小時聲音皮膚技術處理,把他的音色提取出來,他就可以說中文了。

這是原始的工作,他的口音還帶有川普的音色,我們現(xiàn)在也有更多的技術對他的底層皮膚聲音的音節(jié)進行更多的修正,一種情況是修正成普通話。同時也有能力修正為其它的各種方言,可以把口音修成普通話,也可以把普通話做成其它的口音,比如陜西口音的合成,有不同方言的合成,也有韻味帶進來,有非常多的工作可以讓這種口音播報更加自然和有趣。

除了合成里面蘊含的黑科技,搜狗也是行業(yè)當中最早實現(xiàn)唇語識別工作。深度學習可以做到的一項工作就是做到了唇語識別,還可以獨立工作,不需要語音提取,只看嘴型變化就可以到60%的識別。把語音和口型放在一塊,語音非常嘈雜的情況里面幾乎只用視覺也可以達到90%的高度,在電梯以及外部環(huán)境聽不清的地方都可以使用。這不止是處理文字、語音或者簡單圖像的合成,而是在語音圖像的合成里面找到核心的技術。

基于這樣的技術,我們可以看到全面的能力,有圖像識別、人體識別、語音合成,嘴部語言合成,耳朵聽聲音,大腦思考變化,面部的表情和嘴唇言語的合成,打造全方位互動的形象,成為更多的分身。

比如銀行客服人員,她有真實的原型,但是一旦用自數(shù)字合成之后就有孿生的系統(tǒng)。國家在定的法規(guī)在保險行業(yè)是必須要進行面簽,網(wǎng)絡上的面簽希望節(jié)省客服人員的工作量,最后就有這樣的虛擬形象和面簽,對消費者有一個告知和全程數(shù)據(jù)錄像,解決了金融行業(yè)出現(xiàn)的問題。

還有什么工種更有社會意義呢?搜狗跟搜狐完成媒體的升級的同時,我們考慮自己的社會責任。全球大概有4.6億的聽障人士,中國有2700萬人,他們直接看電視和網(wǎng)絡新聞的時候聲音的敏感度不夠。

國際公約要求媒體能夠提供有聽障人士需要的節(jié)目,大家看到新聞能夠提供聽障人士的版本供他們使用,中國08年參與這項公約。在聽障人士的節(jié)目制作上,與歐美發(fā)達國家和港臺地區(qū)相比,我們相對都是落后的狀態(tài),這樣的情況并沒有引起學界高度重視和跟進,整個的研究水平和實驗水平相對偏低。

這樣一個技術背后的原因也是有相當大的挑戰(zhàn),國外在發(fā)達國家有更多的真實人士配置。我們提倡數(shù)字分身的技術是否能夠把更多手語主播的能力合成進來變成分身。這是蠻難的,我們有非常多的技術難點。

第一件事情,手語語言并不是純正的漢語,語法規(guī)則不一樣。普通話貓追老鼠,手語就是貓、老鼠追,還有開車不準喝酒,開車喝酒不準,要進行一層一層語義的翻譯工作。在這種情況下,我們今天看到在新聞電視主播的使用離殘疾人士和聽障人士是有距離的,打手勢的優(yōu)化程度不足理解度只有60%。而翻譯技術上反而幫助我們把正常語序翻譯成聽障人士需要的語序。

第二件事情,當我們在做手語的時候,“數(shù)字人”的表達動作需要非常豐富,尤其是有大的肢體動作和細膩的手勢表達,不簡單是語言語音的問題,肢體本身成為他們獲取信息最重要的場景。隨著我們從期待的“數(shù)字人”技術進步到今天到大的肢體表演和小的肢體里面,有機會完全手語的表現(xiàn)能力。

第三件事情,不僅是手語,我們發(fā)現(xiàn)聽障人士表達的時候他們的表情在傳遞信息,表情參與了整個語義里面。比如他打的手勢——“他究竟什么意思”有不同的表情傳遞不同的意思。比如問句、感嘆句、陳述句。在合成的時候不僅要有一個大范圍手勢和細膩手勢,對于表情的聯(lián)合建模也非常關鍵,極大提高了他們對語義的理解。

在這樣一個大的情況里面把搜狗的語言和語音、圖像相關的很多能力用到了,在前期有文本的預處理之后開始用了手語翻譯,里面借鑒了機器翻譯能力,把手語表征進行合成,形成了自然語言到手語切分的表達,所有的生成一方面是生成手勢能力,一方面是生成面部表情,最后合成得到一個新的“數(shù)字人”。最終就合成了全球首個AI合成手語主播。

我們今天正式做一個“手語AI合成主播”發(fā)布。希望在今年年底之前這樣的產(chǎn)品能正式上線,幫助中國人民和全體人民享受更好的數(shù)字生活。

1、該內容為作者獨立觀點,不代表電商報觀點或立場,文章為作者本人上傳,版權歸原作者所有,未經(jīng)允許不得轉載。
2、電商號平臺僅提供信息存儲服務,如發(fā)現(xiàn)文章、圖片等侵權行為,侵權責任由作者本人承擔。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
相關閱讀
招人、找錢、買芯片,每一件事都任重而道遠。
搜狗創(chuàng)始人小川近日接受《36氪》專訪。
4月10日消息,搜狗創(chuàng)始人小川今日正式對外宣布開啟人工智能大模型領域創(chuàng)業(yè)。小川與前搜狗COO茹立云聯(lián)合成立人工智能公司百川智能,旨在打造中國版的OpenAI基礎大模型及顛覆性上層應用。據(jù)介紹,百川智能早前已獲得5000萬美元啟動資金,來自小川與其業(yè)內好友的個人支持。小川今日在接受騰訊新聞《深網(wǎng)》專訪時透露。小川表示,預計在4月底公司將打造一只50人規(guī)模的AI團隊,有信心在年底做出中國最好的大語言模型。
搜狗CEO小川今日宣布卸任搜狗CEO,并表示,從今天開始,搜狗融入騰訊大家庭,向新而行,共赴山海。
搜狗CEO小川今日宣布卸任搜狗CEO,并表示,從今天開始,搜狗融入騰訊大家庭,向新而行,共赴山海。
3月15日消息,天眼查APP顯示,2021年3月12日,北京伍季科技有限公司成立,注冊資本100萬人民幣,法定代表人及最大股東為小川,持股比例100%。同時,小川擔任該公司的經(jīng)理,執(zhí)行董事職位。2021年以來,小川還在1月退出了北京四達時代軟件技術股份有限公司的董事一職。值得一提的是,2021年全國“兩會”已先后于3月10、3月11日落幕。
小川認為見自己是最難的,2021年目標是“見自己”,明白自己熱愛的事情是什么。
3月29日消息,天眼查App顯示,近日,五季智能 科技有限公司成立,法定代表人為小川,注冊資本500萬人民幣,經(jīng)營范圍包括人工智能應用軟件開發(fā);人工智能雙創(chuàng)服務平臺;人工智能理論與算法軟件開發(fā);人工智能通用應用系統(tǒng);人工智能公共數(shù)據(jù)平臺;人工智能硬件銷售等。股東信息顯示,五季智能(北京)科技有限公司由小川、茹立云共同持股,其中,小川持股99%,并擔任該公司執(zhí)行董事、經(jīng)理。