阿里巴巴聯(lián)合中科院研發(fā)AI“聽(tīng)音識(shí)人”
王小孟
2021-03-25 09:36
3月25日消息,阿里巴巴聯(lián)手中科院,實(shí)現(xiàn)AI“聽(tīng)音識(shí)人”。通過(guò)訓(xùn)練AI模型,研究表情和聲音的關(guān)系。給定一段聲音和僅有一張正確人臉的若干張圖片,AI將為該聲音找到“主人”。經(jīng)驗(yàn)證明,準(zhǔn)確率達(dá)到90%。在“1對(duì)N”的匹配實(shí)驗(yàn)中,AI還能對(duì)聲音歸屬人臉的“可能性”進(jìn)行排序。
值得一提的是,在2020云棲大會(huì)上,阿里達(dá)摩院曾公布了語(yǔ)音AI技術(shù)的最新突破:端上語(yǔ)音識(shí)別和語(yǔ)音合成能力首次達(dá)到媲美云端的水平,這意味著未來(lái)個(gè)人用戶在移動(dòng)終端即可輕松體驗(yàn)逼近真人的語(yǔ)音技術(shù)。
據(jù)介紹,在語(yǔ)音識(shí)別方面,達(dá)摩院提出SAN-M網(wǎng)絡(luò)結(jié)構(gòu)及基于SCAMA的流式端到端語(yǔ)音識(shí)別框架,提升計(jì)算效率的同時(shí),還將高難度場(chǎng)景中的語(yǔ)音識(shí)別錯(cuò)誤率降低近三成。
彼時(shí),達(dá)摩院最新的語(yǔ)音技術(shù)已在淘寶直播、釘釘會(huì)議、高德導(dǎo)航等場(chǎng)景大規(guī)模應(yīng)用,正全面對(duì)外開(kāi)放。
聲明
1、該內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電商報(bào)觀點(diǎn)或立場(chǎng),文章為作者本人上傳,版權(quán)歸原作者所有,未經(jīng)允許不得轉(zhuǎn)載。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn