字節(jié)跳動(dòng)和北大推出古籍?dāng)?shù)字化平臺(tái) 測試版已上線
10月11日消息,由“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”研發(fā)的古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”測試版正式上線。
目前,該平臺(tái)涵蓋390部經(jīng)典古籍,主要來自《四部叢刊》,共計(jì)3000多萬字,即日起向公眾免費(fèi)開放。未來三年,“識(shí)典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時(shí)將全部免費(fèi)開放。
今年3月,北京大學(xué)與字節(jié)跳動(dòng)合作成立了“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”,致力于將人工智能技術(shù)應(yīng)用于古籍資源的智能化整理。
“識(shí)典古籍”項(xiàng)目負(fù)責(zé)人介紹,該平臺(tái)當(dāng)前主要使用了三種技術(shù),包括文字識(shí)別、自動(dòng)標(biāo)點(diǎn)和命名實(shí)體識(shí)別。文字識(shí)別技術(shù),是對(duì)古籍的影印版文字進(jìn)行單個(gè)切分,再進(jìn)行文字識(shí)別和順序識(shí)別。
自動(dòng)標(biāo)點(diǎn)技術(shù),是通過序列標(biāo)注的方式對(duì)古籍自動(dòng)進(jìn)行標(biāo)點(diǎn)劃分。命名實(shí)體識(shí)別技術(shù),則是通過序列標(biāo)注識(shí)別文本中的人名、地名、書籍、時(shí)間、官職等信息。
據(jù)悉,目前行業(yè)內(nèi)OCR識(shí)別準(zhǔn)確率平均為93%至94%,“識(shí)典古籍”的準(zhǔn)確率為96%至97%。
與其他古籍?dāng)?shù)字化平臺(tái)相比,“識(shí)典古籍”具有自身的特點(diǎn),頁面簡潔,瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉(zhuǎn)換功能,便于專業(yè)研究人員、廣大古籍愛好者使用。同時(shí),“識(shí)典古籍”書目將持續(xù)更新,后續(xù)將上線手機(jī)移動(dòng)版。
未來,“識(shí)典古籍”將向全社會(huì)開放古籍閱讀檢索研究能力,還將實(shí)現(xiàn)全自動(dòng)整理校對(duì),實(shí)現(xiàn)存量古籍全部數(shù)字化。同時(shí),平臺(tái)也鼓勵(lì)擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn),用戶甚至可參與再創(chuàng)作和再闡釋。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn