字節(jié)和北大合作研發(fā)識典古籍官網(wǎng) 現(xiàn)已上線685部古籍
2月24日消息,在字節(jié)跳動與北京大學(xué)的合作之下,識典古籍官網(wǎng)現(xiàn)已上線了685部古籍,包括雙方參與設(shè)計與研發(fā)的《永樂大典》高清影像數(shù)據(jù)庫,用戶可以登錄官網(wǎng)或者在今日頭條古籍頻道查看已上線古籍。
據(jù)了解,古籍?dāng)?shù)字化業(yè)務(wù)的研發(fā)復(fù)雜度很高,例如古籍的格式里,大字是正文,小字是注解,單獨一列的大字是標(biāo)題。
為了把這些復(fù)雜的結(jié)構(gòu)區(qū)分開,字節(jié)方面定義了一套古籍的元數(shù)據(jù)協(xié)議。字節(jié)團(tuán)隊將一頁一頁的古籍變成了結(jié)構(gòu)化的數(shù)據(jù),可以滿足行業(yè)通用的 TEI(Text Encoding Initiative)元數(shù)據(jù)標(biāo)準(zhǔn),能區(qū)分章節(jié)、標(biāo)題、內(nèi)文,方便搜索、翻看,而且還能進(jìn)一步編輯整理。
(圖源:識典古籍官網(wǎng))
借助飛書文檔提供的SDK,字節(jié)已經(jīng)為合作方北大的專家學(xué)者們提供了古籍整理平臺,便于精?,F(xiàn)有古籍、增加新的書目。
識典古籍是由“北京大學(xué)—字節(jié)跳動數(shù)字人文開放實驗室”研發(fā)的古籍?dāng)?shù)字化平臺,該平臺于2022年10月正式上線測試版,并向公眾免費開放。
未來三年,“識典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時將全部免費開放。
“識典古籍”項目負(fù)責(zé)人介紹,該平臺當(dāng)前主要使用了三種技術(shù),包括文字識別、自動標(biāo)點和命名實體識別。目前行業(yè)內(nèi)OCR識別準(zhǔn)確率平均為93%至94%,“識典古籍”的準(zhǔn)確率為96%至97%。
(圖源:字節(jié)跳動技術(shù)范兒公眾號)
值得一提的是,日前,36氪報道稱,字節(jié)跳動在大模型上已有所布局,分別在語言和圖像兩種模態(tài)上發(fā)力。字節(jié)跳動相關(guān)技術(shù)負(fù)責(zé)人對此回應(yīng):技術(shù)中臺在這些領(lǐng)域有探索,還很初期,不成熟。
一名知情人士透露,語言大模型團(tuán)隊由字節(jié)搜索部門牽頭,目前團(tuán)隊規(guī)模在十?dāng)?shù)人左右。圖片大模型團(tuán)隊則由產(chǎn)品研發(fā)與工程架構(gòu)部下屬的智能創(chuàng)作團(tuán)隊牽頭。
另有知情人士表示,字節(jié)跳動語言大模型團(tuán)隊在今年組建,探索方向主要為與搜索、廣告等下游業(yè)務(wù)的結(jié)合,“搜索業(yè)務(wù)部門、AI Lab和AML(應(yīng)用機器學(xué)習(xí))團(tuán)隊都調(diào)了一部分人支援語言大模型,團(tuán)隊目前的預(yù)期是在今年年中推出大模型”。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn