圖①:浙江湖州嘉業(yè)堂藏書樓俯瞰。張 斌攝 圖②:山西第一期古籍修復(fù)培訓(xùn)班上,學(xué)員聽專家講解相關(guān)知識。 本報記者 陳 斌攝 圖③:《永樂大典》數(shù)字高清影像庫項目工作人員進(jìn)行古籍?dāng)?shù)字化處理。邵啟軒攝 圖④:《永樂大典》數(shù)字高清影像庫。邵啟軒攝
古籍記錄歷史、傳承文化,是中華文明源遠(yuǎn)流長、博大精深的表征和見證。隨著古籍?dāng)?shù)字化步伐的加快,實現(xiàn)全部古籍永久保存的目標(biāo)有望實現(xiàn)。越來越多收藏在圖書館里的珍貴古籍走出“象牙塔”,走進(jìn)社會大眾。古籍?dāng)?shù)字化的持續(xù)推進(jìn),讓古籍面貌煥然一新,不斷激發(fā)古籍生命力。“活起來”的古籍日益成為傳承中華優(yōu)秀傳統(tǒng)文化、堅定文化自信的寶貴滋養(yǎng)。
古籍?dāng)?shù)字化帶來閱讀便利
什么是“天頭地腳”?什么是“象鼻”?什么是“魚尾”?……打開識典古籍網(wǎng)站《永樂大典》數(shù)字高清影像庫,點擊這些看起來有些陌生的名詞,《永樂大典》高清圖片上相應(yīng)的位置立刻突出顯示,直觀而形象地展現(xiàn)這部珍貴古籍的風(fēng)采。更令讀者感興趣的是,網(wǎng)頁上的《永樂大典》可以隨著鼠標(biāo)調(diào)整方向和角度,360度觀賞,仿佛是拿著真書在閱讀。
“這是我們的專利技術(shù),用光影變化最大限度地模擬實體書的閱讀體驗,最大限度地保存古籍原貌。”識典古籍項目產(chǎn)品負(fù)責(zé)人王宇說。
《永樂大典》數(shù)字高清影像庫是國家圖書館承接的國家古籍?dāng)?shù)字化重點項目,由北京大學(xué)數(shù)字人文中心和字節(jié)跳動公司共同設(shè)計研發(fā)。該項目第一輯收錄國家圖書館館藏《永樂大典》40冊、75卷的內(nèi)容,除呈現(xiàn)《永樂大典》高清圖像、整體風(fēng)貌及相關(guān)知識外,還嘗試對部分大典內(nèi)容做了知識標(biāo)引,為后續(xù)《永樂大典》的知識體系化、利用智能化進(jìn)行探索。
“數(shù)字化解決了存藏和使用之間的矛盾?!眹覉D書館副館長、國家古籍保護(hù)中心副主任張志清說。因古籍年代久遠(yuǎn)、極易破損,珍貴古籍的借閱有一整套嚴(yán)格的流程,普通讀者是難以接近的?!凹垑矍辍?,每一次翻閱都是對古籍的傷害?!肮偶?dāng)?shù)字化既減少了紙書的磨損,也使《永樂大典》這部寶貴文獻(xiàn)‘化身千百’‘走入尋常百姓家’,從而弘揚中華優(yōu)秀傳統(tǒng)文化,推動相關(guān)學(xué)術(shù)研究,感知《永樂大典》的不朽神韻?!睆堉厩逭f。
除了讓珍貴古籍走近普通讀者,數(shù)字化也降低了古籍的閱讀門檻。
在識典古籍網(wǎng)站和客戶端上,《論語》《孟子》等常見古籍不僅有文本,而且有古籍原本影像,圖文左右對照;有注疏和翻譯,文白對照;不僅可以閱讀,還可以檢索。“目前我們初步把人名、地名和官職等實體進(jìn)行了標(biāo)注,也上線了字典釋義功能,鼠標(biāo)或手指放到不認(rèn)識的字詞上,就會顯示注釋。下一步還要把實體標(biāo)注與百科詞條鏈接起來,遇到不懂的問題,點擊即可呈現(xiàn)詳細(xì)解釋?!蓖跤钫f,通過數(shù)字化降低古籍閱讀門檻,可以讓更多讀者親近古籍,感受中華優(yōu)秀傳統(tǒng)文化的魅力。
作為面向大眾的公益性古籍?dāng)?shù)字化平臺,目前識典古籍已上線古籍1600余部,免費對公眾開放。讀者對于數(shù)字化的古籍表現(xiàn)出很高的閱讀熱情,短短數(shù)月,識典古籍累計用戶數(shù)已超過1240萬。
面向?qū)I(yè)用戶的古籍?dāng)?shù)據(jù)庫建設(shè)步伐也在加快。中華書局下屬古籍?dāng)?shù)字化企業(yè)古聯(lián)公司開發(fā)的古籍整理出版資源平臺籍合網(wǎng),自2018年上線以來,已發(fā)布數(shù)據(jù)庫31個,涵蓋專業(yè)古籍整理出版資源20億字,石刻資源5萬余篇,歷代登科人物10萬余條,木版年畫18000余幅,書法作品10000余種,甲骨文卜辭143856條,總計字符30多億。
自2012年以來,我國古籍事業(yè)進(jìn)入新時代,古籍?dāng)?shù)字化不斷提速。2022年4月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)新時代古籍工作的意見》,明確提出“推進(jìn)古籍?dāng)?shù)字化”,強調(diào)“支持古籍?dāng)?shù)字化重點單位做強做優(yōu),加強古籍?dāng)?shù)字化資源管理和開放共享。”《意見》進(jìn)一步激發(fā)了相關(guān)單位古籍?dāng)?shù)字化的動力,以大型圖書館為主體的公藏單位普遍開展了古籍?dāng)?shù)字化工作。
今年9月,國家圖書館組織第八次古籍?dāng)?shù)字資源聯(lián)合發(fā)布,新增發(fā)布古籍資源1672部(件)。至此,全國累計發(fā)布古籍及特藏文獻(xiàn)影像資源達(dá)13萬余部(件)。
不過,在快速發(fā)展的同時,古籍?dāng)?shù)字化還存在薄弱之處。據(jù)統(tǒng)計,我國現(xiàn)存古籍約20萬種5000多萬冊(件),但實現(xiàn)數(shù)字化的不超過8萬種,大多數(shù)所謂數(shù)字化古籍只是完成了初步的影像掃描,真正實現(xiàn)文本數(shù)字化的不足4萬種。
古籍?dāng)?shù)字化專家呂亞峰說,古籍影像掃描是古籍?dāng)?shù)字化的基礎(chǔ),但影像無法檢索;只有數(shù)字化文本才可以檢索,便于研究、閱讀和傳播。因此,今后古籍?dāng)?shù)字化工作應(yīng)把重點放在古籍文本的數(shù)字化上?!艾F(xiàn)在有了人工智能等先進(jìn)技術(shù),加速實現(xiàn)全部古籍的數(shù)字化已經(jīng)具備了條件?!眳蝸喎逭f。
“如果現(xiàn)存古籍全部數(shù)字化,那么我國古籍保護(hù)就邁上了一個新臺階,古籍滅失的可能性就大幅降低了。這對于賡續(xù)中華文脈,將是一個了不起的貢獻(xiàn)?!睆堉厩逭f,“我們所處的新時代,有史以來,中華民族第一次有可能實現(xiàn)文化典籍永久保護(hù)和傳承?!?/p>
古籍?dāng)?shù)字化進(jìn)入人工智能時代
將古籍高清影像上傳服務(wù)器,點擊自動識別按鈕,只見古籍影像上立刻出現(xiàn)一個個不斷閃動的格子,自動套住圖片上的每個字,相應(yīng)的文字就按照古籍上文字的排列順序出現(xiàn)在頁面。這一過程不過數(shù)秒。
“人工智能在古籍?dāng)?shù)字化中的應(yīng)用有效提升了古籍整理的效率。”古聯(lián)公司總經(jīng)理洪濤說,以籍合網(wǎng)OCR(光學(xué)字符識別技術(shù))識別為例,5分鐘的OCR識別相當(dāng)于人工錄入20小時的工作量,而且錯誤可以降低75%?!斑@對傳統(tǒng)紙本古籍整理效率的提升是巨大的,”洪濤說,人工智能解決了大型古籍整理項目耗時耗力、過久過多的現(xiàn)狀。
以西泠印社“刻在石頭上的浙江”系列叢書為例,古聯(lián)公司編輯部參與了包括《東甌金石志》等在內(nèi)的9種金石類古籍的整理,共計約147萬字。在整理過程中,全流程利用智能整理技術(shù)輔助工作。首先用OCR識別底本文字,然后采用線上眾包模式開展底本校對工作。校對后的稿件通過自動標(biāo)點功能進(jìn)行標(biāo)點,標(biāo)點后的稿件再交由編輯進(jìn)行??焙屯ㄗx審稿。在這種工作模式下,編輯部僅用時4個月就完成了全部稿件的整理工作和部分編輯工作?!斑@樣的速度在以前是不可想象的,只有在人工智能時代才能成為現(xiàn)實?!焙闈f。
人工智能正在變得越來越“聰明”,現(xiàn)在對版刻本的識別準(zhǔn)確率可達(dá)98%。即使對行夾注、眉批、行間批注、表格等不規(guī)則的古籍版面,不僅能準(zhǔn)確識別文字,還能通過針對性訓(xùn)練優(yōu)化分區(qū)效果,從而避免出現(xiàn)雖然單字識別正確,但閱讀順序顛倒錯亂不能復(fù)用的情況。
以往給古籍?dāng)嗑浜图訕?biāo)點,需要經(jīng)驗豐富的專業(yè)人士手動進(jìn)行。但現(xiàn)在人工智能可以實現(xiàn)機器自動斷句、自動標(biāo)點。洪濤介紹,目前研發(fā)的自動標(biāo)點技術(shù),斷句準(zhǔn)確率平均達(dá)到98.46%,標(biāo)點準(zhǔn)確率達(dá)到93.94%,專名線書名線自動標(biāo)注準(zhǔn)確率達(dá)到92.15%,標(biāo)點標(biāo)線后的古籍文本更方便閱讀、理解和研究。
“如果人工智能不介入,完全依靠人力,古籍?dāng)?shù)字化全部完成可能還需要上百年的時間,但有了人工智能,完成全部古籍的數(shù)字化也許只要二三十年。我們對此有信心?!蓖跤钆e例說,百衲本《二十四史》將近4000萬字,但利用人工智能,識典古籍北大整理團(tuán)隊僅用3個多月就完成了識別、點校、上線發(fā)布。
盡管經(jīng)過人工智能處理的古籍文本準(zhǔn)確率已經(jīng)很高,但依然需要人工核校。特別是一些異體字、冷僻字,以及特殊格式的古籍,更是離不開專業(yè)古籍工作者的核校。
“人工智能并不能完全取代人,人工智能的優(yōu)勢在速度,而人的優(yōu)勢在精確和創(chuàng)造性。通過人機協(xié)同、人機互補,可以大幅提高古籍整理出版的效率和質(zhì)量。而高質(zhì)量的、學(xué)術(shù)性的古籍整理工作依然需要專家學(xué)者長期不懈的努力,不可能被計算機所替代?!焙闈f。
古籍整理進(jìn)入大眾化時代
古籍整理是專業(yè)性很強的工作,但在人工智能高速發(fā)展的今天,古籍愛好者也可以參與古籍整理。其流程大致是這樣的——
經(jīng)過人工智能處理的古籍文本,通過互聯(lián)網(wǎng)分發(fā)給在線編校人員,后者在電腦上對照古籍底本高清圖像,逐字逐句審閱,并在古籍整理平臺上修改。管理員借助平臺的版本比對功能審閱修改記錄,判斷是否合格。
古聯(lián)公司建立的全國第一個古籍整理眾包平臺正是這樣運作的。從2018年上線以來,籍合網(wǎng)古籍整理眾包平臺積累了近5000人的在線古籍編校隊伍。這些在線古籍編校者絕大多數(shù)都是業(yè)余人士,有大學(xué)生、圖書編輯、律師、教師,也有公務(wù)員、金融界人士、自由職業(yè)者等。愛好文史、熟悉互聯(lián)網(wǎng)是他們的共同特征。
全書近2億字的《中華大藏經(jīng)·續(xù)編》通過眾包模式,在全球900多位業(yè)余審校者的參與下,僅用時兩年就完成了兩個校次的底本校對與審核工作。“古籍整理眾包工作模式不僅解決了大型古籍整理項目在人力方面的需求,更重要的是解決了地域限制和個體時間分散、隨意的難題,使人力和時間都得到了充分的利用。”洪濤說。
“青年一代對中華傳統(tǒng)文化的認(rèn)知和熱愛,是推動古籍事業(yè)高質(zhì)量發(fā)展的重要推力?!睆堉厩逭f。
目前,一支2300余人的古籍志愿者隊伍活躍在字節(jié)跳動公司。每次識典古籍發(fā)布古籍審校任務(wù),志愿者們就會在群里認(rèn)領(lǐng),往往是“秒光”。手速稍慢,任務(wù)就被人領(lǐng)走了。
古籍志愿者許黧丹參與了《茶苑》和《雞足山志》兩部古籍的文字校對和結(jié)構(gòu)整理任務(wù)?!坝H自參與,大受震撼,完全顛覆了我的認(rèn)知。原來,只是輕輕滑動鼠標(biāo)就能瀏覽到的內(nèi)容,背后凝結(jié)著這么多復(fù)雜的步驟和這么多人的心血?!痹S黧丹說,“除了為古籍?dāng)?shù)字化做出自己的微薄貢獻(xiàn),還結(jié)交了志同道合的朋友,自己也增長了不少見識。我們都在期待下一次的古籍整理任務(wù)了。”
在人工智能的幫助下,未來的古籍?dāng)?shù)字化還會有怎樣的進(jìn)展?
洪濤認(rèn)為,目前的古籍?dāng)?shù)字化僅僅是一個開始,未來可以利用人工智能進(jìn)行古籍的輯佚、匯編、注解、翻譯、檢索、索引甚至考證和摘要工作。而更重要的是,利用人工智能開發(fā)古籍,用古籍蘊含的浩瀚素材創(chuàng)作生成內(nèi)容。
“比如,創(chuàng)作一部歷史題材的影視劇就可以讓人工智能從古籍里尋找相關(guān)素材,自動生成故事。創(chuàng)作者在此基礎(chǔ)上繼續(xù)修改。這個過程不斷循環(huán),就能創(chuàng)作出高質(zhì)量的作品。我們離這一天已經(jīng)越來越近了。從這個意義上說,中華古籍是一座寶藏?!焙闈f。
版式設(shè)計:汪哲平
《 人民日報 》( 2023年10月03日 07 版)
北疆新聞:內(nèi)蒙古自治區(qū)重點新聞網(wǎng)站(客戶端),內(nèi)蒙古出版集團(tuán)新華報業(yè)中心旗下國家互聯(lián)網(wǎng)新聞信息采編發(fā)布服務(wù)一類資質(zhì)網(wǎng)站(客戶端)。
北疆新聞版權(quán)與免責(zé)聲明:
一、凡本站中注明“來源:北疆新聞”的所有文字、圖片和音視頻,版權(quán)均屬北疆新聞所有,轉(zhuǎn)載時必須注明“來源:北疆新聞”,并附上原文鏈接。
二、凡來源非北疆新聞的新聞(作品)只代表本網(wǎng)傳播該消息,并不代表贊同其觀點。
如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請在見網(wǎng)后30日內(nèi)進(jìn)行,聯(lián)系郵箱:bjwmaster@163.com。
版權(quán)聲明:北疆新聞版權(quán)所有,未經(jīng)書面授權(quán),不得轉(zhuǎn)載或建立鏡像,違者依法必究。 本站違法和不良信息舉報電話:15648148811蒙ICP備16001043號-1
Copyright © 2016- 北疆新聞網(wǎng) All Rights Reserved互聯(lián)網(wǎng)新聞信息服務(wù)許可證:15120200009-1蒙公網(wǎng)安備:15010502001245