佛教圖書館館訊 第三十九期 93年9月
開放古籍平台的意義與實作葉健欣【摘要】本文首先探討漢文古籍在數位化出版的過程中,所面臨的兩個主要難題:交換碼導致的缺字問題,及專屬式軟體介面導致資料庫之間無法互通的問題。筆者提出以三個模組:1. 基於構字式的動態字形產生;2. 適用於古籍的XML描述語言;3. 開放式全文檢索系統,來構築一個「開放古籍平台」,以抒解古籍數位出版的問題。 關鍵詞:數位古籍出版;字形產生;全文檢索;開放平台
古籍數位化的主要問題數位科技的發展對書籍的衝擊是全面性的,從創作方式、儲存介質、複製技術、乃至呈現和傳布形式,都和傳統的方法有很大的差別。數位科技並不是突然取代所有傳統的出版技術,它是漸次發展,一部份一部份地替代了舊的系統。 商用電腦的發展重心,依序是「計算」、「儲存」、「溝通」。50~70年代,電腦主要是用來代替數學家和工程人員進行重複繁雜的運算工作,此時的電腦,對數位出版沒有太大意義。80~90年代,個人電腦興起,硬碟和光碟技術發展成熟,龐大的儲存容量和極底的複製成本,開始引起出版界、文化界和宗教界的注意,此階段主要的工作,就是文本的輸入。 輸入方法經過十幾年的發展,速度已達到相當的程度,光學辨識的精確度也在百分之九十以上。大量文字的輸入,不再是問題。 95年開始進入所謂的網路時代,電腦超越計算和儲存的角色,變成全方位溝通交流訊息的工具,對傳統出版業最大的衝擊是:複製和傳遞的成本大幅降低,趨向可忽略不計的程度。這時從「原子」到「電子」的質變已經完成,網路蔓延需要時間,不是受制於技術,而是在等待人類的適應。 網路就好像一個新的物種,具有無與倫比的優勢,對傳統的訊息傳播,產生很強的排擠效應,很快地成為年輕人獲取資訊的主要的方式,傳統業者,面對此一潮流,已經不是在問why 和when 的時候,而是要思考how 了。 相對於流行性資訊的快速數位化,古籍除了學術界因為研究的需要、宗教界基於傳教之目的,而表現得比較極積之外,大量的古籍並沒有被排入數位化的時程,一來是由於古籍很難引起年輕一代的關注,所以也就無法聚集足夠的商業力量來進行數位化;二來是就技術而論,古籍面臨更多更高的挑戰。簡言之,這是一項吃力不討好的工作。雖然如此,筆者深信無論科技再進步,對人們最有價值的內容、身心安頓之道,還是要回到這些經過數千年錘鍊的經典古籍中去尋找。因此在現階段,替古籍掃平技術障礙,降低製作成本,為將來古籍賦予新時代的意義奠基,是很值得做的事。 一、平台問題 由於數位科技這十幾年來都處於迅猛發展的階段,傳統的文史工作者對這麼快的變化速度往往有適應不良的現象,比較常聽到的抱怨是說:好不容易熟悉的一套系統,沒多久就過時了。傳統類比科技,如家電、辦公室設備、汽機車等,一般人都是用壞了才換,新一代的吸引力並不強。但數位科技很不一樣,改朝換代的速度太快,往往才過了一、兩年,原本的作業方式就過時了,文史工作者若不是捨本逐末地持續投入大量精力追趕最新科技,就是無奈地遷就於效率欠佳的舊環境。 不過再老舊版本的數位科技,也應當比傳統的抄抄寫寫強,文史工作者以無比的熱情,默默地忍受著環境的不便,三年五載下來,也建立了不少資料檔案,終於到了可以和別人分享的階段,才發現數位出版也不是一件易事,直接散佈輸入校對好的文字檔案顯然是不可行的,一來是著作權沒有任何保護,二來功能也很有限,無法發揮數位檔案的真正效益。 最常見的解決方式是撰寫一個專屬程式作為資料的擷取介面,使用者只能透過這個程式,才得以運用資料庫。這樣,資料可以輕易地透過特殊格式安排和加密的方式得到保護,使用者也有一個比純文字檔親切的操作環境。 但隨著數位資料庫的增加,這種方式的缺點,慢慢地呈現出來:
二、缺字問題以下,則對缺字問題做進一步的闡述。 對古籍來說,最令人頭痛的是缺字問題,從數位化之初,就開始浮現出來。我們發現,很多古字是無法輸入電腦的,或者說,電腦中根本沒有定義這個字。謝清俊教授於1996年發表論文(註1)時,缺字就到了非解決不可的地步。他曾指出,缺字造成了以下的問題: 1. 大幅增加了資料登錄的工作 2. 產生缺字管理和造字管理的困難 3. 字碼所允許的使用者造字空間不夠用 4. 缺字和異體字造成文件處理上的問題 5. 造成資訊共享的障礙 缺字問題不像其他的技術問題,會因為電腦速度的提升、應用程式的改善、記憶容量的增加等因素,逐漸獲得解決,它是一個肇因於對漢字不當認知所導致的錯誤編碼方式,埋藏在最深的層面,影響一切作業系統、應用程式、字型、輸入法。為了凸顯其嚴肅性和普遍性,特別稱之為「根本問題」。 根本問題的嚴重性,不但在於其難以解決,更在於其廣泛的滲透性,容易造成「急病亂投醫」的情況。這十幾年來,各種「頭痛醫頭、腳痛醫腳」的治標方案層出不窮,從歷史最悠久的造字法、拼字法、替代字,到各種擴大字符集的方案,無一不勞民傷財,而收效有限,其中值得一提的是Unicode。從一般應用的角度而言,它舒緩了缺字和兩岸溝通的問題,也讓應用軟體的中文化大幅簡化(註2)。但深入地觀察,Unicode並沒有徹底解決缺字的問題,每一次Unicode漢字集的擴充,輸入法、字型,甚至作業系統本身都要進行相應的調整(註3),再加上使用者的轉換升級作業,成本是極其高昂的。 三年前,筆者下定決心要突破此困難,於是從頭檢視整個問題的每個面向、綜合多位前輩的研究成果並仔細思考其根本。有趣的是,當問題被看穿看透時,解決方案竟然自動浮現出來:在系統核心用「不定長度的編碼」來描述漢字,並依據這個漢字結構式來生成字形,一舉解決所有古字、避諱字、新創字、甚至錯字的「交換」「輸入」和「顯示」需求,這是正本清源之道,捨此無他途。 實作隨著古籍資料的增加,單純的文字檔形式無法滿足多樣化的需求,我們迫切需要一個通用的開放平台,作為高階古籍應用的基礎。 一、開放式資料庫市面上的數位古籍產品,不是採用專屬的程式,就是利用Pdf , htmlhelp 等通用格式,來作為使用者的操作介面。前者的優點是可以提供豐富的功能,缺點是開發成本較高,與其他資料庫的互通性很差,後者的優缺點剛好相反。一般來說,比較具規模的資料庫,都會傾向使用前者,而網上由個人發心整理的免費資料庫,以後者的形式居多。 資料庫從設計之初,就要考慮承納不同資料庫的能力。程式本身是由重用性高的功能模塊所構成,而資料庫本身不再是完全靜態被動的,要有自我描述的能力,即所謂的「參數化」。因此,純文字檔是不夠的,必須使用標記語言。 筆者採用XML(註4)語法搭配中文標記作為資料庫的標準格式。以下為範例: <檔 n="es74.xml"> <書 l="序" t="章">印度之佛教</書> <_頁 n="a1"/> <序>印度之佛教自序</序> <段/> ─編述之緣起、方針與目的─ …略… <_頁 n="1"/> <章>第一章 印度佛教流變概觀</章> <段/>佛教創始於印度釋迦牟尼,乃釋尊本其獨特之深見,應人類之共欲,陶 …略… <章 t="節.">第二章 釋尊略傳</章> <節>第一節 出家前之釋尊</節> <_頁 n="340"/> </檔> XML的可延展性,用來處理複雜的古籍結構,是非常合適的。透過標記的方式,程式就能夠「讀懂」一份文件,從中萃取出所需的部份。本平台的進階功能,如樹狀目錄、超連結、交叉參考等,都是以此為基礎的。 基於程式重複使用的理念,本平台採用開放的架構,熟悉XML 的使用者可以輕易地製作資料庫,添加到這個平台上,此外,也可以從Word 檔直接轉換成本平台的資料庫。 本平台可以同時開啟多個資料庫,資料庫之間可以相互查詢,交叉參考,對使用者來說,可以省掉切換不同程式所花費的精力。更重要的是,將來作業系統升級,或者要移植到其他作業系統,原有的資料庫都可以輕鬆的轉移過去。 二、動態字形產生 根據謝清俊教授和莊德明先生的研究成果:漢字構形資料庫,根本地解決缺字在編碼層次的表達問題,筆者在這個基礎上,開發了「動態字形產生器」模組(見圖一),此模組以「構字式」(字形的結構表達式)為輸入,經過部件比例計算、筆畫配置等程序,輸出一個字形。 圖一:動態字形產生器舉例說明,當產生器收到「⿰釒本」這個構字式,從第一個字元得知字形是「左右」結合,「釒」是一個「末級部件」,無法再拆分,故直接從「部件資料庫」中提取筆畫組資訊,「本」是「複合部件」,可以進一步拆分為「木」及「一」,再分別提出筆畫組資訊。從筆畫組資訊,計算每個部件的「複雜度」,以決定它們應佔的比例,最後,一筆一劃地將字形繪製出來。 產生器是以筆畫為繪製單元,因此,只要有不同風格的基本筆畫,即可產生不同的字體。目前單線體、黑體、圓體和宋體的筆畫已完成,未來有更多的精力,再研製更多的字體筆畫。 造字碼和字形檔之間的連繫必須人工介入,是無機、隨意而武斷的,這是缺字問題的根本亂源;而構字式搭配字形產生的方案,則是全自動、開放的架構,能描述所有的漢字,包括異體字、避諱字、新字甚至錯別字。 此外,構字式允許使用者以「部件」的方式來搜尋缺字(見圖二),這也一併解決了缺字的輸入及檢索問題。因此在古籍的製作階段,這個方案也能展現無比的優勢,徹底免除了缺字的字形繪製、編碼管理和發佈造字檔等所有工序。 圖二:以「部件」的方式來搜尋缺字限於篇幅,本文無法深入探討動態字形產生的背後的原理,有興趣者請逕往http://www.eforth.com.tw/efeditor/下載相關工具,或來信指教。 三、全文檢索古籍所需的全文檢索技術,和一般應用於網頁的檢索引擎,有以下的不同點:
由於上述這些差異,市面上找不到現成可用的產品,因此,筆者開發了以Unicode為索引單元,並接受國際標準的「表意文字描述序列」(Ideographic Descriptive Sequence)的XML全文檢索核心,這個核心可以索引包括中英文在內的數十種語言。 本核心的索引檔結構和比對演算法經過精心的設計,速度相當理想,經實際測試,以任意詞組檢索《大正藏》近六千萬字的本文,只要0.04秒(pentium 1.3 GHz),就可以找到所有該詞組出現的位置和次數。(見圖三) 圖三:以「部件」的方式來搜尋缺字
由於檢索核心的反應速度很快,讓使用者介面擺脫了「輸入字串→查詢→找不到(或找到太多)→再輸入」的傳統搜尋方式,提升到「逼近式檢索」(incremental search)的境界,也就是使用者每輸入一個字,程式即完成搜尋作業,將比對結果即時地反映出來,使用者可以隨意調整輸入,來逐步地「逼近」理想的結果。 全文檢索其實並不困難,基本的原理是,依序讀取所有的文件,記錄每個字所在的位置,製成「反向索引」(Inverted index)。搜尋程式利用這個索引,就可以快速得到每個字的所在位置。因此,搜尋所需的時間就和資料量大小沒有關係。古籍全文檢索真正的挑戰是,從這些「位置」還原為人們可以辨識的結構資訊。使用者希望知道,關鍵字是在哪本書、第幾章、第幾節、第幾頁甚至第幾行。 另外,使用者也希望以結構資訊作為查詢的條件,如搜尋「書名為XX」,「本書第n頁」等,加上布林邏輯,達到類似關聯式資料庫(Relational database)的功能。 實現的方案是「動態結構定義」,這是檢索核心最複雜的部份,但也是最具價值的功能,結合了全文檢索和欄位式檢索的優點,各類異質性的資料庫,如辭典、全集、原典等都可以納入統一的平台,使程式的重用度大幅提高。 後語在數位系統中,人類往往是效率的瓶頸。如果一個系統有十個環節需要人工介入,它的效率且記為10。當人工的環節在自動化的過程中,逐一抽離,直至剩下一個,此時效率大概有15,而當最後一個人工環節被抽掉之後,奇蹟發生了,效率會暴增至100,甚至1000,並且會隨著電腦的運算速度,不斷提升、再提升……。 準此,數位化的效益往往要到後期才呈現,先期的大量投入和花費的力氣,不一定會有等比的回收,只有堅持不斷,持續的投入,在到達臨界點的時候,加上臨門一腳,才能享受到真正的效益。筆者目睹古籍數位化從無到有,經過初期的摸索,到今天遍地花開的榮景,大部份重要的古籍,都已轉化成位元的形式存在。只是由於各種歷史的因素、商業的考量、技術的限制,它們無法整合起來,融為一個親切好用、準確權威、互動性強的文史資料庫,以供廣大的群眾自由擷取。 筆者深深覺得數位古籍還沒有充分發揮其大用,因此不揣勢單力薄,以此為磚,嘗試敲敲這最後一道障礙。衷心希望資源豐沛的團體,致力於自家的內容之餘,也予以古籍文史資料庫的標準化、整合性更多的重視。如此則不負前人德澤,國人幸甚。 【附註】
【參考書目】 □綜述 陳光華,江玉婷,〈中文資訊檢索測試集之設計與製作〉,《資訊傳播與圖書館學》,6卷3期(民89年3月),頁61-80。 藍日昌,〈中國典籍數位化在網路上的運用〉,《弘光通識學報》,1期(民91年5月),頁41-50。 陳文雅,〈由美國大學圖書館文獻檢索利用指導--評我國圖書館利用教育改進方法〉,《國立成功大學圖書館通訊》,28期(民86年10月),頁18-22。 嚴鼎忠,〈參考資訊之文獻檢索及其途徑〉,《佛教圖書館館訊》,10/11期(民86年9月),頁4-19。 王世偉,〈試論近年來我國文獻檢索與利用的發展趨勢與特點〉,《資訊傳播與圖書館學》,3卷1期(民85年9月),頁33-38。 陳光華,莊雅蓁,〈資訊檢索之中文詞彙擴展〉,《資訊傳播與圖書館學》,8卷1期(民90年9月),頁59-75。 羅以嘉,〈資訊檢索之基本概念及技巧〉,《化工資訊》,12卷9期(民87年9月),頁65-68。 吳美美,劉英享,姜杏蓉,〈資訊檢索互動讀者詢問行為研究〉,《圖書館學與資訊科學》,27卷2期(民90年10月),頁39-51。 陳信希,〈跨語言資訊檢索:理論、技術與應用〉,《圖書館學與資訊科學》,28卷1期(民91年4月),頁19-32。 董倫岳,〈圖書館在資訊檢索服務中之角色〉,《書苑》,56期(民92年4月),頁85-87。 林美齡,〈圖書館在資訊檢索服務中的角色〉,《書苑》,56期(民92年4月),頁91-93。 呂昭儀,〈搜尋引擎檢索功能之探討〉,《美國資訊科學與技術學會臺北學生分會會訊》,13期(民89年12月),頁51-81。 吳美美,〈試談網路檢索的基本知能〉,《社會教育學刊》,26期(民86年6月),頁151-180。 卜小蝶,〈臺灣網路使用者檢索行為探析〉,《大學圖書館》,4卷2期(民89年9月),頁23-37。 李建億,林幸福,〈適用國小學童於網際網路學習資料庫的主題導引式檢索策略之研究〉,《臺南師院學報》,34期(民90年6月),頁37-62。 張陳基,〈整合式資訊檢索介面的設計與實作〉,《大學圖書館》,6卷1期(民91年3月),頁82-93。 黃怡如,〈檢索互動前後的檢索詞彙變化〉,《大學圖書館》,4卷1期(民89年3月),頁119-146。 黃慕萱,陳明君,〈檢索背景對檢索技巧及檢索結果之影響〉,《圖書與資訊學刊》,34期(民89年8月),頁11-32。 黃慕萱,陳明君,〈檢索問題對資訊尋求和資訊檢索之影響〉,《大學圖書館》,3卷3期(民88年7月),頁11-32。 姜杏蓉,〈檢索晤談研究--中介者的角色和發問行為探討〉,《國立中央圖書館臺灣分館館刊》,6卷6期(民89年12月),頁42-52。 □主題資料檢索與利用葉淑慧,〈臺灣研究之檢索與利用〉,《國立中央圖書館臺灣分館館刊》,9卷4期(民92年12月),頁43-52。 鄭誼慧,〈古典小說資料的檢索與利用〉,《國文天地》,18卷8期=212期(民92年1月),頁40-46。 陳蕙文,〈戲曲資料的檢索與利用〉,《國文天地》,18卷8期=212期(民92年1月),頁34-39。 陳美雪,〈散曲資料的檢索與利用〉,《國文天地》,18卷8期=212期(民92年1月),頁28-33。 黃文吉,〈詞學資料的檢索與利用〉,《國文天地》,18卷8期=212期(民92年1月),頁21-27。 連文萍,〈詩話資料的檢索與利用〉,《國文天地》,18卷8期=212期(民92年1月),頁13-20。 林淑貞,〈古典詩學資料的檢索與利用〉,《國文天地》,18卷8期=212期(民92年1月),頁4-12。 史有為,〈關於「金剛(石)」的補正和再檢索〉,《語文建設通訊》,74期(民92年6月),頁70-72。 翁敏修,〈出土文獻的檢索與利用〉,《國文天地》,18卷3期=207期(民91年8月),頁20-24。 王清信,〈查尋歷代人物圖像的方法〉,《國文天地》,18卷3期=207期(民91年8月),頁15-19。 陳恆嵩,〈檢索方志中人物傳記資料的方法〉,《國文天地》,18卷3期=207期(民91年8月),頁10-14。 蔡銘津,〈寫作思緒的檢索與整合技巧及其教學策略〉,《國教天地》,149期(民91年7月),頁88-98。 吳靜宜,林麗娟,〈影像資料的處理與檢索〉,《圖書館學刊 (輔大)》,31期(民91年6月),頁74-85。 邱子恆,〈影像資料之資訊檢索〉,《美國資訊科學與技術學會臺北學生分會會訊》,14期(民90年11月),頁1-20。 吳哲帆,梁朝雲,〈影像資料檢索方法之探討〉,《教育資料與圖書館學》,33卷1期(民84年9月),頁79-91。 李振賢,〈檔案的檢索與參考服務〉,《百齡高中學報》,1期(民90年11月),頁215-234。 陳芷瑛,〈中文報紙檢索的技巧〉,《國立中央大學圖書館通訊》,33期(民90年12月),頁16-19。 黃國正,〈國內報紙資源的蒐尋方法〉,《臺北市立圖書館館訊》,15卷2期(民86年12月),頁84-90。 曾元顯,〈音樂內容查詢不匹配問題與檢索模式之研究〉,《資訊傳播與圖書館學》,6卷4期(民89年6月),頁35-48。 杜正民,〈如來藏學研究小史--如來藏學書目簡介與導讀 (上)〉,《佛教圖書館館訊》,10/11期(民86年9月),頁32-52。 鍾景慧,〈專利文獻之檢索與應用〉,《智慧財產權管理》,10期(民85年7月),頁18-21。 林聖富,〈專利資訊和專利檢索〉,《智慧財產權管理》,10期(民85年7月),頁15-17。 □資料庫/網路資源介紹
楊士央,〈網際網路的檢索工具〉,《康寧雜誌》,16期(民91年6月),頁15-21。 藍素華,〈網際網路資訊瀏覽與搜尋服務之初探〉,《美國資訊科學學會臺北學生分會會訊》,12期(民88年10月),頁93-111。 蘇嘉琛,〈網際網路檢索研究方法之初探--以美國現行對朝鮮半島的國家安全戰略為例〉,《國防雜誌》,19卷1期(民93年1月),頁31-40。 蔡佳霖,吳政叡,〈Google網頁排序能力和回覆款目品質探討:以檢索失誤率為例〉,《書藝》,38期(民91年5月),頁40-54。 陳秀美,〈WWW檢索工具的選擇與比較〉,《資訊傳播與圖書館學》,2卷4期(民85年6月),頁41-63。 林皇興,〈全國檔案電子目錄檢索與應用〉,《檔案季刊》,1卷2期(民91年6月),頁70-80。 葉美珠,〈國史館史料檔案檢索工具之現況與建議〉,《國史館館刊》,32期(民91年6月),頁164-186。 葉美珠,〈檔案檢索工具之編製初探--以國史館為例〉,《檔案與微縮》,62期(民90年秋),頁7-21。 蕭開元,〈現有文史資料庫選介〉,《國文天地》,18卷3期=207期(民91年8月),頁25-30。 周海文,〈CBGrep資料搜尋工具的介紹〉,《佛教圖書館館訊》,24期(民89年12月),頁23-30。 郭美玲,〈MathSciNet解析--檢索數學相關文獻的利器〉,《臺灣大學工學院圖書分館館訊》,14期(民85年7月),頁7-12。 施郁芬,〈巴利佛典的檢索與利用:以內觀研究所的南傳大藏經為例〉,《佛教圖書館館訊》,18/19期(民88年9月),頁27-31。 釋自衍,〈「藏經目錄整合查詢系統」之概介〉,《佛教圖書館館訊》,29期(民91年3月),頁48-51。 釋自衍,〈心經索引典在佛教文獻檢索上的應用〉,《佛教圖書館館訊》,32期(民91年12月),頁55-64。 張嘉彬,〈古文書檢索系統功能之研究:以臺大電子圖書館與博物館系統為例〉,《圖書與資訊學刊》,42期(民91年8月),頁41-57。 歐陽崇榮,王宏德,〈全國博碩士論文摘要檢索系統簡介〉,《國家圖書館館訊》,87卷4期=78期(民87年11月),頁3-6。 江美慧,〈線上資料庫的利用與檢索:以國立中央圖書館臺灣分館「臺灣文獻期刊論文索引」為例〉,《國立中央圖書館臺灣分館館刊》,9卷4期(民92年12月),頁61-66。 毛昨非,傅朗雲,〈檢索中國古今地情的工具打開方志文獻寶庫的鎖匙--評介<(舊、新兩部)中國地方志總目提要>〉,《圖書與資訊學刊》,41期(民91年5月),頁107-108。
|