佛教圖書館館訊 第二十五/二十六期 90年6月 電子資源的長久保存國立臺灣師範大學社教系副教授、國家圖書館輔導組兼閱覽組主任 陳昭珍【摘要】:圖書館是人類重要的知識典藏機構,典藏知識的任務在古代雖然因印刷技術、資訊載體的限制、以及天災人禍等因素,而不易達成,但由於傳統的資訊媒體--紙張--之性質較為穩定,所以我們至今仍可看到二千多年前的文獻。數位資訊易於傳播、複製及再利用,使得知識的進步一日千里,然而,數位媒體不易保存,也使得人類的知識記憶機制受到嚴重的挑戰。本文主要之目的,乃在說明數位資料不易保存的原因、介紹歐美各國有關電子資源長久保存的研究及策略,以提供國內數位典藏相關單位之參考。 關鍵詞:電子資源(Electronic Resources);長久保存(Long-term Preservation);數位典藏(Digital Archiving);數位資源(Digital Resources);詮釋資料(Metadata) 一、電子資源長久保存的重要性 典藏知識的能力,是人類文明發展的基礎。在古代雖然因印刷技術、資訊載體的限制,以及歷代天災人禍不斷發生等因素,而不易完整典藏人類的知識,但由於傳統主要的資訊媒體--紙張--之性質較為穩定,所以我們今天仍能倖存唐宋之遙的文獻資訊。而在網路時代,數位資訊已漸漸成為出版新寵,根據1993年美國人口統計局的調查,當時已有43%的工作者使用電腦,而今幾乎所有的文字著作都是靠電腦完成,此外,連影像、聲音、視訊資料都是數位資料,人類的記憶,已經都化為0與1的符號了。而各大出版社更是積極的往電子出版進行,如Springer-Verlag、Elsevier Science、John Wiley & Son在這方面的努力有目共睹。 數位資訊易於傳播、複製及再利用,使得知識的進步一日千里,然而,數位媒體不易保存,也使得人類的知識記憶機制受到嚴重的挑戰。1960年代美國的人口調查資料,因為軟體的改變,差一點無法保存下來;1964年麻省理工學院及卡內基美農大學的第一封電子郵件,因系統的改變並未保存下來;1970年代,比利時的人造衛星觀測資料,特別是有關亞馬遜河變遷的資料也已遺失。相同的,1960年代紐約州商務部與康乃爾大學合作進行的土地利用與自然資源調查計畫(Land Use and Natural Resources Inventory Project, LUNR)資料,也已流失。(註1)此外,在很多文獻中都提到很多數位資料無法保存下來的例子,如1990年美國國會眾議院的報告,1997年在電影「前進未來」(Into the Future)記錄片中提到的例子等。(註2) 知識的追求是新知識出現與舊知識重構之過程,若不能一致及可靠的存取人類過去及現在的資訊資源,知識不可能進步。所以儲存人類重要的知識以保證知識可以永久的被使用,是圖書館無可旁貸的責任,而在數位環境中,這個責任可能更為艱辛。 二、電子資源不易長久保存的原因 電子資源的長久典藏課題在國外又稱為「數位典藏」(digital archiving),意指長期的儲存、保存及取用原生的數位資料或將原始資料數位化後的資料。這和目前國科會在推動的國家數位典藏計畫在目標上並不完全一致,但國家數位典藏計畫實應考慮數位資料長久保存的問題。 數位資料不易長久保存的最大原因,乃在於資訊科技典範的轉移。所謂典範轉移是指某學科理論及作法產生結構性(基礎性)之重大改變,例如資料庫的設計從網路式資料庫、階層式資料庫轉移到到關聯式資料庫或物件導向資料庫,這種轉移往往需要重新設計整個資料庫,以便轉移到新的典範。(註3)而在資訊科技領域中,典範會改變的,包括軟硬體、網路架構等各種層面,且轉移的速度相當快;除了典範的轉移會造成大變動外,軟體系統的發展通常以三至五年為一個週期,在新理念、新技術一點一滴的突破下,迫使典藏單位或一般使用者必須經常去「更新refreshing」媒體,或「轉移migration」系統。 此外,數位媒體的壽命比起其他媒體而言,更屬易碎易損易變質的媒體,根據推測,磁片的壽命為五至十年,光碟的壽命則從十至一百年不等,但是由於讀寫技術或處理倍數的改變,事實上可以取用存在光碟中資料之壽命,可能更短。 除了軟體、儲存媒體不易長久保存外,呈現介面也是電子資源的一部份,不同的呈現及查詢介面,都代表著對資料結構化的處理,表現資料庫內容的不同觀點,所以如果原來的觀點不能再建構,也就失去了對資料原來的組織觀點。 綜合言之,數位典藏不易的原因主要在於: (一)電子媒體的損壞或無用 前面曾經提過,電子媒體極易損壞,即使是壽命較長的光碟,也大概只有十至一百年的壽命,再加上軟硬體的生命週期頂多也只有三年到五年,原來的材料、設備、軟體、趨動程式等就從市場消失,而造成數位資料的無用。所以,一般而言,系統或資料管理者都已有共識,就是要做媒體的更新(稱為refreshed),以及要在技術不見之前要做資料的轉移(migrated)。問題是無論媒體的更新或資料的轉移都是相當費力、費錢的事,當資料量少的時候還無所謂,如果數位資料已成為知識主要的儲存形式,這種金錢與人力的負擔恐非所有的單位都能負荷。此外,技術的轉移往往無法事先預測,使得我們很難在技術轉移前就做好資料轉移的動作。而即使數位資料轉移過去了,原來的metadata是否也能無誤的轉過去,並正確的結合在一起,都嚴重的挑戰著我們。 (二)電子文獻無法獨立存在,必須與軟體結合在一起 數位資料之所以「存在」是因為有軟體可以去存取及顯示,二者唇齒相依。而最能讀取、解釋及顯示數位資料的當然是原始程式。然而這些程式的可用性又和儲存媒體及媒體讀取程式有關。所以,從典藏的角度而言,誰也不知道該如何用過時的原始程式去讀取未來的媒體,或用未來的軟體去讀過時的媒體。 三、電子資源保存相關計畫與作法 在國外,有關電子資源長久保存的計畫或研究相當多,所提出來的建議也五花八門。不過,大體而言,可以分成:從保存數位資料及相關描述資料的角度入手者;有從數位資料的生命週期來看數位典藏之問題者;有從國家資料保存政策進行者。以下將分別說明舉例之: (一)加州聖地牙哥高速電腦中心的數位典藏計畫 美國加州聖地牙哥高速電腦中心整合了高速電腦中心的檔案儲存技術(archive storage technology)、電腦界的資料分子技術(data grid technology)、數位圖書館領域的資訊模式(information models)以及檔案界的保存模式(preservation models)進行了「藏品數位保存計畫」“Collection-based Persistent Digital Archives”計畫。(註4)其目標,乃希望藉此研究與實驗能將電子資源至少保存400年。 聖地牙哥高速電腦中心認為, 電子資源的保存,事實上應包括三個層次的內涵: 1. 數位物件表達(digital object representation) 數位物件是原生物件的替代品,或本身就是原生數位物件。數位物件表達除了該資料本身外,通常還包括該資料相關之屬性,如其結構、檔案格式與大小、出處等資料。 2. 藏品資料描述(data collection representation) 詮釋資料乃用來描述藏品本身,通常這也可能是數位資料的一部份。除了描述資料外,為了便於關聯式問句的查詢,還需要建立各種索引。 3. 呈現介面(presentation representation) 呈現是表達組織藏品的一種方式,也是對不同族群的使用者提供不同之使用介面。 為了能保存上述三種資源,聖地牙哥高速電腦中心所用的技術包括: 1. 以共通的資訊模式來表達與數位物件、藏品組織及呈現介面相關之屬性,而其所用的是可以半結構化的資料模式XML/DTD。 2. IBM的檔案儲存系統--IBM High Performance Storage System (HPSS) 3. 物件關聯式資料庫--Oracle 7.3 4. 藏品管理軟體--Meta-data Catalog 5. Collection instantiation software--採用聖地牙哥高速電腦中心的Scripts 6. Collection ingestion software--採用聖地牙哥高速電腦中心的Scripts 7. 關聯式資料模式 ANSI SQL Data Definition Language 8. DTD處理軟體--UCSD XML Matching and Structuring Language 9. Web 伺服器--Apache Web Server 10. 呈現系統--IE5.0 (二)英國藝術與人文資料服務的數位典藏綱要 由英國藝術與人文資料服務(Arts and Humanities Data Service, AHDS)結合相關機構所進行的數位典藏研究,從數位資訊生命週期的觀點提出數位典藏綱要(Guidelines for Digital Preservation : Draft Data Policy Framework)。所謂數位資料的生命週期乃指從數位資料的創作、編輯、描述與索引、傳布、徵集、使用、註解、修訂、再創造、修改、一直到永久保存或遭毀損等一生。AHDS認為,數位資料的保存必須從其生命週期來看,換言之,在資料的各個生命階段都要考慮其長久保存的問題,而不是到最後階段再考慮。該綱要的內容主要如下: 1. 資料建立(data creation) 資料的建立包括設計及實作階段,更詳細而言,包括經費取得、研究及計畫設計,資訊系統設計、軟體工具的選擇或發展等階段,直到資料真的被創造出來。而就技術而言,數位資料的建立也可以分為:原來就是數位資料及由傳統媒體轉換而來的數位資料。建立的過程是一連串的決策所組成,如成本效益、內容、結構、格式、壓縮、編碼、資訊描述的層次與性質、著作權及其他法律與經濟問題等的決定。資料如何被建立,也直接影響到它如何被利用與被管理。 此外,一份資料的建立往往牽涉到不同領域的人,給錢的機構、出版者、軟體發展者、學科專家、以及保管者。 2. 資料的徵集(data acquisition) 資料徵集包括館藏發展、永久典藏之資料的選擇、資料評估等決策。那些數位資料被徵集進來,將影響後續相關的編目、管理、使用及保存等問題。 3. 資料管理 資料建立了以後,接著就要有機構負責管理與典藏。資料或館藏的管理與典藏,簡單而言,可以分成兩個部份:a. 短期的管理與保存;b. 長期的管理與保存。資料管理牽涉到的問題包括下列五項: (1) 資料結構、格式、壓縮及編碼。 (2) 資料記錄(data documentation):這方面的資訊主要在記錄資源之結構、內容、出處、及歷史等資料。它會影響到資料如何被查得、管理及使用,最終也可能影響到資料的徵集決策。 (3) 資料儲存(data storage):資料儲存問題包括資料要部份或全部以分散或集中的方式來儲存、技術方面包括儲存的媒體及平台的選用。 (4) 資料保存(data preservation): 資料保存是一系列的策略與程序,這些策略或程序包括: a. 轉移策略(Migration) b. 技術保存(Technology preservation):與資料相關之軟硬體 c. 模擬(Emulation):將資源相關之行為(behavior)模擬到下一代的軟硬體上 (5) 維持資料之整體性的相關決定:這些決定包括資料完整性、功能、一致性等的定期評估(periodic assessment)、資料的複製,定期將資料由較舊的媒體更新(refresh)到新媒體上。 5. 資料使用 資料建立之後馬上會被使用,也可能在往後的保存期間被使用。在資料建立期間及管理典藏期間的所有決策,都會影響到資訊的使用,而資料如何被使用者傳遞及使用也會影響到資料的建立與徵集、合作、分享、交換、法律、經濟、儲存、以及取用的軟硬體等問題。 6. 智慧財產權管理及法律問題 在數位資料生命週期的每一個階段中,都需要考慮到智慧財產權及相關的法律問題。 (三)圖書館的館藏發展政策 訂定數位資訊的館藏發展政策,已成為圖書館的重要任務,網路上可以找到的範例也相當多,其中有從聯盟的角度來訂的政策,如CIC的十所大學、加州九所州立大學所訂的政策,以及個別圖書館所訂的政策,如University of Iowa Libraries、Frederic L. Ehrman Medical Library, NYU、Ohio State University Health Science Library、Ontario Library、Stanford University Library。而在眾多圖書館之中,尤以國家圖書館的政策最為重要,因為國家圖書館負有典藏一國出版文獻以流傳後代子孫之責,所以像Library of Congress 、National Library of Australia等都有數位典藏政策,其中尤以澳洲國家圖書館在這方面的研究或資料的收集最為豐富。 在館藏發展政策中,一般而言對於數位資料的敘述都較為簡單,以原則性為主,如史丹福的SunSite Collection and Preservation Policy,就提到傳統的收藏政策,可將資料的收藏層次分為:(註5) –完整層級Comprehensive –研究層級Research –學習層級Study –基本層級Basic –最少層級Minimal 而針對Digital Collection的收藏而言,則另分為下列四種層級: –典藏級Archived : online, near-line, off-line –服務級Served –鏡錄級Mirrored –連結級Linked 澳洲國家圖書館則以國家圖書館的角度訂定一系列的政策做為處理數位資訊的依據,為了讓國內同道對這些議題有完整之概念,茲將這些政策詳細說明如下: 1. 館藏發展政策(Collection Development Policy):3, 澳洲印刷及電子資料(3, Australian Printed and Electronic Materials)(註6) 2. 澳洲數位物件的典藏及長久存取原則聲明(Statement of Principles for the Preservation of and Long-Term Access to Australian Digital Objects)(註7) 在這份聲明中,簡單的說明在電子環境中,若要確保資訊可以被持續的取用,必須注意下列幾點原則: (1) 合作:持續存取數位物件有賴於資訊建立者、資訊系統設計者、廠商、出版者/經銷者及資訊管理者與提供者的合作。 (2) 資訊建立者的角色:數位物件的建立者必須主動的促使資料可以被典藏及取用。 (3) 分散式的模式:數位物件的選擇、編目、維護及典藏地應以經過協調的分散模式進行。 (4) 評估:只有經過評估,確定有永久保存價值及重要的數位物件,才要典藏。 (5) 權利:創作者、擁有者、提供者、使用者的權利必須平衡並受到保護,典藏之數位物件的主題也應平衡。 (6) 策略:數位物件的典藏須考慮整合性及功能性,採用標準的metadata,以確保資訊的存取,留意目前的實作現況並進行持續性的研究。 (7) 政府的角色:聯邦及州政府應訂定相關之法規、政策。 3. 澳洲國家圖書館典藏澳洲線上出版品之選擇指南(Guidelines for the Selection of Online Australian Publications Intended for Preservation by the National Library of Australia)(註8) 澳洲國家圖書館對於澳洲的印刷資訊,採取完整典藏的策略,然而線上出版與印刷出版機制不同,Internet 並無過濾資訊的機制,所用的標準也與印刷資訊大為不同,所以需要選擇。 4. 澳洲電子出版品取用之策略(National Strategy for Provision of Access to Australian Electronic Publications : A National Library of Australia Position Paper)(註9) 這份文件是澳洲國家圖書館為了使澳洲的電子出版品得以保存下來,並為民眾所取用,所擬定的一份國家策略。所謂的電子出版品,就形體而言,包括兩類:一種是有實體的電子出版品,如以磁片、磁帶、光碟形式發行者;另一種是儲存在主機透過網路查詢的資料。整份文件中所探討到的問題,也就是要確保電子出版品可以被取用所牽涉到的問題,包括:(1) 保證澳洲電子出版品可永久存取概論,(2) 電子資訊的法定寄存,(3) 館藏發展,(4) 取用、著作權及合理處理(Fair dealing),(5) 電子資訊的組織。除了說明所牽涉之問題外,並提出15點建議,這些建議如下: (1) 建立一個結合圖書館界、檔案界、製作者及創作者的合作機制; (2) 通過立法在國家及地方層級建立電子資源法定寄存機制,以確保國家文化遺產得以保存; (3) 授與法定寄存圖書館複製電子出版品的權利,以確保資料長久的保存及使用; (4) 關心電子資源典藏的圖書館及相關機構,應連結創作與出版所有相關者,以緊密的關係創造共同的利益; (5) 目前負責法定寄存圖書館必須有此認知,即若要保存完整的內容,應將出版社及其他圖書館包括在內; (6) 負責長久典藏的圖書館,應該準備並出版館藏發展政策,該政策中應提及電子資料的分散典藏政策; (7) 負責長久典藏的圖書館應一起討論典藏資料之類型、性質及選擇的方法; (8) 負責典藏的圖書館應與出版社及創作者一起討論,並建立短期及長期之資料存取滿意層次; (9) 國家圖書館應繼續與ACLIS一起研究大眾取用電子資源的合理處理原則; (10) 複製權應由印刷環境延伸至電子資源環境,並在著作權擁有者與資料使用者間取得平衡; (11) 為保存資料而複製的權利,也應由印刷環境延伸至電子環境; (12) 除非其他的標準已建立並被接受,否則澳洲國家圖書館的書目控制仍將以AACR2及既有的網路資源控制原則為準; (13) 澳洲國家圖書館應建立電子資源合作編目計畫; (14) 圖書館應和電子資源的製作者一起發展及評估採用新標準建立 metadata的方法; (15) 澳洲圖書館應主動參與國家及國際級有關電子資源蒐尋及檢索之研究計畫。 5. 實體數位出版品之管理與典藏(Management and Preservation of Physical - Format Digital Publications)(註10) (四)數位資訊長久保存技術 數位典藏的問題在國外已引起普遍的關心,有很多計畫在進行,也有幾個辦法被提出,但至今仍無徹底解決之法。這些被提出來的辦法包括: 1. 印成紙本儲存 有些專家認為印成紙本是最原始的方法、也是最可靠的方法,只不過所有數位化的特性與功能都會不見,但可保證資料的保存。 2. 採用標準 數位化的標準牽涉甚多,撇開網路大環境不說,影響到資料本身的建立與應用者即包括:資料庫、字碼標準、metadata、數位化格式、檢索等等。其中任何一項問題都相當專業且複雜,並不容易處理,更何況在技術單位與典藏單位之間,有關標準的共識並不易達成,就技術人員而言,希望大家都採用他做的東西,使之成為應用標準,在誰也不服誰的情況下,標準的產生本來就不容易,而且被推翻的速度更快。 3. 建立電腦博物館,儲存所有的軟硬體 如果要避開典範轉移的苦惱,最好的辦法是舊的東西可以繼續用。當然要大家保留舊的軟硬體是不可行的,所以最好有專責單位來保存,使得各種媒體都能找到相關的軟硬體來讀取。只是到底這個博物館要由誰來建立、如何建立、要保留哪些技術與設備、功能與任務如何,都需要再進一步探討。 4. 資料轉移(migration) 轉移(migration)和更新(refresh)的差別在於前者乃包括資料格式、結構或標準的轉換,而後者只指媒體的更新。二者都需要相當的經費、時間。此外,之所以需要轉移,主要是由於新典範的出現、或軟硬體的改變。而這通常需能未雨綢繆,知道何時該轉移,且在整個技術不見之前先做轉移,否則轉移所需的成本將不只加倍。問題是新技術何時出現、舊技術何時無用,往往難以預測。 5. 模擬(Emulation) 所謂的模擬是指能在未來、未知的系統上模擬舊系統,使得數位文獻的原始程式能在未來運作。Jeff Rothenberg認為這牽涉到三種技術的發展:(註11) (1) 為特定的模擬器發展通用技術,使之能在未來的電腦上運作,且可抓取所有必要的屬性以重建目前及未來數位文獻之行為(behavior)。 (2) 發展儲存metadata的技術,此metadata是用來找尋、存取及重建數位文獻,且是以人類可讀的格式(human-readable form)呈現。 (3) 發展壓縮文獻及其附隨的 metadata、程式、模擬器規範等之壓縮技術。 而所要壓縮保存的資訊包括三種: (1) 文獻及其軟體環境(document and its software environment) (2) 模擬原始計算平台的規範,此規範需提供足夠的資訊來建立模擬器。 (3) 說明資料(explanatory material)、標籤資訊(labeling information)、註解(annotations)、詮釋資料(metadata)、系統文件等。 (五)為典藏而設計的詮釋資料 標準的詮釋資料格式,是資料長久保存的重要課題,所以相關的詮釋資料格式不斷被發展出來,這些多樣化的詮釋資料格式,除了為描述不同屬性的資源而發展外,對於數位資源的管理及典藏尤其重要,如RLG曾在1997年五月成立Working Group on the Preservation Issues of Metadata,並提出16個數位資源被持續使用及保存而必須描述的屬性為: 1. Date 2. Transcriber 3. Producer 4. Capture Device 5. Capture Details 6. Change History 7. Validation key 8. Encryption 9. Watermark 10. Resolution 11. Compression 12. Source 13. Color 14. Color Management 15. Color Bar / Gray Scale Bar 16. Control Targets 此外,在眾多的metadata中,已被普遍採用的為Dublin Core。而為了提供政府及商業機構共通的架構及語彙以存取數位資料,ISO訂定了開放存檔資訊系統參考模式(Reference Model for an Open Archival Information System [OAIS])。(註12) 六、結語 資訊科技的改變,造成社會結構性的改變。數位資料的發展,也將造成圖書館在典藏與服務上的改變。改變並不可怕,比較擔心的是人的觀念與想法不變。而在數位化的衝擊下,我們要做的改變眼界要比較大,如很多圖書館是以聯盟的角度來思考,因此必須放眼大環境的需要;技術上要下的功夫比較深,如對各種數位媒體的瞭解、對數位圖書館、對資訊搜尋(information discovery)技術、對資訊典範、對政策及對相關標準的瞭解等。而訂定政策以取得共識是瞭解這些問題的開始。未來的數位服務與典藏政策除了應有本館的政策外,也應有聯盟的政策,甚至國家整體政策,希望國內各界能趕快思考這個問題,使人類的重要知識得以長久保存。【附註】
相關計劃參考網站Australian Archives : Managing Electronic Records Commission on Preservation and Access (US) Digital Library Federation (US) DLM-FORUM Electronic Records European Preservation Information Centre (EPIC) International Council of Archives Committee on Electronic Records Inter-university Consortium for Political and Social Research
(ICPSR, US) International Federation of Library Associations
(IFLA) International Standards Organization (ISO), Open Archival Information
(OAIS) Standard Internet Archive (US) Library of Congress (US) National Archives and Records Administration, Center for Electronic Records (US) National Library of Australia National Library of Canada Electronic Publications Pilot Project Natural Environment Research Council Preserving Access to Digital Information (PADI, Australia) Public Record Office (PRO, UK) Research Libraries Group (RLG, US) Time and Bits Universal Preservation Format (UPF, US) |