佛教圖書館館訊 第五期 85年 3月
淺談索引典
農業科學資料服務中心資訊服務組組長 黃惠株
一.索引典簡介
目前圖書館所用的分類法大多是依據學科體系和類屬關係排列類目,其主要功能是組織分類目錄和排列圖書,將同一學科或同一類的資料集中展示,但無法適切的處理多(跨)學科或主題的資料;索引典則是以各種概念名稱當作主題詞,以概念與概念之間的關係建立詞間架構,不依學科或類目編排,可依特定的主題查詢,但不具圖書排架的功能。以「蓮」為例,在分類表中只能有一個分類號;但在索引典中卻能同時分屬於三個分面(facet),在植物學觀點是一種生長於熱帶的水生植物,園藝學觀點是一種觀賞作物,而佛教觀點則是清淨的象徵。
索引典的英文同義字是「Thesaurus」,其希臘與拉丁的字源本義為「寶典」( A treasury),而現今我們所熟悉的索引典則是50年代至60年代逐漸發展的一種受控的標引及檢索語言。
(一)索引典的定義(註1)
1. 國際標準組織(ISO 2788)
一種受控標引語言詞彙,從編製形式上明確顯示概念間的先顯關係(如:廣義和狹義關係)。
2. 美國國家標準(ANSI Z39.19-1980)
索引典就是將詞與詞組依照同義關係、層級關係及其他關係與附註規定編輯起來,其功能是提供一部標準化的詞彙,供資訊貯存與檢索之用。
3. 聯合國科教文組織全球科技資訊系統(UNISIST, UNESCO)
索引典可以其功能或結構定義之。就功能而言,索引典是一種控制詞彙的工具,其用途是將文獻、標引人員或系統使用者所用的自然語言,轉譯成更為規範的「系統語言」(文獻工作語言,資訊語言)。就結構而言,索引典是一部含有特定知識領域的詞彙,詞彙間有語義或從屬上的關係,且詞彙是控制的、動態的。
(二)索引典的目的(註2)
1. 在特定的知識領域,提供概念之間的關係指引,幫助標引人員(indexer)及檢索
人員(searcher)了解該學科的知識架構。使用者並可藉著詞間關係,由已了解的
知識概念來了解新概念的涵義。
2. 在特定的知識領域,提供標引人員一套標準化詞彙,確保資料標引的一致性。
3. 為了確保資料處理的一致性,索引典為一概念一詞,而其他同義詞則以用代關係指
引。
4. 詞與詞之間有明確的詞間關係存在,這些關係能區分各詞在語義網架構中的功能
,可作為使用者選擇正確詞彙的指引。
5. 當查出的資料太多或太少時,索引典的層級結構可幫助使用者擴大或縮小檢索主
題的詞彙範圍。
6. 最好能成為該學科的標準用語。
(三)索引典的功能
不論是標引人員分析資料或檢索人員查找資料,他們都是先分析出主題概念,找出主題詞,而索引典則幫助他們將主題詞由自然語言轉為系統語言,因此索引典就是建立一套使用者(包括標引人員、檢索人員、讀者)彼此了解可藉以溝通的系統語言,為資訊的儲存與檢索提供標準化的語彙,以確保對同一主題,分析及檢索資料時所用的語彙一致。
D.Soergel則認為索引典的概念結構(conceptual structure)在標引及檢索時能將主題概念表現的恰到好處,而索引典將同義詞聚集亦有詞彙控制(terminological control)的功能。(註3)
二.索引典編製
索引典編製的基本程序為(一)準備工作,(二)詞彙蒐集,(三)定詞,(四)建立詞間關係,(五)編排與展示,(六)測試與修正,(七)維護與更新。
(一)準備工作
1. 學科範圍確定:該系統包含的學科範圍為何,那些為核心學科,那些為邊緣學科,
各學科彼此間的關係等需事先考慮清楚。
2. 資料量及類型:圖書居多或資料量少的系統,需要的詞少且多為概念寬泛之詞;反
之,若以連續性刊物或單本為主的系統,則需概念詳細且詞量多的索引典。
3. 詳盡性(exhaustivity)與專指度(speci-ficity):設計該系統所預期的標引之詳盡性
與專指度的高低亦影響詞彙量的多寡。
4. 作業表格內容設計:製作單位依系統要求設計作業表格,目前農資中心的作業表格
包括:資訊庫編號、中文描述詞、英文描述詞、中文同義詞、英文同義詞、族首詞
、上位詞、下位詞、聯想詞、分類、定義、適用範圍、沿革、注音、筆畫、語法、
備註、撰寫員/日期、審核員/日期等19項。
(二)詞彙蒐集
一般常用的方法有經驗法(empirical approach)與小組匯編法(committee approach)兩種,前者是蒐集該學科的百科全書、字(辭)典、刊物及其他權威性出版品,將出現的詞記錄於作業表格,而後再進行屬性劃分。匯編法則是聚集一群學科專家,進行腦力激盪,列出相關詞彙,確定族首詞(top term),再行分族編排。經驗法亦稱"石筍式法"(stalagmitic),匯編法稱為"鐘乳石法"(stalactitic)(註4)。布朗(Roger Brown)的研究顯示,人類習慣於使用「較短、使用較頻繁、且具有區別作用」的基層範疇(basic-level categories)(註5)詞,而每一學科
都有代表該學科核心概念的基本詞彙,因此選詞時不可遺漏這兩種基本詞彙。再則由於索引典的詞彙已獨立於上下文之外,所以要選概念明確的詞彙,不要選易產生誤解的詞。
(三)定詞
定詞程序有二:
1. 按字面排列,將重複詞的所有資料合併於一張卡片,刪除字面重複的詞;但同形異
義詞要保留並需以限定語加以說明。
2. 採用組面分析方法,將同一概念的詞聚在一起,選出一個常用或正式用法的詞當作
選用詞(preferred term),亦稱描述語(descriptor),其他同義詞或類同義詞則當
非選用詞(non-preferred term),亦稱非描述語(non-descriptor),以此法消除概
念重複的詞,完成定詞工作。此步驟即是建立等同關係。
因為限定語(qualifiers)及範圍注釋及定義(scope notes and definitions)在本程序即有加入的可能,因而在此說明。
限定語是為了區別同形異義詞而設,一般以括號或不同字體區分,限定語是主題詞的一部分,故並列於詞後。如「無心」是佛教語,但明代有位臨濟宗的僧人其法號亦為「無心」,因此在索引典中的格式是「無心(佛教語)」及「無心(明代僧)」,另外法號「慧明」的高僧,歷代有之,此時亦需以限定語分別其異,如「慧明(明;1318-1386)」、「慧明(清;1859-1930)」。
範圍注釋與定義不是主題詞的構成部分,只是指明在特定索引語言中詞的用法,並非所有的詞都需要範圍注釋,因為由索引典之概念體系及詞間結構,已可明瞭一個詞的具體涵義。如果一個詞在索引典的規定用法與平常用法完全不同,或不同的詞典有不同的定義者,則範圍注釋需將該詞的定義解釋清楚。
如:正法明如來
SN:古佛名,其在娑婆世界的應化 身為觀世音菩薩。
貝葉經
SN:此處指仿貝葉典籍裝訂法之書冊。
無心(佛教語)
SN:指離妄念之心。
除了上述內容外,範圍注釋還可記錄(1)收入該詞或範圍重新定義的日期,(2)詞彙出處,尤其是代表新概念的詞的來源,(3)用法說明,如該系統語言,允不允許該詞作某種組配等。(註6)
(四)建立詞間關係
詞間關係包括等同(equivalence)、層級(hierarchical)和聯想(associative)三種關係。
1. 等同關係
又稱用代關係,參照符號是「USE」及「UF」。凡具有這類關係的詞,彼此在概念/用法上是相同或視為相同,包括同義(指意義完全相同,可互相取代的詞,如「觀音」與「觀世音菩薩」)、準同義(指意義相近,如「般若」與「智慧」;或意義不同但為了標引目的視為同義的詞,如「面然大士」與「觀音菩薩」)和組代關係(標引時以數詞組合代表另一概念,如「增劫」+「減劫」=「小劫」)三種。為了保證一概念對應一詞的原則,必須選擇其中之一作為描述詞,而其餘的作為非描述詞。描述詞在索引典中具有"法定"地位,可用於標引和檢索,而非描述詞僅僅是作為
標引和檢索的入口詞(lead-in term)。
2. 層級關係
又稱屬分、上下或等級關係,參照符號是「BT」及「NT」。凡具有這類關係的詞,彼此是上位與下位概念的關係,相當於分類表中相鄰的上位類與下位類。包括屬種(genus-species),集元(set-element)、整部(whole-part)及多層級(polyhierarchical)四種關係。
屬性相同(即屬同一範疇)的詞才能構成層級關係,ISO-2788提出三種判斷公式:
(1)屬種關係:說明普遍概念(類稱詞)與特殊概念(專指詞)之間的關係。判斷
公式是,自上而下為"一些……是……",自下而上為"所有……全都是……"。
如"一些(鳥類)是(鸚鵡)","所有(鸚鵡)全都是(鳥類)"。
(2)整部關係:說明整體概念與部分概念之間的關係。判斷公式是,自上而下為"…
的一部分是……",自下而上為"……是……的一部分"。如"(台灣)的一部分
是(台北)","(台北)是(台灣)的一部分"。這一公式適用於下列類型:生
物體的系統與器官(循環系統與心臟);地理位置(亞洲與日本);學科及其分
支(佛學與禪學);社會結構等級(陸軍與師),至於專業索引典亦可以此規則
,組織該學科的整部關係,如有關渦輪機工程的索引典的「葉片」與「壓縮器
」。
(3)集元關係:ISO-2788稱例舉型關係(instance relationship),表示集合概念與其所
含單獨概念之間的關係。判斷公式是,自上而下為"有的……是……",自下而
上為"……一定是……"。如"有的(河流)是(長江、黃河…)","(長江、黃河 …
)一定是(河流)"。
3. 聯想關係
又稱親緣、類緣或相關關係,參照符號是「RT」。是指兩個描述詞之間雖無等同或層級關係,但從標引或檢索角度而言,有相互參照,提醒使用者有另一詞存在的關係。
ISO-2788為避免聯想關係的認定太過主觀武斷,依範疇屬性提出兩參考原則。
(1)同一範疇:屬性涵義有部分重疊但非同義的詞可互為「RT」。如「ships」和
「boats」、「休閒」與「娛樂」、「正報」與「依報」。
(2)不同範疇:兩詞雖分屬不同的概念體系,但彼此間卻有強烈的提示關係。如學
科及對象(林學和森林)、過程與工具(數據處理與計算機系統)、行為與結
果或受體(織布與布、監禁與囚犯)、概念與性質(毒物與毒性、知覺與敏銳)
、概念與來源(禪宗與拈花微笑)、原因與結果(業力與業報)、事物與對立
物(天龍八部中的龍與大鵬鳥)、概念與計量單位(電流強度與安培)、同原
異疇詞(模型船與船)等。另外如「禪宗」與「菩提達摩」、「文殊菩薩」與
「寒山」、「六字大明咒」與「觀音菩薩」亦可建立聯想關係。
(五)編排與展示
索引典的基本展示有字順、分類與圖形三種。
1. 字順:拼音語系依字母序或字序排列所有的主題詞;表意文字如漢語,可用「四角
號碼」、「注音符號」、「羅馬拼音」或「其他拼音」排列,若首字同音可配合筆
劃區分排列次序。詞群的基本編排格式如下:
主題詞
注釋或定義(SN)
同義詞(用:USE;代:UF)
廣義詞(BT)
狹義詞(NT)
聯想詞(RT)
2. 分類:除分類表外,還配合引領到分類部分的字順索引。在分類部分,每個描述詞
都有一個分類代碼,詞群結構只有主題詞、注釋或定義、同義詞及聯想詞,層級關
係則由分類碼和縮行空格表示。
3. 圖形:包括圖形與字順兩部分,圖形只有描述詞,其他詞間關係在字順部分表示,
一般分為樹形結構及箭頭關係兩種。
(六)測試與修正(註7)
1. 從最近出版的相關刊物上隨機取樣。
2. 列一雙欄平行的標引工作單,一欄列由隨機取樣文獻中取出之主題詞,另一欄則是
由主題詞轉為索引典中最貼切的描述詞。
3. 標引人員和編製人員根據2.的資料,評斷索引典的詳盡度及專指度,並依此修正。
除上述方法外,還要檢測詞群架構及詞間關係。
(七)維護與更新
索引典除了顯現知識概念結構外,並顯示詞彙之間層次及語意上的各種關係,而知識與語言都會隨時間而有所改變,所以世上沒有完美的索引典,而定期的維護更新是維持品質的不二法門。
標引及檢索人員需記錄詞彙使用頻率,利用作業表格記錄新詞彙或舊詞的詞間結構變動情形,然後定期討論,依記錄的資料增(刪)詞或修改詞間關係。
三.結論
索引典不單單是幫助資訊儲存與檢索的工具,而且是某一學科的知識概念體系的呈現;因此索引典編製人員除了要有圖書分類、索引典製作的知識外,還要具備專業學科、邏輯概念、認知心理及語言學的基本素養。
佛學經典浩瀚,編製人員雖不必是一方碩儒,但對於佛教的來源、歷史、宗派、三藏經典要有所涉獵,更重要的是對佛學的知識架構與基本概念(如「佛」、「覺者」、「菩提心」、「般若」、「業」、「輪迴」、「娑婆」、「淨土」、「慈悲喜捨」、「空」……等)必須了然於心,不可有馮京當馬涼之謬或燕書郢說的誤解。
邏輯學研究思維的形式及其規律,「思維」是人腦運用概念以作判斷和推理的工夫,而「概念」是人類反映事物本質屬性的思維方式。研究概念的種類及其特徵有助於我們清楚概念的內涵和外延,及準確地使用概念。有明確的概念才能消除主題詞的重複;利用概念劃分與概括過程中所形成的關係,可建立索引典的等級關係;兩個具有交叉關係的概念其外延重合的部分可以形成一個新概念。
語言是將思維概念表達給旁人並藉以溝通的工具,若要達到純真、至善、完美的運用化境,首先要了解語言的基本構成成分(字、詞、語、語素)的定義與彼此關係。索引典以詞為主,加上漢語是表意文字,不能由形態(如英文字尾為 -ly 表示副詞)判斷詞類,因此必須熟悉如何利用詞的內部結構(如單音詞、複音詞;單純詞、合成詞、複合詞;偏正式、並列式、主謂式、述賓式、述補式、重疊式…等)、語意內涵(如來源、本義、引申義)及語用功能(如形容詞的重疊方式、不同詞類之間的排列方式)來畫分及運用詞類。語言是生長的有機體,新詞不斷的產生,編製?
H員必須以科學的思考方法作為了解文字意義的基礎,而近代的認知科學指出感知與文化背景會影響人的思維方式,因此選主題詞時要選中性意義,儘量不要用有明顯隱喻、轉喻與內心聯想的詞,且佛經的喻義甚多,編製人員更要有語言認知的訓練,方能破文字障獲得真義,並將之顯現於外。
索引典製作者除了要有熟練的業務技能、精深的專業素養、淵博的知識涉獵、較高的語文能力及嚴謹的工作態度外,尚需有敏感(捕捉語言的脈動)、求真(尋其意義)、包容(納異見而成其大),及盡信書不如無書(不要盲從權威)的心態。
【附註】
註1:〈索引典理論與實務〉,(主辦單位:美國資訊科學學會臺北分會、農業科學
資訊服務中心、國立中央圖書館,民83),頁5。
註2:A. Kent & H. Lancour, Encyclopedia of Library and Information Science
vol. 30(1980), p.419。
註3:Dagobert Soergel, Indexing Languages and Thesauri: Construction and
Main- tenance, (Malville Publishing Co., Los Angeles, Calif., 1974), p.4。
註4:F. W. Lancaster, Vocabulary Control for Information Retrieval,
(Inform ation Resources Press,1972), p.27。
註5:George Lakoff, Women, Fire, and Dan- gerous Things What Categories
Reveal about the Mind, (The University of Chicago Press, 1990), p.14。
註6:UNESCO, UNISIST, Documentation - Gui- delines for the Establishment
and Development of Monolingual Thesaurui, ISO-2788, 1986, p.9。
註7:同註1,頁56。
【參考書目】
1.〈索引典理論與實務〉,(主辦單位:美國資訊科學學會臺北分會、農業科學資訊
服務中心、國立中央圖書館,民83),192頁。
2.〈漢語敘詞表編制規則〉,(中華人民共和國國家標準 GB13190-91,1991),
15頁。
3. 湯廷池,〈漢語詞法入門(之一)漢語詞語的分斷〉,《人文及社會學會科教學
通訊》,6卷2期,頁95-117。
4. 湯廷池,〈漢語的「字」、「詞」、「語」與「語素」〉,《漢語詞法句法三集》
,台北市:台灣學生書局,民81,1-57頁。
5. 湯廷池,〈漢語的詞類:畫分的依據與功用〉,《漢語詞法句法三集》,台北市:
台灣學生書局,民81,59-92頁。
6. UNESCO, UNISIST, Documentation - Guide- lines for the Establishment and
Develop- ment of Monolingual Thesaurui, ISO-2788, 1986, 32pp.。
7. Dagobert Soergel, Indexing Languages and Thesauri: Construction and
Maintenance, Malville Publishing Co., Los Angeles, Calif., 1974, 632pp.
[回gaya首頁]
[佛教圖書館館訊]
[館訊5期目次]