近五年內主要研究成果說明
  

1. 研究經驗與研究成果概述

         申請人近年來皆從事數位典藏之相關研究,包括報紙新聞數位典藏、XML(eXtensible Markup Language)技術探討、後設資料(Metadata)研究、資訊組織、知識管理、模糊Metadata應用、電子資料交換、電子出版等相關議題,近五年內所發表之學術論文包括期刊論文、研討會論文共計29篇(詳見附件「國科會人文處近五年(89.8.1至94.7.31)專題計畫成果出版情形表」);其中有8篇是本研究計畫自2004/3/1進行至今兩年來所發表:第一年大多著重於「新聞數位典藏的資訊組織」、「新聞Metadata分析」;第二年前半年則將研究重點放在「新聞Metadata轉換系統開發」、「OAI-PMH分散檢索系統設計」等;目前(第二年下半年)則深入探討「數位典藏內容之加值應用」,有4篇論文尚在審查中,未正式發表。

         申請人與本計畫較相關之研究經驗可追溯自1998年,當時由於體認到XML將在數位典藏、電子出版、電子商務、電子圖書館、電子資料交換、遠距教學等領域展現強大應用潛能,於是開始投入其相關領域之探討。1999年發表"XML相關技術與Web出版趨勢之研究";2000年發表"基於XML之分散式模糊知識管理系統模式",提出結合XML與Fuzzy進行精確性與模糊性知識管理之概念。接著,在2001年發表"基於XML之網際網路資料交換雛形系統設計",透過系統實作方式,以XML為基礎建構一套於網際網路上之資料交換系統;2002年起,開始將XML技術應用至電子新聞的管理上,在"基於XML之新聞管理與出版系統設計"的研究中,以XML語法進行新聞資料庫之Metadata著錄及全文標示,並設計一套新聞管理與出版系統,以提升數位新聞「智慧化」程度,進而增進檢索精確度。2003年發表"中文報業數位化技術與現況探討-聯合知識庫數位化經驗",藉由文獻探討和訪談調查等方式,對中文報業處理報紙新聞的數位化技術和現況進行瞭解,提供有關回溯報紙的數位化與管理技術供各界參考。同年,"模糊理論與標示語言在電子新聞管理系統之應用"則提出模糊後設資料(Fuzzy Metadata)之概念,結合模糊理論與全文標示兩種不同的作法,達到提升新聞檢索系統回現率與精確率之目的。

2. 參與數位典藏計畫兩年來成果與進度報告

  本計畫(網址:http://ndap.dils.tku.edu.tw,如下圖)為連續性計畫,自2004/3/1年起,預計三年完成,至今已進入第二年第三季的作業階段,既定時程皆能如期完成。合作單位為聯合報系,典藏內容為聯合報自光復以來長期篩選、整理,與台灣棒球運動相關之報紙新聞專卷檔案,包括文字、照片,以及眾多經過專業加值整理的珍貴資料。茲將計畫成果概述如下:

  (A) 棒球新聞數位化建檔工作

  • 第一年數位化建檔工作(已完成):

* 文字報導:20,000篇;

* 新聞照片:800幅。

  • 第二年數位化建檔工作(進行中):

* 文字報導約15,000篇(連同第一年20,000篇,合計35,000篇);

* 新聞照片約400幅(連同第一年800幅,合計1,200幅)。

目前第二年數位化建檔工作已完成約90%,一切按預定進度執行中。

  •  第三年預計的數位化建檔工作(新年度,申請中):

* 文字報導約15,000篇(連同前兩年35,000篇,合計50,000篇);

* 新聞照片約300幅(連同前兩年1,200幅,合計1,500幅)。

圖 1 本研究計畫網站(http://ndap.dils.tku.edu.tw


(B) 類目設計


         第一年先依報社傳統分類方式,著手規劃「棒球專卷類目表」,依不同主題、事件、人物 … 等歸納成「棒球人物」、「棒球比賽」、「棒球場地」、「職業棒球」 … 等,組成樹狀資訊結構;第二年起則進一步依據數位典藏聯合目錄特性,分析、規劃、改良此類目表,使其更精簡、更便於使用。

(C) 新聞Metadata對映分析


         初期採行NRMF(News Records Metadata Format),後來進一步針對眾多新聞專用的Metadata進行研究分析,如:NITF(News Industry Text Format)、NewsML(News Markup Language)、SportsML(Sports Markup Language)、ProgramGuideML(Program Guide Markup Language)、PRISM(Publishing Requirements for Industry Standard Metadata)、XMLNews、RSS 1.0 /RSS 2.0、XinhuaML(Xinhua Markup Language)、CNTF(Chinese News Text Format)、UdnML(UDN Markup Language)等;也探討一般泛用型的Metadata在數位化新聞的應用,如:DC(Dublin Core) 、DAC(Digital Archive Catalog)和RDF(Resource Description Framework)等;並選定數種與本計畫較相關者,進行對映分析,再以單獨或組合方式進行著錄實作。
 


(D) 數位典藏系統設計與實作


         第一年先完成全文檢索/欄位檢索、棒球類目表導覽、棒球大事新聞模組、棒球名人新聞模組、圖片檢索、多媒體展示、後台管理系統等初步功能。


         第二年則在已有的基礎上持續擴展,包含屬於前端的檢索子系統、RSS訂閱子系統以及後端管理子系統三部份:檢索子系統中包括顯示與Metadata轉換模組;後端管理子系統則可分為聯合目錄大批匯出、棒球大事記及棒球名人錄管理等模組,如下圖所示。其中,Metadata轉換模組支援國內外普遍採行的數種新聞Metadata格式,包括Dublin Core格式、數位典藏聯合目錄DAC格式、RSS格式和NITF格式等四種;而RSS訂閱子系統則為RSS格式之衍生應用,我們將它加以延伸,以「台灣棒球史上的今天」作為發佈頻道,每日更新,使用者可透過該系統提供之RSS Feed進行訂閱。後端管理子系統是為管理者與維護者所建置,用以管理新聞資源之修改、更新,及台灣棒球相關之名人錄、大事記。該系統之下規劃有三個模組:聯合目錄大批匯出模組、棒球大事記管理模組、棒球名人錄管理模組。

 


圖 2 系統架構圖


(E) 數位典藏資料匯入聯合目錄


         在聯合目錄大批匯出模組完成後,我們利用程式將資料庫中的新聞資料,自動轉出符合聯合目錄DAC格式的XML檔,再經由聯合目錄工作小組順利將XML檔匯入數位典藏聯合目錄系統中,供公眾查詢檢索(如圖 3)。目前則加緊完成基於OAI-PMH協定,與聯合目錄即時連線全自動轉匯資料的Data Provider。此部分系統開發已完成,即將進入雙方連線測試階段。

 

圖 3 XML大批匯出作業和聯合目錄匯入、查詢結果


(F) 已發表學術論文8篇

  • 第一年:

1. 林信成、鄭國祥、孫正宜,"報紙新聞專卷的數位典藏與加值利用",2004年海峽兩岸圖書資訊學暨教育發展研討會論文集,頁11~27,大連‧大連理工大學,2004/8/23 ~ 2004/8/24。

2. 林信成、孫正宜,"數位化新聞的資訊組織",2004年現代資訊組織與檢索研討會,台北‧淡江大學,2004/11/19。

3. 林信成、游忠諺,"提升體育新聞資訊品質之探討-以SportsML、NITF、NewsML整合為例",數位典藏作業規劃與品質管理研討會,台北‧文化大學,2004/12/2~2004/12/3。

  • 第二年:

4. 林信成,"主題式報紙新聞數位典藏之研究—以台灣棒球運動為例",教育資料與圖書館學,第四十二卷,第三期,頁369 - 392,民94年3月。

5. 林信成、游忠諺、康珮熏,"新聞數位典藏之Metadata探討",《廿一世紀數位圖書館發展趨勢》(胡歐蘭教授七秩壽慶紀念專書),頁23-43,文華,民94年2月。

6. 林信成、康珮熏,"報紙新聞數位典藏Metadata轉換系統之設計與應用",中文媒體數位典藏與新聞標示語言研討會,頁B2-1~B2-23,台北‧國家圖書館,2005/5/11~5/12。

7. 林信成、康珮熏,"建置以OAI-PMH為基礎的數位化新聞Metadata分散檢索系統",TANet 2005研討會論文集,光碟檔G21.PDF,台中˙中興大學,2005/10/26~10/28。

8. 林信成、陳瑩潔,"Wiki協作系統在數位典藏內容加值之應用研究",TANet 2005研討會論文集,光碟檔G22.PDF,台中˙中興大學,2005/10/26~10/28。