研究計畫之背景及目的

1. 研究背景
  今(2003)年遠征日本札幌參與亞錦賽的中華代表隊,不負國人期望榮獲亞軍,取得睽違了12年之久的奧運參賽權資格,將與日本一起進軍2004年雅典奧運會。在舉國歡騰的氛圍當中,伴隨著榮耀所掀起的一波波棒球熱潮,再度顯示棒球運動在台灣紮根之深、影響之遠,的確已成為台灣文化不可分割的一部份,更是台灣老、中、青不同時代的共同記憶!

  回顧台灣棒運發展的百年歷史,可說是一世紀以來的台灣史縮影!早在日據時代,棒球便已從日本傳至台灣,自1906年台北出現第一支正式的棒球隊起,到20年代中期為止,台灣的棒球隊成員大都以日本人為主體,此一時期的棒球運動具有強烈的殖民主義色彩;直到1920年代中期「能高團」和1930年代初期「嘉農棒球隊」的興起,才真正有較多台灣球員參與棒球運動,同時也開啟棒球在台灣本土紮根的時代;台灣光復後的40-60年代,日據時代打下的棒球根基,使得台灣業餘棒球進入了春秋戰國時期,加上戰後經濟由蕭條轉趨復甦,造就許多業餘成棒隊伍紛紛成立,各類競賽如省運、協會杯、主席杯、金像獎盃等熱鬧登場,在當時物資缺乏的年代,成了台灣社會非常重要的生活娛樂與休閒活動;直到1970年代,台灣經濟起飛,但政治與外交卻屢遭挫敗,在惡劣的國際局勢中,棒打日本的紅葉傳奇和榮登世界冠軍的金龍旋風,適時的為鬱悶的國人找到一個情緒宣洩的出口,同時也開啟了我國三級棒球全盛時期,雖然三冠王全民狂熱的社會現象同時夾雜著複雜的民族主義色彩,倒也忠實的反應了當時人們的愛國情操;80-90年代,台灣棒球長期的努力終於開花結果,中華成棒代表隊開始在重要國際比賽中屢創佳績,台灣棒球才真正走上國際舞台並受到國際肯定;1990年之後,台灣職業棒球興起,棒球運動乃進入另一個全新的紀元。

  雖然棒球已經被公認為台灣的「國球」,然而,長期以來大多數棒球界人士所感嘆的卻是:「台灣是個發展棒球卻不紀錄棒球的地方」,這也成了台灣棒球運動的一大遺憾。為此,近年來已陸續有研究者開始投入研究台灣棒球史的行列,試圖為台灣棒球的輝煌歷史留下記錄,不過,卻鮮少有從資料數位典藏與資訊加值利用的角度出發者。本研究計畫便是藉由與聯合知識庫合作,將聯合報系自光復以來所珍藏與台灣棒球運動相關之新聞專卷檔案,包括剪報、文字、圖像、照片、攝影原件,以及眾多經專業加值整理但未公開見報的珍貴資料,進行內容數位化之工作,並透過適度的資訊組織方法加以分類、歸納,成為更有價值之數位典藏資料;同時也將開發親和之使用介面與便捷之檢索系統,從而建立一永久性並免費開放外界使用之「台灣棒球運動珍貴新聞檔案數位資料館」,以協助棒球界人士、棒球運動研究者以及所有對棒球有興趣的社會大眾,能更深入、更有效率的探索台灣棒球運動與社會發展的脈動。

  2. 研究目的及重要性
本計畫主要與聯合報系合作,對其所珍藏之「台灣棒球運動珍貴新聞專卷檔案」進行圖文資料內容數位化之工作,目的在於以數位典藏方式保存台灣珍貴的棒球史料,並提供加值利用。在這個主題內所界定的資料範圍,是經長期篩選與整理之有關棒球的珍貴報紙新聞及圖片,初步估計之資料量為:
  文字資料約五萬篇
  圖片資料約一千五百張(包含攝影原件及未見報的若干珍貴照片)

  報紙是社會變遷下的共同記憶,反映了歷年人們生活的縮影,當然也忠實且完整的記錄整個台灣棒球運動的演變,「今日的新聞,明日的歷史」,泛黃的舊報紙承載了許多人類珍貴的文化資產,更可做為歷史的佐證與研究的參考,其價值於今日資訊蓬勃發展的社會裡,有其不可?滅的地位。透過數位化處理後,更可以在知識經濟時代裡創造無窮價值。

  實際上,此批極其珍貴之棒球史料,是聯合報資料中心內部所珍藏近三萬個「新聞議題專卷」中的一部份。「新聞議題專卷」最初只是報社為了提供編採同仁在新聞事件發生時,能有快速、完整且可靠的資料來源可供參考,於是由資料整理人員針對不同的新聞主題,把相關的資料加以收集、組織、整理,再分門別類的建檔,以供每日與時間賽跑的編輯、記者使用,而不必再另花時間搜尋或查證。長期下來,竟建立了一個又一個完整且可信度高的資料檔,累積成一座完善的專門圖書館,記錄了整個社會發展的軌跡。聯合報系這些新聞專卷乃是從民國45年開始收集,詳述近五十年來台灣人民生活的點滴與重大新聞事件。每個新聞專卷都是專業人員經過一定嚴謹的蒐集、整理與加值過程,才成為一個完整事件的報導,非常具有參考價值,尢其對想瞭解台灣發展史的使用者而言是不可或缺的一個新聞資料庫。不同於每日出刊的報紙全文,每個新聞專卷都是分別針對單一主題長期追蹤與整理所得,比原始報紙全文更精鍊,專卷中有許多額外加值的珍貴資料並未公開見報或出版,雖然屬於所謂的灰色文獻,卻往往比見諸報端者詳盡、完整,更具參考與利用價值。因此若能將新聞專卷加以數位化,必然更適合對於某個專門議題感興趣的人士使用。

  此外,本計畫同時也將探討將圖書館界的分類與編目理念導入數位化新聞資料庫的可行作法。過去報紙文獻尚未數位化的年代,讀者必須在成堆泛黃的舊報紙中翻找相關資料;而現今電子新聞資料庫大都可依賴全文檢索迅速查找,但在目前電子新聞資料庫普遍不著重分類與編目的情況下,讀者仍須在檢索出過多資料後逐一篩選才能找到所需資訊。故本研究另一目的是探討適合電子新聞資料庫所適用的Metadata及全文標示技術,並藉台灣棒球史做範例,將資訊組織的做法導入到新聞專卷議題的分類與編目及全文標示上,以促進系統對資料之檢索效能,便於管理與利用。

  3. 與本計畫有關之研究概況
  (1) 棒球運動的研究方面:
  目前有關台灣棒球運動的資料都散在一些坊間書刊當中,並未有系統的進行數位典藏,國家圖書館雖有報紙期刊之數位典藏資料[12],但它只供應全頁影像與標題的檢索,並未另外進行專門議題的加值處理,對欲瞭解台灣棒球史的讀者來說並不方便利用。再者,即使把所有的全頁影像利用文字光學辨識方式轉成可檢索之文字全文,但在目前資訊不患寡而患不精的時代,使用者仍必須經由繁複的檢索、篩選程序方能查找出所需資料,否則過於龐大的數位資料仍將造成使用者的資訊過載。因此,如何對資料進行組織、整理與分類,以提供適當的資訊給適當的使用者就成了當務之急。於是,聯合報系長期累積的棒球相關新聞專卷資料檔案,正好可以適時提供棒球運動研究者一個迅速且完整探索台灣棒球發展過程的珍貴史料館。

  至於民間所建置的棒球相關網站,則往往偏向職棒比賽之動態報導,商業氣息濃厚[6];官方網站如中華民國棒球協會[7]、行政院體育委員會[8]等,雖有將部分相關的棒球史料、文物加以數位化,但並不完整;而在書籍方面,最近對整個台灣棒球發展史進行較完整的研究者為謝仕淵與謝佳芬合著之《台灣棒球一百年》[1],該書中許多寶貴資料也都是作者辛辛苦苦從舊報紙中翻找取得。在棒球博物館的建置上,民國八十五年動工興建的澄清湖棒球博物館[9],目前由那魯灣公司行銷企劃部負責經營,館藏中西棒球文物約五千件,是國內較有系統珍藏棒球文物的機構,但這批文物也尚未進行數位典藏;而為了凸顯棒球對台灣的重要,行政院體委會正在籌設一座國家級規模、展覽場地可達3000坪以上的「台灣棒球博物館」[10],目前尚在規劃中。

  (2) 新聞資料數位化方面:
  學術界近年所進行與新聞資料相關的數位典藏計畫,有世新大學世界日報[11]、國家圖書館全國報紙資源網[12]、交通大學電視新聞多媒體資料館…等[23][24];業界近年來也有許多報社與資訊公司合作,將其報紙全文影像數位化或資料庫化以利檢索利用。然而,從現有的成果觀之,目前的新聞資料庫大部分採用全頁影像+標題索引的方式,雖然也有許多採用全文檢索者,但如同本計畫所提,以專卷分類方式完整提供單一議題加值利用,並以XML進行內容語意描述者則甚少見,這也是本研究計畫與其他相關研究最主要的不同處。

  根據我們先前的研究指出,現今國內報業界的報紙資料庫格式是百家爭鳴,各據山頭,增加交換與利用的困難,對使用者與典藏者而言非常不便[14]。同時管理者對Metadata格式既無深入的認識與也無統一標準的行動,若有需求大都參考國家圖書館所制定的Metadata格式。故「數位典藏國家型科技計畫」新聞主題小組於2003年3月7、8兩日舉行中文新聞數位化研討會,討論新聞內容標誌XML之推廣應用、新聞詮釋資料(metadata)之建構以及TEI(Text Encoding Initiative)及GIS(Geographic Information System)應用於新聞資料庫之研發[15]。目前,在新聞內容語意的Metadata方面,國外是以NITF(News Industry Text Format)[17]與XMLNews[16]為兩大主流;國內方面,政大謝瀛春教授發表過有關科學新聞的內容標誌,在新聞事件的陳述上,以5W1H六大方向來描述,將新聞內容以此作為表達的重點,讓使用者清楚的明白發生的新聞事件始末[18];而我們亦曾基於實務應用的觀點,參考國內外的新聞Metadata後,提出一個自行制訂的新聞Metadata,每則新聞除了包含諸如新聞編號、索引、日期、標題、作者 … 等基本資料外,另將新聞內容分以人、事、時、地、物等加以標誌,並開發一新聞管理系統對新聞全文進行精確的內文語意搜尋[19]。

   4. 參考資料
[1] 謝仕淵、謝佳芬,《台灣棒球一百年》,果實,2003年8月。
[2] 蘇錦章,《嘉義棒球史話》,聯經,1996年7月。
[3] 陳筱玉,《美國棒球發展史》,聯經,1994/08/15。
[4] 高正源,《日本棒球發展史》,聯經,1994/08/15。
[5] 蕃薯籐,〈運動->棒球->文史館〉,可得自<http://sports.yam.com/list.php/baseball/history> (民92年11月20日)。
[6] 中華職棒聯盟,〈中華職棒全球資訊網〉,可得自<http://www.cpbl.com.tw/> (民92年11月20日)。
[7] 中華民國棒球協會,〈中華民國棒球協會官方網站〉,可得自<http://www.ctba.org.tw/index.asp (民92年11月25日)。
[8] 行政院體育委員會,〈體育數位博物館 > 棒球 > 棒球文物,http://media.justsports.net.tw/spo_demo/digital_baseball.asp(民92年11月25日)。
[9] 人間福報電子報,〈澄清湖棒球博物館 中西文物豐富〉,2003.06.25,可得自<http://www.wfdn.com.tw/9206/030625/01-08/062508-5.htm>(民92年12月1日)。
[10] 陳志祥,〈棒球博物館 有影〉,《中時電子報》,2003年11月12日,可得自http://tw.news.yahoo.com/2003/11/12/sports/ctnews/4363057.html(民92年12月1日)。
[11] 世新大學資訊傳播學系,〈北平世界日報內容數位化開發計畫〉,可得自< http://icd.shu.edu.tw/lipo/> (民92年12月4日)。
[12] 林淑芬,〈期刊文獻資訊網新服務-「全國報紙資訊網」及「國家圖書館期刊影像資料庫」上線服務〉,可得自<http://www.ncl.edu.tw/pub/c_news/92/05.html> (民92年12月4日)。
[13] 孫正宜,《聯合報、經濟日報、民生報合訂本OCR內文辨識作業完成報告》,台北:聯合知識庫,民91年1月。
[14] 孫正宜、林信成,"中文報業數位化技術與現況探討-聯合知識庫數位化經驗",2003年資訊科技與圖書館學術研討會,台北淡水,頁73-93,2003/5/29。
[15] 數位典藏國家型科技計畫新聞主題小組,〈數位典藏國家型科技計畫內容發展分項計畫〉,《中文新聞內容數位化研討會論文集》,台北:中央研究院,民92年3月7日。
[16] XMLNews.org, "XMLNews Specifications", available at <http://www.xmlnews.org/XMLNews/> (2003/12/4).
[17] IPTC: International Press Telecommunications Council, "NITF: A Solution for Sharing News",available at <http://www.nitf.org/> (2003/12/4)
[18] 謝瀛春、黃學碩、維習安、雷約翰、謝清俊,「新聞內容的標誌-XML之應用」,海峽兩岸資料庫/數據庫與資訊/信息服務交流與合作論文集(民國90年1月),頁205-212。
[19] 林信成、陳勇任、楊翔淳,"基於XML之新聞管理與出版系統設計",2002出版與圖書館研討會,台北淡水,頁14-29,民91年4月26日。
[20] 數位典藏首頁,http://www.ndap.org.tw/。
[21] 內容發展分項計畫首頁,http://content.ndap.org.tw/。
[22] 內容發展分項計畫歷年計畫連結,http://content.ndap.org.tw/introduction04.html
[23] 內容發展分項計畫各主題小組,http://content.ndap.org.tw/theme.html
[24] 其他計畫成果相關連結,http://www.ndap.org.tw/Links/。