研究計畫之背景及目的

1. 研究背景

        今(2004)年中華棒球代表隊進軍雅典奧運雖未獲得獎牌,但在舉國關注的氛圍中掀起的一波波棒球熱潮,再度顯示棒球運動在台灣紮根之深、影響之遠,的確已成為台灣文化不可分割的一部份,更是台灣老、中、青不同時代的共同記憶!

        回顧台灣棒運發展的百年歷史,可說是一世紀以來的台灣史縮影!早在日據時代,棒球便已從日本傳至台灣,自1906年台北出現第一支正式的棒球隊起,到20年代中期為止,台灣的棒球隊成員大都以日本人為主體,此一時期的棒球運動具有強烈的殖民主義色彩;直到1920年代中期「能高團」和1930年代初期「嘉農棒球隊」的興起,才真正有較多台灣球員參與棒球運動,同時也開啟棒球在台灣本土紮根的時代;台灣光復後的40-60年代,日據時代打下的棒球根基,使得台灣業餘棒球進入了春秋戰國時期,加上戰後經濟由蕭條轉趨復甦,造就許多業餘成棒隊伍紛紛成立,各類競賽如省運、協會杯、主席杯、金像獎盃等熱鬧登場,在當時物資缺乏的年代,成了台灣社會非常重要的生活娛樂與休閒活動;直到1970年代,台灣經濟起飛,但政治與外交卻屢遭挫敗,在惡劣的國際局勢中,棒打日本的紅葉傳奇和榮登世界冠軍的金龍旋風,適時的為鬱悶的國人找到一個情緒宣洩的出口,同時也開啟了我國三級棒球全盛時期,雖然三冠王全民狂熱的社會現象同時夾雜著複雜的民族主義色彩,倒也忠實的反應了當時人們的愛國情操;80-90年代,台灣棒球長期的努力終於開花結果,中華成棒代表隊開始在重要國際比賽中屢創佳績,台灣棒球才真正走上國際舞台並受到國際肯定;1990年之後,台灣職業棒球興起,棒球運動乃進入另一個全新的紀元。

        雖然棒球已經被公認為台灣的「國球」,然而,長期以來大多數棒球界人士所感嘆的卻是:「台灣是個發展棒球卻不紀錄棒球的地方」,這也成了台灣棒球運動的一大遺憾。為此,近年來已陸續有研究者開始投入研究台灣棒球史的行列,試圖為台灣棒球的輝煌歷史留下記錄,不過,卻鮮少有從資料數位典藏與資訊加值利用的角度出發者。

        本研究計畫便是藉由與聯合知識庫合作,將聯合報自光復以來所珍藏與台灣棒球運動相關之新聞專卷檔案,包括文字、照片以及眾多經專業加值整理的珍貴資料,進行內容數位化之工作,並加註適當的後設資料(Metadata,使其成為極具參考價值之數位典藏庫;同時也將開發親和之使用介面與便捷之檢索系統,從而建立一永久性並免費開放外界使用之「台灣棒球運動珍貴新聞檔案數位資料館」,以協助棒球界人士、棒球運動研究者以及所有對棒球有興趣的社會大眾,能更深入、更有效率的探索台灣棒球運動與社會發展的脈動。

2. 研究目的及重要性

        本計畫主要與聯合報系合作,對其所珍藏之「台灣棒球運動珍貴新聞專卷檔案」進行圖文資料內容數位化之工作,目的在於以數位典藏方式保存台灣珍貴的棒球史料,並提供加值利用。在這個主題內所界定的資料範圍,是經長期篩選與整理之有關棒球的珍貴報紙新聞及圖片,估計資料量為:

¨           文字資料約五萬篇
¨
           相片資料約一千五百張

下表即為其中的一些實例。

1 典藏資料實例

57/8/25紅葉少棒與日本少棒隊之比賽場景

58/9/18 金龍少棒隊赴威廉波特,贏得世界少棒冠軍後,赴金門勞軍,受前線軍民熱烈歡迎情景

58/8/13金龍少棒隊投手陳智源的父母將他高高舉起

70/1/15第一代金龍少棒隊的八名球員,昨天擔任謝國城大殮的扶靈職務

 

        報紙是社會變遷下的共同記憶,反映了歷年人們生活的縮影,當然也忠實且完整的記錄整個台灣棒球運動的演變,「今日的新聞,明日的歷史」,泛黃的舊報紙承載了許多人類珍貴的文化資產,更可做為歷史的佐證與研究的參考,其價值於今日資訊蓬勃發展的社會裡,有其不可抹滅的地位。透過數位化處理後,更可以在知識經濟時代裡創造無窮價值。

        實際上,此批極其珍貴之棒球史料,是聯合報資料中心內部所珍藏近三萬個「新聞專卷」中的一部份。「新聞專卷」最初只是報社為了提供編採同仁在新聞事件發生時,能有快速、完整且可靠的資料來源可供參考,於是由資料整理人員針對不同的新聞主題,把相關的資料加以收集、組織、整理,再分門別類的建檔,以供每日與時間賽跑的編輯、記者使用,而不必再另花時間搜尋或查證。長期下來,竟建立了一個又一個完整且可信度高的資料檔,累積成一座資料豐富的專門圖書館(如下圖所示),記錄了整個社會發展的軌跡。聯合報系這些新聞專卷乃是從民國45年開始收集,詳述近五十年來台灣人民生活的點滴與重大新聞事件。

        每個新聞專卷都是專業人員經過一定嚴謹的蒐集、整理與加值過程,才成為一個完整事件的報導,非常具有參考價值,尢其對想瞭解台灣發展史的使用者而言是不可或缺的一個新聞資料庫。不同於每日出刊的報紙全文,每個新聞專卷都是分別針對單一主題長期追蹤與整理所得,比原始報紙全文更精鍊,專卷中有許多額外加值的珍貴資料並未公開見報或出版,雖然屬於所謂的灰色文獻,卻往往比見諸報端者詳盡、完整,更具參考與利用價值。因此若能將新聞專卷加以數位化,必然更適合對於某個專門議題感興趣的人士使用。

4 聯合報新聞專卷資料中心

        此外,本計畫同時也將探討將圖書館界的分類與編目理念導入數位化新聞資料庫的可行作法。過去報紙文獻尚未數位化的年代,讀者必須在成堆泛黃的舊報紙中翻找相關資料;而現今電子新聞資料庫大都可依賴全文檢索迅速查找,但在目前電子新聞資料庫普遍不著重分類與編目的情況下,讀者仍須在檢索出過多資料後逐一篩選才能找到所需資訊。故本研究另一目的是探討適合電子新聞資料庫所適用的Metadata及全文標示技術,並藉台灣棒球史做範例,將資訊組織的做法導入到新聞專卷議題的分類與編目及全文標示上,以促進系統對資料之檢索效能,便於管理與利用。

3. 與本計畫有關之研究概況

        (1) 棒球運動的研究方面:

        目前有關台灣棒球運動的資料都散在一些坊間書刊當中,並未有系統的進行數位典藏,國家圖書館雖有報紙期刊之數位典藏資料[1],但它只供應全頁影像與標題的檢索,並未另外進行專門議題的加值處理,對欲瞭解台灣棒球史的讀者來說並不方便。再者,即使把所有的全頁影像利用文字光學辨識方式轉成可檢索之文字全文,但在目前資訊不患寡而患不精的時代,使用者仍必須經由繁複的檢索、篩選程序方能查找出所需資料,否則過於龐大的數位資料仍將造成使用者的資訊過載。因此,如何對資料進行組織、整理與分類,以提供適當的資訊給適當的使用者就成了當務之急。於是,聯合報系長期累積的棒球相關新聞專卷資料檔案,正好可以適時提供棒球運動研究者一個迅速且完整探索台灣棒球發展過程的珍貴史料館。

       至於民間所建置的棒球相關網站,則往往偏向職棒比賽之動態報導[2],商業氣息濃厚;官方網站如中華民國棒球協會[3]、行政院體育委員會[4]等,雖有將部分相關的棒球史料、文物加以數位化,但並不完整;國內著名入口網站「蕃薯籐」,則自2003年起陸續由曾文城先生執筆撰寫一系列有關台灣棒球史的相關文章,內容相當豐富,目前仍持續進行中[5]。而在書籍方面,由於台灣棒球發展受日、美影響深遠,因此,市面上甚早即有專門探討日本棒球[6]和美國棒球的專書[7];而討論台灣棒球史的書,早期有《東昇的旭日一中華棒球發展史》[8]和《嘉義棒球史話》[9]等;近期有謝仕淵與謝佳芬合著之《台灣棒球一百年》[10],該書中許多寶貴資料也都是作者辛辛苦苦從舊報紙中翻找取得;最近的著作則有徐宗懋的《三冠王之夢》[11];曾文誠與 盂峻瑋合著的《台灣棒球王》[12]。此外,還有一些是關於特定人、事、物的專書[13]。從近期棒球相關出版品的趨勢來看,陸續有許多人開始努力紀錄下台灣棒球運動的發展史,的確是可喜的現象。在棒球博物館的建置上,民國八十五年動工興建的澄清湖棒球博物館[14],目前由那魯灣公司行銷企劃部負責經營,館藏中西棒球文物約五千件,是國內較有系統珍藏棒球文物的機構,但這批文物也尚未進行數位典藏;而為了凸顯棒球對台灣的重要,行政院體委會正在籌設一座國家級規模、展覽場地可達3000坪以上的「台灣棒球博物館」[15],目前尚在規劃中。

       (2) 新聞資料數位化與Metadata方面:

       國際上為了解決數位化新聞的資訊組織問題,已發展出數種新聞專用的Metadata格式,例如,IPTC制訂的NITF (News Industry Text Format) [16]、NewsML (News Markup Language) [17]、SportsML (Sports Markup Language)[18]、ProgramGuideML (Program Guide Markup Language)[19]、EventsML (Events Markup Language)[20];IDEAlliance發佈的PRISM (Publishing Requirements for Industry Standard Metadata)[21],XMLNews.Org所研擬的XMLNews[22];和目前普遍應用於入口引擎、新聞網站、Blog和WiKi的RSS(Really Simple Syndication)[23]等。這些標準皆本於可擴展標示語言XML,資訊管理者可依需求定義新聞文件的DTD或XML Schema,既規範文件結構又保留擴充彈性;經過XML標示的新聞文件,也可利用程式轉換到其它格式或平台,有助於新聞文件的儲存、檢索以及重複使用。[24]

         數位化新聞以標示語言進行資訊組織已是舉世公認的共同作法。中文新聞標示的好處自不待言,一旦標準制訂、業界認同,中文新聞即可在不同系統、不同平台、不同新聞機構流通交換,不必每次遇到新的交換情況,就必需撰寫電腦程式、或在資料結構上更動,系統與資料才能順暢連接。現在的新聞涵蓋範圍很廣,包括文字、圖片、廣告、廣播、電視、網站、以及其他電子傳播方式,所以完整的中文新聞標示語言,也需包括多樣的新聞媒體。[25]海峽兩岸近年有感於此,也開始著手此方面之研究。台灣方面,有文建會制訂的「新聞紀錄Metadata格式」(News Records Metadata Format,本文簡稱為NRMF)[26],新聞業界則有聯合報系的「聯合新聞標示語言」(UDN Markup Language,簡稱UdnML);大陸方面則有新華社的「新華標示語言」(Xinhua Markup Language,簡稱XinhuaML)[27],中國報業協會的「中國報業電子新聞文稿格式」(Chinese News Text Format,簡稱CNTF)[28]等。

 

        國內學界對新聞標示的研究也不少,如政大謝瀛春教授發表過有關科學新聞的內容標誌,在新聞事件的陳述上,以5W1H六大方向來描述,將新聞內容以此作為表達的重點,讓使用者清楚的明白發生的新聞事件始末[29];而我們亦曾基於實務應用的觀點,參考國內外的新聞Metadata後,提出一個自行制訂的新聞Metadata,每則新聞除了包含諸如新聞編號、索引、日期、標題、作者 … 等基本資料外,另將新聞內容分以人、事、時、地、物等加以標誌,並開發一新聞管理系統對新聞全文進行精確的內文語意搜尋[30]。而近年所進行與新聞資料相關的數位典藏計畫,則有世新大學世界日報[31]、國家圖書館全國報紙資源網[32]、交通大學電視新聞多媒體資料館[33], [34],以及本研究計畫[35], [36], [37]。新聞主題小組亦曾召開「中文新聞內容數位化研討會」,廣泛討論各界研究成果[38]。業界近年來也有許多報社與資訊公司合作,將其報紙全文影像數位化或資料庫化以利檢索利用[39]。然而,從現有的成果觀之,目前的新聞資料庫大部分採用全頁影像+標題索引的方式,雖然也有許多採用全文檢索者(如聯合知識庫[40]),但如同本計畫所提,以專卷分類方式完整提供單一議題加值利用,並以XML進行內容語意描述者則甚少見,這也是本研究計畫與其他相關研究最主要的不同處。


 

[1] 林淑芬,"期刊文獻資訊網新服務-「全國報紙資訊網」及「國家圖書館期刊影像資料庫」上線服務",可得自<http://www.ncl.edu.tw/pub/c_news/92/05.html> (上網日期:2004/11/4)

[2] 中華職棒聯盟,"中華職棒全球資訊網",可得自<http://www.cpbl.com.tw/>(上網日期:2004/11/2)。

[3] 中華民國棒球協會,"中華民國棒球協會官方網站",可得自<http://www.ctba.org.tw/index.asp> (上網日期:2004/11/5)。

[4]行政院體育委員會,"體育數位博物館 > 棒球 > 棒球文物",可得自<http://media.justsports.net.tw/spo_demo/digital_baseball.asp>(上網日期:2004/11/2)。

[5] 蕃薯籐,"蕃薯籐->運動->棒球->文史館",可得自<http://sports.yam.com/list.php/baseball/history>(上網日期:2004/11/1)。

[6] 高正源,《日本棒球發展史》,聯經,1994/08/15

[7] 陳筱玉,《美國棒球發展史》,聯經,1994/08/15

[8] 高正源,《東昇的旭日一中華棒球發展史》,民生報,1994/6/1

[9] 蘇錦章,《嘉義棒球史話》,聯經,19967月。

[10] 謝仕淵、謝佳芬,《台灣棒球一百年》,果實,20038月。

[11] 徐宗懋,《三冠王之夢》,大地,2004/6/21

[12] 曾文誠、盂峻瑋,《台灣棒球王》,創智,2004/6/21

[13] 超級圖書館,"棒球書-中華職棒及評論",可得自<http://www.superstadium.net/first/book/base/1.htm> (上網日期:2004/11/8)。

[14]人間福報電子報,"澄清湖棒球博物館 中西文物豐富"2003.06.25,可得自<http://www.wfdn.com.tw/9206/030625/01-08/062508-5.htm>(上網日期:2004/11/1)。

[15]陳志祥,"棒球博物館 有影",《中時電子報》,20031112日,可得自http://tw.news.yahoo.com/2003/11/12/sports/ctnews/4363057.html(上網日期:2004/11/1)。

[16] IPTC, 「News Industry Text Format」, available at <http://www.nitf.org/> (2004/7/18).

[17] IPTC, 「News Markup Language」, available at <http://www.newsml.org/> (2004/7/18).

[18] IPTC, 「Sports Markup Language」, available at <http://www.sportsml.org/> (2004/10/8).

[19] IPTC, 「Program Guide Markup Language」, available at <http://www.programguideml.org/> (2004/10/8).

[20] IPTC, 「Events Markup Language」, available at <http://www. iptc.org/EventsML/> (2004/7/18).

[21] IDEAlliance PRISM  Working Group, 「PRISM: Publishing Requirements for Industry Standard Metadata」, available at <http://www.prismstandard.org/PAM_1.0/> (2004/10/9).

[23] Berkman Center, "RSS 2.0 Specification", available at <http://blogs.law.harvard.edu/tech/rss> (2004/10/9).

[24] Hall, Richard, 「Why XML is Important for Printing and e-publishing?」 Online Technology, available at <http://www.newsandtech.com/issues/2000/05-00/ot/05-00_hall.htm> (2003/9/5).

[25] 那福忠,新聞如何標示,可得自<http://www.oiprint.com.tw/epaper/in2004web/frankna/na040530.htm> (2004/5/30).

[26] 行政院文化建設委員會國家文化資料庫知識管理系統,」News Records Metadata Format」,可得自 <http://km.cca.gov.tw/download/rule.html> (上網日期:2004/7/17)

[27] 新華社技術局標準工組,XinhuaMLv1.0功能說明書,2003118 日。

[28] 中國報業協會規範工作組,中國報業電子新聞文稿格式,20005月。

[29] 謝瀛春、黃學碩、維習安、雷約翰、謝清俊,"新聞內容的標誌-XML之應用",海峽兩岸資料庫/數據庫與資訊/信息服務交流與合作論文集(民國901月),頁205-212

[30] 林信成、陳勇任、楊翔淳,"基於XML之新聞管理與出版系統設計"2002出版與圖書館研討會,台北淡水,頁14-29,民91426日。

[31] 世新大學資訊傳播學系,"北平世界日報內容數位化開發計畫",可得自< http://icd.shu.edu.tw/lipo/> (上網日期:2004/11/4)。

[32] 同註 1

[33] 數位典藏國家型科技計畫,"內容發展分項計畫各主題小組",可得自<http://content.ndap.org.tw/theme.html>(上網日期:2004/11/4)。

[34] 數位典藏國家型科技計畫,"其他計畫成果相關連結",可得自<http://www.ndap.org.tw/Links/>(上網日期:民2004/11/4)。

[35] 林信成、孫正宜,"數位化新聞的資訊組織"2004年現代資訊組織與檢索研討會,淡江大學,2004/11/19

[36] 林信成、鄭國祥、孫正宜,"報紙新聞專卷的數位典藏與加值利用"2004年海峽兩岸圖書資訊學暨教育發展研討會論文集,頁11~27,大連理工大學,2004/8/23 ~ 2004/8/24

[37] 淡江大學資圖所數位典藏計畫小組,臺灣棒球運動珍貴新聞檔案數位資料館之建置,可得自 < http://ndap.dils.tku.edu.tw/> (上網日期:2004/10/14)

[38] 數位典藏國家型科技計畫新聞主題小組,〈數位典藏國家型科技計畫內容發展分項計畫〉,《中文新聞內容數位化研討會論文集》,台北:中央研究院,民9237日。

[39] 孫正宜,《聯合報、經濟日報、民生報合訂本OCR內文辨識作業完成報告》,台北:聯合知識庫,民911月。

[40] 孫正宜、林信成,"中文報業數位化技術與現況探討-聯合知識庫數位化經驗"2003年資訊科技與圖書館學術研討會,台北淡水,頁73-932003/5/29