RSS

以 RSS 為格式提昇數位典藏系統檢索效能陳志達 1 1 2 劉芸如 2 南台科技大學資訊管理所 andypony@mail.stut.edu.tw 南台科技大學資訊管理所 M9890109@webmail.stut.edu.tw 摘要在全球網路科技發達的時代，如何將資料永久性保存與分享已經成為趨勢，而數位典藏擁有完善的相關技術與格式規範，跨足在博物館與圖書館等各個領域，將傳統書本與古物漸漸數位化，在典藏的過程中，能夠確保數位資料的可用性、完整性、持久性與整合性，讓資訊可以永久保存並藉網際網路傳給世界各地。目前國內相關 RSS 新聞網站繁多，各個網站的 RSS 格式規劃方面都是以訂閱和閱讀居多，卻缺乏永久保存資料與分類檢索之服務。因此本研究提出利用數位典藏具備資訊持久性與完整性之特色，建立出一套自訂的 RSS 格式，讓每筆 RSS 資訊可以完整的儲存於資料庫中，並不會因為連結失效，導致此筆資訊消失，藉由資料正規化技術將收集而來的資訊作結構化分類，在分類儲存過程中，會將每筆資訊增加唯一的識別碼，讓檢索系統可以能藉由分類屬性與識別碼快速作資訊檢索。本研究與目前檢索技術(如 Search engine optimization、Randomized Algorithms)做比較，在檢索系統中，會依據每筆資訊的關鍵字與分類索引，利用 ASCII 編碼技術搭配索引項目，對每筆資訊增加唯一的識別碼，當資料檢索時可以藉由識別碼快速作資訊檢索。關鍵詞：RSS、數位典藏、self-defined、tag、data normalization 以 RSS 為格式提昇數位典藏系統檢索效能 1. 簡介 1.1 背景最近幾年來知識傳播與分享成為社會的主軸，而龐大的知識源頭來自於每個世紀的知識文化與技術的傳承，從最開始的方法都是靠一代傳一代流傳知識與技術，直到紙張的發明，讓技術不會因為無人繼承和遺忘而流傳，但卻會被氣候和人為因素遭到破壞，導致文化與知識越來越珍貴，基於這些理由，如何讓傳統文件的資料變成數位化儲存在電腦中，並把單調的資料融入現代人的生活當中，要靠網際網路的普遍性、方便性的特色，以及提供有需要者可藉由電腦連線到數位典藏網站來閱讀。但是隨著時代的變遷，數位典藏的資料量開始日益龐大，同時視訊技術的進步，讓圖文可變成影像儲存在網路中，但隨之帶來的是龐大的資料量，且影像大小不同也會影響到下載的速度，如何在不破壞圖像原品質的情況下，利用現有的壓縮技術來改進，並同時提供快速且精確的搜尋系統，是數位典藏的未來趨勢所在。數位典藏日益不斷更新資料訊息，網路使用者卻無法馬上得知是否有新的資訊，如何掌握第一手的消息，也已成為數位典藏與網路使用者的互動的一個課題。RSS 從 1996 年發展 RSS 0.9 版到 RSS 2.0 版，其中利用了 XML 的名稱空間以增加它的擴充性，RSS 資料格式只需要 title、description、link 與 pubDate 這四項元素即可描述文件相關資訊，針對資料庫的應用可進一步作處理，同時網路使用者也可以利用 RSS 的功能訂閱自己所需要的資訊。 1.2 動機近幾年來國內開始吹起一股資訊數位化之熱潮，進而招募人才進行撰寫數位典藏計劃並開發新的系統，而這些舉動促使數位典藏的資料量日益成長，每個不同型態的資料所使用的資料規格也不盡相同，即使可以透過人力將檔案與資料規格轉換成官方標準，也需要耗費不少時間，而且在資源共享方面是有些限制，每個網站所呈現的資源都不一樣，使得瀏覽者為了搜尋某些特定的資訊需要花費更多時間瀏覽各大網站。本研究提出利用數位典藏具備資訊持久性與完整性之特色，讓 RSS 資訊不會因為連結失效，導致此筆資訊消失，同時數位典藏已有詳細的要求完整的資訊描述之規範，所以本研究藉此特性，建立出一套自訂的 RSS 格式，讓每筆資訊可以完整的儲存於資料庫，並藉由資料正規化技術將收集而來的資訊作結構化分類，在分類儲存過程中，會將每筆資訊增加唯一的識別碼，讓檢索系統可以能藉由分類屬性與識別碼快速作資訊檢索。 1.3 目的本研究目的是達成數位典藏技術的突破，經由建構平台知識網路作為基礎，從各大網站的RSS資料作蒐集、彙整、分類等，依照數位典藏格式並針對RSS資料屬性作格式上的處理，進行RSS資料屬性的編排、分類和儲存，有效索引運用，透過RSS系統發佈與訂閱訊息，推廣數位典藏儲存的資訊，同時強化資訊的處理、典藏內容的有效擷取，讓知識能成功的轉成數位化妥善保存，再利用廣大的社群達到數位典藏網站的互動性。同時如何讓一個單調的資訊可以吸引瀏覽者去閱讀，以及數位典藏網站如何與人做互動，可以使用現有的Web2.0技術來實踐。Web 2.0是一種新的網際網路型態，透過網路應用促進網路上人與人間的資訊交換和協同合作，其模式主要以使用者為中心。 (Jiejing, Jun, Jingjing, Jiali, & Xiaojun, 2010) 本研究遵循數位典藏規範外，還利用Web2.0的特色與技術，建構出符合數位典藏與 Web2.0概念之系統，以提升使用者與典藏系統間的互動性，同時此系統兼具處理最新即時新聞的資料作統一的規劃。以下所列為系統的特色：  使用者的互動與參與  建立常用的關鍵字詞庫  降低搜尋時等待的時間  以RSS為基礎之典藏資訊訂閱/發佈系統  永久保存RSS資訊與完整的RSS資訊之相關敘述 2. 文獻探討 2.1 XML(eXtensible Markup Language) 可延伸標記語言(eXtensible Markup Language；XML)是從 1998 年網際網路標準組織 (World Wide Web Consortium；W3C)所提出來的標記語言，標記語言是運用特殊的標示方式『<』與『>』符號加上文字也就是標籤名稱形成的。至今有許多研究與技術使用 XML 當作儲存資料與交換資料的格式，為何 XML 使用範圍如此廣大，以下敘述為 XML 的特色：(Alkhatib & Scholl, 2008) 簡單好上手：語法結構簡單，容易被閱讀。延伸性：使用者可以自行制定標籤。精確度：讓複雜的資料集以階層式架構呈現，能快速又精確的搜尋。跨平台：透過 XML 做為交流媒介，只要有 XML Parser 就能解讀資訊，可讓不同的應用程式交換資料，無須考慮平台的問題。可攜性：XML 是以文字為基礎的規範，資料是以純文字就可以儲存。為了促進資料交換的標準性，在資料傳送及資料接收兩方都必須要有共同的協議與結構，雙方可以採取 XML 所提供的兩種方式：DTD 及 XML Schema，用來負責檢驗雙方 XML 資料結構及格式。 2.2 RSS RSS (Really Simple Syndication) 是一種將網頁最新訊息以及新聞以 XML 為基礎描述格式同步發送予訂閱者，主要用來聯合各網站超連結的清單，並藉由附屬的一些描述資訊(Metadata)讓資訊消費者能決定是否要進一步瀏覽完整的詳細內容。RSS 應用越來越普及，隨著 Web 2.0 的興起，每個網站都可以看到 RSS 的圖示，這些圖示代表著此網站有提供 RSS 服務，而且 RSS 不僅僅用於發布新聞資訊，還可以對一篇文章或一段話進行 RSS 包裝，藉由 RSS 功能可以讓發文者的文章提供人訂閱，網頁發開者能建立出屬於自己的符合 RSS 規格的檔案，稱為 RSS feed。此外，RSS 不僅能在電腦上閱讀外，只要手機軟體內有安裝 RSS 閱讀器即可發布/訂閱/閱讀 RSS 資訊，讓 RSS 的應用更加廣泛。下列為 RSS 的主要特色：結構簡單化：RSS 描述一筆資訊，只需要 title、description、link 和 pubDate 這四項元素。Title 用來描述資訊的主題；description 為欲描述資訊的 Metadata；link 是資訊來源，它可以是一串網頁連結或其他文字類型的文件；pubDate 則是紀錄該資訊的發布時間。彈性高：配合網頁技術依照 RSS 規範制定 XML 文件，系統會自動編譯並提供給使用者訂閱，站在資訊提供者的立場來看，RSS 技術的導入是不需要花費太多成本而且非常方便，因此有越來越多的資訊提供者願意提供 RSS 服務。在 2009 年由政府入口網營運團隊提出當機關介接政府新聞 RSS 後，將不再經由政府入口網內容管理-政府新聞核准的作業流程，系統將自動上架機關所提供之新聞內容，並可確定所上架之新聞 RSS 中的 Meta Tag 符合行政院研究發展考核委員會所訂定之「行政機關電子資料流通詮釋資料及分類檢索規範」，如圖 1。(政府入口網營運團隊, 2009) <?xml version="1.0"?> <rss version="2.0"> <channel> <title>Liftoff News</title> <link>http://liftoff.msfc.nasa.gov/</link> <description>Liftoff to Space Exploration.</description> <language>en-us</language> <pubDate>Tue, 10 Jun 2003 04:00:00 GMT</pubDate> <docs>http://blogs.law.harvard.edu/tech/rss</docs> <generator>Weblog Editor 2.0</generator> <managingEditor>editor@example.com</managingEditor> </channel> </rss> 圖1 RSS 範例 2.3 OAI OAI(Open Archives Initiative Protocol)常被拿來應用在圖書館書籍編碼、期刊、博物館等，是一套具備可以獨立的應用程式，而且這些獨立應用程式可互相運作，能夠定義一個套 Metadata 機制，OAI 協定主要分為兩部分伺服器提供者(Service Provider)與資料提供者(Data Provider)，使用者可以藉由伺服器端提出請求，而資料提供者會到各個儲存器取出資料回覆給伺服器，如圖 2 為 OAI 組成元件圖。(Haslhofer, 2008) OAI 協定裡定義包含儲存器(Repository)是透過 HTTP 伺服器可以接受 OAI 協定所提出的存取資料要求；資料集(Set)主要是將資料以階層式架構表示，方便取得所有需要的資料；資料錄(Record)從伺服器依照 OAI 協定，從儲存器內將資料以 XML 編碼傳回前端的 metadata。 Repository Request Repository Response Service Provider Data Provider Repository 圖2 OAI 組成元件圖 2.4 數位典藏數位典藏計畫從 1998 年年底開始實施「數位博物館」專案研究計畫，鼓勵單位參加計畫，利用既有的數位典藏，建立一套具有規律與整合性的數位內容。該項計畫的內容提供者計有「台灣本土魚類之數位典藏計畫」、「台灣本土植物數位典藏計畫」、「電子文化與自然資源資料庫」等。建立了描述資料的工作規範與程序，並對資料型式建立了完整的標準規範，在多媒體資料管理部分，由描述資料伺服器，控制資料後端製作伺服器，直接產生典藏多媒體資料庫物件與資料庫表單連結，以維護描述資料之一致性。數位典藏的硬軟體平台，包括伺服主機、大量儲存設備和內涵管理軟體，從工作環境角度來看，數位典藏資訊主要有生產、傳播、呈現與典藏等四個階段。在「生產」資料的階段，可以再分為「資料數位化」和「數位資料後製作」的兩個階段，「數位資料後製作」目的，在於對資料作細部註解，以提高資訊搜尋的準確度，並賦予使用介面呈現時的預先處理；典藏數位化「傳播」功能，則包括使用者透過網路來取得資訊或複製資訊，需考量使用者網路頻寬之限制、線上傳輸費用與花費時間等因素；在「呈現」階段，所對應的核心技術則是索引與檢索架構，和多媒體呈現等資訊技術功能；至於「典藏」的主體，則是除了資料數位化之後的物件外，也包括了資料整理與分析而制訂的詮釋（後設）資料（Metadata），對於典藏資料通常會經過前製階段，編織成為比較活潑生動的網頁形式來展現。因此對於典藏數位化的系統設計上，更需對資料庫標準化、多媒體資料典藏與呈現、網路安全、智慧財產權、系統規模與網路頻寬與品質等，均需作系統設計考量。 Vatican Museums 將珍貴的教廷手稿數位化，提供全球學者進行歷史研究；羅浮宮則以典藏數位化為主，重視多媒體技術的展現；大英博物館則挑選館藏進行數位化，並強調教育主題。(宋思齊, 1999) 2.5 資訊檢索資訊檢索是擷取、組織和利用資訊的重要技術領域。隨著數位典藏資料急遽成長，若使用者無法得知有哪些典藏資料符合其需求，再多的典藏內容對其而言，也缺乏使用價值。依資料型態的不同，資訊檢索技術大致可分為兩大類：資料庫檢索、文件資訊檢索。「資料庫檢索」主要探討結構化資料的檢索方式，其應用範圍以傳統資料庫為主，例如目前最著名也最常用的資料模型為關聯式資料庫(Relational database)，最早由 E. F. Codd 於 1970 年提出，利用表格式的結構化資料模型，儲存文物典藏品的各種屬性，並提供許多檢索功能，以協助使用者快速搜尋符合某些欄位條件的典藏記錄。(Codd, 1970) 「文件資訊檢索」主要探討非結構化文件資料的檢索方式，其應用範圍以搜尋引擎為主，相對於資料庫檢索的方法，文件資訊檢索方法中並無專家事先規劃好的固定欄位資料以供查詢，文件中出現的任意詞彙或主題都可能是使用者搜尋的目標，一般而言，文件內容可藉由一組索引詞彙(Index Terms)或關鍵詞彙(Keywords)來表示，當我們做關鍵字檢索時，文件資訊檢索系統會比對這些索引詞彙與使用者查詢的關鍵字之相關性，所用的關鍵字決定檢索結果的好壞，因此必須注意下面幾個原則：選擇的關鍵字要能正確傳達研究主題的中心概念，並選用意義明確的字彙；輸入的片語或詞組越明確，則越容易找到符合使用者的資訊。(張云濤、龔玲, 2007) 3. 系統架構設計本研究主要目標是將 RSS 資料轉為數位典藏的格式，並進行資料分類分析、處理及呈現，整合數位典藏整體資訊技術之知識，使資訊技術架構與開發環境能作整體系統的考量與設計，將 RSS 典藏資源作完善保存，在檢索方面利用 ASCII 編碼技術搭配資料目錄索引項目，讓 RSS 資料能快速的被利用，提供瀏覽者查閱歷史資訊、研究與教育之用途，以達到資訊共享之目標。(Hai et al., 2005) 3.1 如何典藏 RSS 資料本研究參考 OAI 協定，對現行資料進行前置處理，並制定 XML 與 DTD 格式規範。由於 RSS 資料是由其他網站經由收集器所蒐集的資訊，此資料已經是數位化的資訊，而且已經事先經過簡單的分類處理儲存在資料庫，但是此資料事先分類的目錄屬性重複性過高，所以本研究參考入口網站對新聞的分類，以結構化階層式的方式重新對目錄屬性進行分類並儲存，如圖 3 為資料歸納目錄索引關聯圖(左邊為原始資料分類圖；右邊為目錄索引關聯圖) (Yin-Fu & Shing-Hang, 2008)。左圖中原始資料分類當初是以”英文”與” 中文”作節點的分支，底下再分支政治、財經、科技等。右圖中是將重複的項目作整合，規劃成一個新的結構化階層式來呈現，如把原本的”中文”與”英文”，取一個新的名稱” 國際&台灣”，裡面包含中文新聞與英文新聞，把原本的”中文”與”英文”裡的相同項目(如中文-政治；英文-政治)作整合；恐怖活動、中東衝突、伊拉克等歸類到”其他”。圖3 資料歸納目錄索引關聯圖 3.1.1 Dublin Core 詮釋資料格式本研究針對在 OAI Data Provider 所提供不同的典藏之資料種類，並且根據不同 Metadata 設計各種 XML schema。除了將原有的資料欄位保留外，再增加識別碼、權限管理與來源等欄位將資料的資訊的描述更為完整性，同時所提供的 Dublin Core 格式 Metadata 均符合 oai_dc OAI-defined XML schema 格式，表一為資料格式之 Metadata 元素說明表。表一: 資料格式之 Metadata 元素說明表欄位名稱 Title 標示定義題名 Creator 創作者資源之主要創作者。資源所賦予的名稱。 Subject and 主題和簡單的資源內容之描 Keywords 關鍵詞述。 Description 描述對資源之相關說明。說明題名是資源的正式標題名稱。創作者包括個人、團體機構或服務系統。可用關鍵詞或分類號來表示資源之內容。簡述可包括摘要或對於內容的文字敘述等。 Publisher 出版者資源提供者。出版者包括個人、團體機構或服務單位。 Date 日期日期通常可用來表示資源的創作或可供資源的日期。使用的時間。建議遵循 ISO 8601 [WDTF]之標準著錄日期，即以 YYYY-MM-DD 的格式著錄。 Type Identifier Language 資源類資源之屬性。資源類型包括描述資源之性質、功能、型類別等。識別碼資源在某環境中明確建議利用字串或數字組成的識別系統來語文的辨識資料。辨識資源。資源內容之語文。建議使用 RFC1766 並併用 ISO639 標準，該標準使用兩個與三個字母做為語文代碼。 Rights 權限管有關權限的相關資權限管理包括資源的權限申明，或說明理提供該資源的服務機構。訊，包括資源原有的或被賦予的權限。 Source 來源說明衍生出本資源的本資源可能完全或部份由原始資源衍生原始資源。而出。建議利用字串或數字所組成的識別系統來表示其原始資源。 3.1.2 RSS 轉數位典藏之 XML 規劃設計每日在網路上的 RSS 資料日益增加，目前國內外著名入口網站都有提供 RSS 即時新聞的訂閱，吾人亦利用爬蟲程式(crawler)蒐集數量龐大的 RSS 資訊，如圖 4，而如何簡化 RSS 格式，亦是研究的重點。為了讓 RSS 資料格式轉成數位典藏資料格式，對 RSS 資料進行重新命名與增加數位典藏必須要有的相關重要欄位，例如來源、權限主體和關鍵詞等。(JianGang, Gang, JinLing, & Tao, 2006) 圖4 RSS 資料蒐集系統如何讓兩個資料相對應並填入新的格式？首先針對原始資料屬性與新格式的屬性，如果屬性類型一樣的就歸類在一起，例如：原始欄位中的 Title1 是資料的標題名稱與新欄位中 Title 視為同屬性，如表二為資料格式之 Metadata 元素說明表，之後把原始欄位資料填入新欄位中，而要是與原始欄位無對應則經由 Link1 或 Source 欄位連結到圖 5 為原始網站程式碼中擷取資料，如圖 5 中程式會抓取< label >裡的 NOWnews 填入到圖 6 中的 publisher 欄位裡，或由設計者自行填入資料，如圖 6 為 XML 之數位典藏格式規劃圖。表二: 資料格式之 Metadata 元素說明表新欄位名稱 Title Description Date Source Publisher Type <div id="ynwsart"> <div class="hd"><div></div></div> 原始欄位名稱 Title1 Describe1 pubDate2 Link1 S C2 <div class="bd"> <h1>MLB／王建民復出指標？響尾蛇王牌冀望 9 月中回大聯盟</h1> <div class="offer"> <label><a href="http://tw.rd.yahoo.com/referurl/news/logo/ettoday//SIG=10pugg0rl/*http://www.no wnews.com/" target="_blank"><img src="http://l.yimg.com/f/i/tw/news/newspartner2006/ettoday.jpg" alt="NOWnews" /></a></label> <span>更新日期:<q>2010/08/31 12:34</q></span> <em>記者陳浚錡／綜合報導</em> </div> <div class="w"> <div id="ynwsartcontent"> <p>同樣受肩傷所擾的響尾蛇王牌韋伯（Brandon Webb）恢復狀況可能作為<a href="?" class="ynwsyq" title="王建民"><span>王建民</span></a>復出指標。</p> </div> </div> </div> 圖5 原始網站程式碼 <?xml version="1.0" encoding="UTF-8"?> <oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd"> <dc:title xml:lang="ch">MLB／王建民復出指標？響尾蛇王牌冀望 9 月中回大聯盟 </dc:title> <dc:creator>陳浚錡</dc:creator> <dc:subject>響尾蛇,王建民</dc:subject> <dc:publisher> NOWnews</dc:publisher> <dc:date>2008-8-17</dc:date> <dc:type> sport </dc:type> <dc:description>同樣受肩傷所擾的響尾蛇王牌韋伯（Brandon Webb）恢復狀況可能作為王建民復出指標。</dc:description> <dc:identifier>056A3B367275303461757036Z010011</dc:identifier> <dc:Source>http://tw.news.yahoo.com/article/url/d/a/100831/17/2c4ii.html</dc:Sour ce> <dc:language>Chinese</dc:language> <dc:rights xml:lang="ch">Public Domain</dc:rights> </oai_dc:dc> 圖6 XML 之數位典藏格式規劃圖 3.1.3 DTD 格式說明要將所有的 RSS 資料整合到目錄索引系統為極大的工程，因此必須設法提出一套有制度的轉換過程，各領域資料之特色與屬性，會依資料特性及設計者需求個別設計詮釋資料格式，為了使各類詮釋資料格式得以互通(interoperability)，其中以跨領域的資訊描述都柏林核心集( Dublin Core metadata element set)為考量規範，被許多國家與學者採用，同時也出現在 W3C (WWW Consortium)及 Z39.50 規範中，這份規範只包含通用的都柏林核心集欄位，區域性的需求或政策，可依需要由使用者加上限制、規則及解釋，此定義來自於 Tim Berners-Lee 等人所著的 Internet RFC2396 “ Uniform Resource Identifiers (URI): Generic Syntax”文件，而就 DC 的應用而言，資源主要乃指電子文獻。 (數位典藏國家型科技計畫, 2007) 因此本研究設計一個文件資料標籤結構與其及資料型態(Data Type)，來驗證所制訂出的 XML schema 是否符合數位典藏規範，如圖 7。如題名（Title）元素描述此筆資料的正式標題；而資源類型（Type）元素則是記錄此筆 RSS 資料被分類到哪幾個的目錄索引，以方便建立 RSS 資料與目錄索引的屬性關係；識別碼（Identifier）則用來作為此筆資料的檢索編碼。雖然在 Dublin Core 的 15 個元素中有可描述資訊的項目供使用，但為了簡化轉換過程所花費的時間，本研究只取 title、creator、subject 等欄位作為 RSS 格式之描述。圖7 文件資料標籤結構與其及資料型態 3.2 系統簡介 RSS 數位檔案資料庫檢索系統(RSS Digital Archives Retrieve System；以下簡稱 RDARS)由三個模組所組成：資訊檢索與發佈訂閱模組、目錄索引模組和關鍵字最佳化模組，如圖 8 為系統概觀圖。首先，使用者透過電腦使用 RDARS，系統提供資訊檢索與發佈訂閱模組、目錄索引模組與關鍵字最佳化模組功能，當使用者提出資訊請求後，系統會依照使用者需求進入 RSS Data Base 裡取出資訊，並將取得的資訊回傳給 RDARS 呈現於畫面上。本章節將對這三個模組中的各個元件功能及相關的流程運作一一介紹。圖8 系統概念圖 3.3 系統模組介紹資訊檢索與發佈訂閱模組(Information Retrieve & Publish/Subscribe Module)主要功能是讓使用者輸入所需的檢索的關鍵字，以及提供使用者可以訂閱想要閱讀的 RSS 資訊。最後將使用者所需的資訊呈現給使用者。目錄索引模組(Directory Classify Module)主要功能是透過 RSS 收集器至網際網路將收集而來的資訊，藉由上述所規劃的目錄索引方法，將這些資訊歸類到適合的目錄，這種分類方式方便系統資料的歸納與資料的處理，同時讓使用者可以透過目錄索引模組快速找到某一類別的所有資訊，如運動類別只出現與運動相關的 RSS 資訊，而不會出現不相干的資訊。關鍵字最佳化模組(Keyword optimization Module)主要是透過 RSS 收集器收集到的資訊，藉由使用者或是透過資料關聯詞庫表，將這些資訊加以編碼註解，以方便系統可以藉由編碼快速的檢索到使用者所需的資料，同時會提供與此資料相關的資訊。首先我們先對目錄索引的類別進行 16 進位編號，如表三。表三: 目錄索引編號表目錄索引英文名稱目錄索引編號名稱政治目錄索引英文名稱名稱目錄索引編號 01 影劇 showbiz 09 社會 politics society 02 旅遊 travel 10 財經 biz 03 生活 life 11 科技 tech 04 恐怖活動 terrorism 12 運動 sport 05 中東衝突 Middle East conflict 13 健康 health 06 伊拉克 Iraq 14 教育 edu 07 訃告 obituary 15 藝術 art 08 系統會先從 RSSDB 裡的 subject 欄位取出關鍵字進行編碼，例如某筆資料關鍵字為 ” 西班牙仿古船 ” 轉換成 ASCII 碼為 7675203130207538367A3B33656A33746A3036；”西”為 767520；”班”為 313020；” 牙”為 753836；”仿”為 7A3B33；”古”為 656A33；”船”為 746A3036；再依照不同領域的目錄索引編碼加入至前方，例如西班牙仿古船是屬於旅遊類編號為 10，就變成 107675203130207538367A3B33656A33746A3036；把這串數字建立於資料關聯詞庫表中的關鍵字編碼，每筆資料會有唯一的文件號碼，如表四其中一筆西班牙仿古船為 Z011011，再加上關鍵字 ASCII 碼就形成表中的關鍵字編碼，此碼會放入識別碼(identifier) 欄位，格式為目錄索引編號+關鍵字編號+唯一文件號碼。("ASCII,")此方法是在收尋資料時藉由資料關聯詞庫表中的關鍵字編碼之資訊，利用欄位的編號快速的連結到資料庫將資料擷取出來，這樣系統能快速的提供使用者資訊，不需要每筆資訊逐一搜尋。假設使用者輸入”王建民”，系統會要求你王建民是屬於運動分類的資訊，系統會先將”王建民”轉成 ASCII 碼為 6A3B367275303461757036，再加上運動為 05，形成 056A3B367275303461757036；將形成的這組字串進資料關聯詞庫表中的關鍵字編碼欄位進行比對，過程中會從左到右的進行比對，Z 開頭後的數字為文件號碼，系統比對結果找到兩筆符合的編碼如 056A3B367275303461757036Z010011 與 056A3B367275303461757036Z011000，接下來根據這兩筆的編碼 3 與編碼 4 進入資料庫作連結並擷取資訊，接下來會把擷取到的資訊經由 XML 包裝後傳給使用者閱讀，如表四資料關聯詞庫—關鍵字編碼以 16 進位表示。表四: 資料關聯詞庫表英文名稱目錄關鍵字關鍵字編碼索引編號 (ID) 編號 politics 01 sport 05 travel 10 travel 10 王金平 016A3B367275702071752F36Z000111 1 陳水扁 01 747036676A6F3331753033Z001001 2 王建民 056A3B367275303461757036Z010011 3 王建民 056A3B367275303461757036Z011000 4 西班牙 107675203130207538367A3B33656A3 3746A3036Z011011 仿古船西班牙 107675203130207538367A3B33656A3 3746A3036Z110000 仿古船 5 6 3.4 系統運作流程圖9 系統架構本系統分兩個作業流程來加以說明，分別為資料分類流程作業與使用者資料檢索流程作業，配合圖 9 系統架構圖中的運作流程編號，其運作方式如下列步驟: 3.4.1 資料分類流程作業 Step A.首先 RSS Date Base(以下簡稱 RSSDB)取出 RSS 資料，將原本的兩大分類中文裡的政治、社會、科技、財經等 13 個項目與英文的政治、運動、科學、恐怖活動等 15 個項目，進行結構化分類把原先重複的分類進行整合分成”國際&台灣”以及”其他”這兩大分類，除此之外將原資料轉換成新格式，另外儲存於新的資料庫，在新的資料庫中每筆資料擁有 Primary Key，供日後連結每筆資訊所需，如上 3.1 節所敘。 Step B.在檢索方面，首先會對這兩大分類裡的項目進行目錄索引編號如運動類別為 05，接下來系統會從 RSSDB 裡的 subject 欄位中抓取每筆資料的關鍵字，將得到的關鍵字進行 ASCII 編碼外，還會增加唯一的文件號碼與目錄索引編號組成一組數字建立資料關聯詞庫表裡，在每筆資料擁有編號，日後能藉由編號快速的從資料庫裡的 Primary Key 欄位值連結資訊，詳細方法如 3.3 節所述。 Step C.會抓取最新的資訊呈現於網頁畫面中，讓使用者進入網頁時可以即時看到最近的新聞資訊，另外如果使用者喜歡此筆資訊，可藉由 RSS Publish/Subscribe Component 元件下載此筆資訊，系統會紀錄使用者訂閱哪種類型的資訊，定期的傳送新資訊到使用者電腦。 3.4.2 使用者資料檢索流程作業 Step 1.User 進入到 RDARS 網站系統內，系統提供 RSS 發佈和訂閱元件(RSS Publish/Subscribe Component)與資訊檢索元件(Information Retrieve Component)兩種功能供使用者使用，在發佈與訂閱元件會發佈最新 RSS 資訊供使用者訂閱；在資訊檢索元件則是提供查詢的服務使用者可以進行查詢(Query)所需要的資訊，當使用者輸入關鍵字時，會列出最近熱門搜尋的關鍵字或是已存在於資料關連表中的 subject，使用者除了輸入關鍵字外還需要選擇所輸入的關鍵字是哪個領域，此動作會縮小資料庫的搜尋範圍。 Step 2.如果使用者下達的關鍵字是存在於資料關聯詞庫表中，將會從關鍵字表中挑取符合關鍵字編號的相關資訊，藉由每筆資訊的編號(ID)連結到 RSSDB 抓取資料，並包成 XML 格式傳輸到 RDARS 網站；如果不存在則直接進 RSSDB 取資料。 Step 3.系統會將使用者所需要的資訊利用多媒體技術呈現，藉此增加版面的互動性。 4. 結論與未來工作目前提供 RSS 資訊網站繁多，網站幾乎以發佈資訊為主，但是有些網站系統會將時間太久的 RSS 資料刪除，減少網站系統硬體的儲存空間，讓這些 RSS 資料無法永久保存，而且每個網站的 RSS 格式都不盡相同，沒有一個整體的規劃。本研究提出對 RSS 資料轉成數位典藏格式之建構，其目標是將 RSS 資料經由數位典藏轉換後，能擁有保存與分享達到資訊可再利用的價值，首先要對資料作結構化分類之建立，同時對每筆資訊的描述更加完整性，另一方面，透過 ASCII 編碼技術搭配結構化階層式的方式加強對資訊的檢索，讓系統可以達到有效率且符合使用者所需。未來在檢索方面，將對系統建立更完善的檢索系統，加入資料探勘原理與技術概念和記憶體快取概念等，如最近鄰演算法(Nearest Neighbor)、Web 文件探勘技術，讓資訊能更準確更快速的提供給使用者，減少使用者的等待時間；在適性化多媒體方面目前系統的 RSS 資訊是以單純的圖片和文字敘述呈現畫面，在影音與畫面的呈現較為薄弱，未來將搭配多媒體技術進行更具有互動性與動態的畫面呈現。參考文獻 1. 宋思齊. (1999). 數位博物館任遨遊. 科學月刊, 33(4), 301-306. 2. 政府入口網營運團隊. (2009). 政府新聞介接 RSS 應用說明. In 2009 年政府機關人員 -政府入口網應用教育訓練 (Ed.). 3. 張云濤、龔玲. (2007). 資料探勘原理與技術. 五南圖書出版股份有限公司. 4. 數位典藏國家型科技計畫 . (2007). 數位典藏技術彙編 2007 年版 , from http://www2.ndap.org.tw/eBook08/index.html 5. 6. 7. 8. Alkhatib, R., & Scholl, M. H. (2008). Efficient Compression and Querying of XML Repositories. Paper presented at the Database and Expert Systems Application, 2008. DEXA '08. 19th International Workshop on. ASCII. from http://www.asciitable.com/ Codd, E. F. (1970). A relational model of data for large shared data banks. Commun. ACM, 13(6), 377-387. doi: http://doi.acm.org/10.1145/362384.362685 Hai, G., Hui, X., Xiang-xu, M., Cheng-lei, Y., Lu, W., & Jian, L. (2005). Design and implementation of enabled grid-based digital museum. Paper presented at the Computer Supported Cooperative Work in Design, 2005. Proceedings of the Ninth International Conference on. 9. Haslhofer, B. (2008). The Open Archives Initiative Protocol for Metadata Harvesting. 10. JianGang, M., Gang, X., JinLing, W., & Tao, H. (2006). A Semantic Publish/subscribe System for Selective Dissemination of the RSS Documents. Paper presented at the Grid and Cooperative Computing, 2006. GCC 2006. Fifth International Conference. 11. Jiejing, C., Jun, Z., Jingjing, H., Jiali, T., & Xiaojun, W. (2010). The study on management and service of digital archives in Web 2.0. Paper presented at the Networking and Digital Society (ICNDS), 2010 2nd International Conference on. 12. Yin-Fu, H., & Shing-Hang, W. (2008). An Efficient XML query processing based on combining T-Bitmap and index techniques. Paper presented at the Computers and Communications, 2008. ISCC 2008. IEEE Symposium on. Upgrading Retrieval Performace for Digital Archive System Based on RSS Approach Chen, Jyi-Ta1 LIU, YUN-JU2 1 Department of Information Management, Southern Taiwan University andypony@mail.stut.edu.tw 2 Department of Information Management, Southern Taiwan University M9890109@webmail.stut.edu.tw Abstract Being the development of Internet technology, how to save and share information has become a permanent trend. The digital archive technology has improved the format specifications, branched out into the museum and library fields. Many books and antiquities have been digitalized. In the collection process, digital archive ensures the availability of digital data, providing the property of integrity, persistence and integrated. Through digital archive schemes, information can be permanently preserved and transmitted through Internet network around the world. There are many portals providing RSS News. Users can subscribe RSS information and get real-time news from RSS information. RSS messages have shortage that lack of permanent preservation and weak classification of information. Therefore, this study applies digital archives technology that equip with durability and integrity of information. We design a set of self-defined RSS format. The self-defined RSS information can be stored in a database and “link” tag of RSS format will perform well, even RSS lifetime expired over many months. For structured information classification, we use data normalization method to achieve target. Each RSS message has a unique ID, so that retrieval requests can be identified and response quickly by information classification and ID code. Keywords: RSS、Digital Archive、self-defined、tag、data normalization

RSS

Related documents

Products

Support

RSS

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib