RSS

advertisement
以 RSS 為格式提昇數位典藏系統檢索效能
陳志達 1
1
2
劉芸如 2
南台科技大學資訊管理所 andypony@mail.stut.edu.tw
南台科技大學資訊管理所 M9890109@webmail.stut.edu.tw
摘要
在全球網路科技發達的時代,如何將資料永久性保存與分享已經成為趨勢,而數位
典藏擁有完善的相關技術與格式規範,跨足在博物館與圖書館等各個領域,將傳統書本
與古物漸漸數位化,在典藏的過程中,能夠確保數位資料的可用性、完整性、持久性與
整合性,讓資訊可以永久保存並藉網際網路傳給世界各地。
目前國內相關 RSS 新聞網站繁多,各個網站的 RSS 格式規劃方面都是以訂閱和閱
讀居多,卻缺乏永久保存資料與分類檢索之服務。因此本研究提出利用數位典藏具備資
訊持久性與完整性之特色,建立出一套自訂的 RSS 格式,讓每筆 RSS 資訊可以完整的
儲存於資料庫中,並不會因為連結失效,導致此筆資訊消失,藉由資料正規化技術將收
集而來的資訊作結構化分類,在分類儲存過程中,會將每筆資訊增加唯一的識別碼,讓
檢索系統可以能藉由分類屬性與識別碼快速作資訊檢索。
本研究與目前檢索技術(如 Search engine optimization、Randomized Algorithms)做比
較,在檢索系統中,會依據每筆資訊的關鍵字與分類索引,利用 ASCII 編碼技術搭配索
引項目,對每筆資訊增加唯一的識別碼,當資料檢索時可以藉由識別碼快速作資訊檢索。
關鍵詞:RSS、數位典藏、self-defined、tag、data normalization
以 RSS 為格式提昇數位典藏系統檢索效能
1. 簡介
1.1 背景
最近幾年來知識傳播與分享成為社會的主軸,而龐大的知識源頭來自於每個世紀的
知識文化與技術的傳承,從最開始的方法都是靠一代傳一代流傳知識與技術,直到紙張
的發明,讓技術不會因為無人繼承和遺忘而流傳,但卻會被氣候和人為因素遭到破壞,
導致文化與知識越來越珍貴,基於這些理由,如何讓傳統文件的資料變成數位化儲存在
電腦中,並把單調的資料融入現代人的生活當中,要靠網際網路的普遍性、方便性的特
色,以及提供有需要者可藉由電腦連線到數位典藏網站來閱讀。
但是隨著時代的變遷,數位典藏的資料量開始日益龐大,同時視訊技術的進步,讓
圖文可變成影像儲存在網路中,但隨之帶來的是龐大的資料量,且影像大小不同也會影
響到下載的速度,如何在不破壞圖像原品質的情況下,利用現有的壓縮技術來改進,並
同時提供快速且精確的搜尋系統,是數位典藏的未來趨勢所在。
數位典藏日益不斷更新資料訊息,網路使用者卻無法馬上得知是否有新的資訊,如
何掌握第一手的消息,也已成為數位典藏與網路使用者的互動的一個課題。RSS 從 1996
年發展 RSS 0.9 版到 RSS 2.0 版,其中利用了 XML 的名稱空間以增加它的擴充性,RSS
資料格式只需要 title、description、link 與 pubDate 這四項元素即可描述文件相關資訊,
針對資料庫的應用可進一步作處理,同時網路使用者也可以利用 RSS 的功能訂閱自己所
需要的資訊。
1.2 動機
近幾年來國內開始吹起一股資訊數位化之熱潮,進而招募人才進行撰寫數位典藏計
劃並開發新的系統,而這些舉動促使數位典藏的資料量日益成長,每個不同型態的資料
所使用的資料規格也不盡相同,即使可以透過人力將檔案與資料規格轉換成官方標準,
也需要耗費不少時間,而且在資源共享方面是有些限制,每個網站所呈現的資源都不一
樣,使得瀏覽者為了搜尋某些特定的資訊需要花費更多時間瀏覽各大網站。
本研究提出利用數位典藏具備資訊持久性與完整性之特色,讓 RSS 資訊不會因為連
結失效,導致此筆資訊消失,同時數位典藏已有詳細的要求完整的資訊描述之規範,所
以本研究藉此特性,建立出一套自訂的 RSS 格式,讓每筆資訊可以完整的儲存於資料
庫,並藉由資料正規化技術將收集而來的資訊作結構化分類,在分類儲存過程中,會將
每筆資訊增加唯一的識別碼,讓檢索系統可以能藉由分類屬性與識別碼快速作資訊檢
索。
1.3 目的
本研究目的是達成數位典藏技術的突破,經由建構平台知識網路作為基礎,從各大
網站的RSS資料作蒐集、彙整、分類等,依照數位典藏格式並針對RSS資料屬性作格式
上的處理,進行RSS資料屬性的編排、分類和儲存,有效索引運用,透過RSS系統發佈
與訂閱訊息,推廣數位典藏儲存的資訊,同時強化資訊的處理、典藏內容的有效擷取,
讓知識能成功的轉成數位化妥善保存,再利用廣大的社群達到數位典藏網站的互動性。
同時如何讓一個單調的資訊可以吸引瀏覽者去閱讀,以及數位典藏網站如何與人做
互動,可以使用現有的Web2.0技術來實踐。Web 2.0是一種新的網際網路型態,透過網
路應用促進網路上人與人間的資訊交換和協同合作,其模式主要以使用者為中心。
(Jiejing, Jun, Jingjing, Jiali, & Xiaojun, 2010)
本研究遵循數位典藏規範外,還利用Web2.0的特色與技術,建構出符合數位典藏與
Web2.0概念之系統,以提升使用者與典藏系統間的互動性,同時此系統兼具處理最新即
時新聞的資料作統一的規劃。以下所列為系統的特色:

使用者的互動與參與

建立常用的關鍵字詞庫

降低搜尋時等待的時間

以RSS為基礎之典藏資訊訂閱/發佈系統

永久保存RSS資訊與完整的RSS資訊之相關敘述
2. 文獻探討
2.1 XML(eXtensible Markup Language)
可延伸標記語言(eXtensible Markup Language;XML)是從 1998 年網際網路標準組織
(World Wide Web Consortium;W3C)所提出來的標記語言,標記語言是運用特殊的標示
方式『<』與『>』符號加上文字也就是標籤名稱形成的。至今有許多研究與技術使用
XML 當作儲存資料與交換資料的格式,為何 XML 使用範圍如此廣大,以下敘述為 XML
的特色:(Alkhatib & Scholl, 2008)
簡單好上手:語法結構簡單,容易被閱讀。
延伸性:使用者可以自行制定標籤。
精確度:讓複雜的資料集以階層式架構呈現,能快速又精確的搜尋。
跨平台:透過 XML 做為交流媒介,只要有 XML Parser 就能解讀資訊,可讓不同的
應用程式交換資料,無須考慮平台的問題。
可攜性:XML 是以文字為基礎的規範,資料是以純文字就可以儲存。
為了促進資料交換的標準性,在資料傳送及資料接收兩方都必須要有共同的協議與
結構,雙方可以採取 XML 所提供的兩種方式:DTD 及 XML Schema,用來負責檢驗雙
方 XML 資料結構及格式。
2.2 RSS
RSS (Really Simple Syndication) 是一種將網頁最新訊息以及新聞以 XML 為基礎描述
格式同步發送予訂閱者,主要用來聯合各網站超連結的清單,並藉由附屬的一些描述資
訊(Metadata)讓資訊消費者能決定是否要進一步瀏覽完整的詳細內容。RSS 應用越來越
普及,隨著 Web 2.0 的興起,每個網站都可以看到 RSS 的圖示,這些圖示代表著此網站
有提供 RSS 服務,而且 RSS 不僅僅用於發布新聞資訊,還可以對一篇文章或一段話進
行 RSS 包裝,藉由 RSS 功能可以讓發文者的文章提供人訂閱,網頁發開者能建立出屬
於自己的符合 RSS 規格的檔案,稱為 RSS feed。此外,RSS 不僅能在電腦上閱讀外,
只要手機軟體內有安裝 RSS 閱讀器即可發布/訂閱/閱讀 RSS 資訊,讓 RSS 的應用更加
廣泛。下列為 RSS 的主要特色:
結構簡單化:RSS 描述一筆資訊,只需要 title、description、link 和 pubDate 這四項
元素。Title 用來描述資訊的主題;description 為欲描述資訊的 Metadata;link 是資訊來
源,它可以是一串網頁連結或其他文字類型的文件;pubDate 則是紀錄該資訊的發布時
間。
彈性高:配合網頁技術依照 RSS 規範制定 XML 文件,系統會自動編譯並提供給使
用者訂閱,站在資訊提供者的立場來看,RSS 技術的導入是不需要花費太多成本而且非
常方便,因此有越來越多的資訊提供者願意提供 RSS 服務。
在 2009 年由政府入口網營運團隊提出當機關介接政府新聞 RSS 後,將不再經由政
府入口網內容管理-政府新聞核准的作業流程,系統將自動上架機關所提供之新聞內
容,並可確定所上架之新聞 RSS 中的 Meta Tag 符合行政院研究發展考核委員會所訂定
之「行政機關電子資料流通詮釋資料及分類檢索規範」
,如圖 1。(政府入口網營運團隊,
2009)
<?xml version="1.0"?>
<rss version="2.0">
<channel>
<title>Liftoff News</title>
<link>http://liftoff.msfc.nasa.gov/</link>
<description>Liftoff to Space Exploration.</description>
<language>en-us</language>
<pubDate>Tue, 10 Jun 2003 04:00:00 GMT</pubDate>
<docs>http://blogs.law.harvard.edu/tech/rss</docs>
<generator>Weblog Editor 2.0</generator>
<managingEditor>editor@example.com</managingEditor>
</channel>
</rss>
圖1 RSS 範例
2.3 OAI
OAI(Open Archives Initiative Protocol)常被拿來應用在圖書館書籍編碼、期刊、博物
館等,是一套具備可以獨立的應用程式,而且這些獨立應用程式可互相運作,能夠定義
一個套 Metadata 機制,OAI 協定主要分為兩部分伺服器提供者(Service Provider)與資料
提供者(Data Provider),使用者可以藉由伺服器端提出請求,而資料提供者會到各個儲存
器取出資料回覆給伺服器,如圖 2 為 OAI 組成元件圖。(Haslhofer, 2008)
OAI 協定裡定義包含儲存器(Repository)是透過 HTTP 伺服器可以接受 OAI 協定所
提出的存取資料要求;資料集(Set)主要是將資料以階層式架構表示,方便取得所有需要
的資料;資料錄(Record)從伺服器依照 OAI 協定,從儲存器內將資料以 XML 編碼傳回
前端的 metadata。
Repository
Request
Repository
Response
Service
Provider
Data
Provider
Repository
圖2 OAI 組成元件圖
2.4 數位典藏
數位典藏計畫從 1998 年年底開始實施「數位博物館」專案研究計畫,鼓勵單位參
加計畫,利用既有的數位典藏,建立一套具有規律與整合性的數位內容。該項計畫的內
容提供者計有「台灣本土魚類之數位典藏計畫」
、
「台灣本土植物數位典藏計畫」
、
「電子
文化與自然資源資料庫」等。建立了描述資料的工作規範與程序,並對資料型式建立了
完整的標準規範,在多媒體資料管理部分,由描述資料伺服器,控制資料後端製作伺服
器,直接產生典藏多媒體資料庫物件與資料庫表單連結,以維護描述資料之一致性。
數位典藏的硬軟體平台,包括伺服主機、大量儲存設備和內涵管理軟體,從工作環
境角度來看,數位典藏資訊主要有生產、傳播、呈現與典藏等四個階段。在「生產」資
料的階段,可以再分為「資料數位化」和「數位資料後製作」的兩個階段,「數位資料
後製作」目的,在於對資料作細部註解,以提高資訊搜尋的準確度,並賦予使用介面呈
現時的預先處理;典藏數位化「傳播」功能,則包括使用者透過網路來取得資訊或複製
資訊,需考量使用者網路頻寬之限制、線上傳輸費用與花費時間等因素;在「呈現」階
段,所對應的核心技術則是索引與檢索架構,和多媒體呈現等資訊技術功能;至於「典
藏」的主體,則是除了資料數位化之後的物件外,也包括了資料整理與分析而制訂的詮
釋(後設)資料(Metadata)
,對於典藏資料通常會經過前製階段,編織成為比較活潑生
動的網頁形式來展現。因此對於典藏數位化的系統設計上,更需對資料庫標準化、多媒
體資料典藏與呈現、網路安全、智慧財產權、系統規模與網路頻寬與品質等,均需作系
統設計考量。
Vatican Museums 將珍貴的教廷手稿數位化,提供全球學者進行歷史研究;羅浮宮
則以典藏數位化為主,重視多媒體技術的展現;大英博物館則挑選館藏進行數位化,並
強調教育主題。(宋思齊, 1999)
2.5 資訊檢索
資訊檢索是擷取、組織和利用資訊的重要技術領域。隨著數位典藏資料急遽成長,
若使用者無法得知有哪些典藏資料符合其需求,再多的典藏內容對其而言,也缺乏使用
價值。依資料型態的不同,資訊檢索技術大致可分為兩大類:資料庫檢索、文件資訊檢
索。
「資料庫檢索」主要探討結構化資料的檢索方式,其應用範圍以傳統資料庫為主,
例如目前最著名也最常用的資料模型為關聯式資料庫(Relational database),最早由 E. F.
Codd 於 1970 年提出,利用表格式的結構化資料模型,儲存文物典藏品的各種屬性,
並提供許多檢索功能,以協助使用者快速搜尋符合某些欄位條件的典藏記錄。(Codd,
1970)
「文件資訊檢索」主要探討非結構化文件資料的檢索方式,其應用範圍以搜尋引擎
為主,相對於資料庫檢索的方法,文件資訊檢索方法中並無專家事先規劃好的固定欄位
資料以供查詢,文件中出現的任意詞彙或主題都可能是使用者搜尋的目標,一般而言,
文件內容可藉由一組索引詞彙(Index Terms)或關鍵詞彙(Keywords)來表示,當我們做關
鍵字檢索時,文件資訊檢索系統會比對這些索引詞彙與使用者查詢的關鍵字之相關性,
所用的關鍵字決定檢索結果的好壞,因此必須注意下面幾個原則:選擇的關鍵字要能正
確傳達研究主題的中心概念,並選用意義明確的字彙;輸入的片語或詞組越明確,則越
容易找到符合使用者的資訊。(張云濤、龔玲, 2007)
3. 系統架構設計
本研究主要目標是將 RSS 資料轉為數位典藏的格式,並進行資料分類分析、處理及
呈現,整合數位典藏整體資訊技術之知識,使資訊技術架構與開發環境能作整體系統的
考量與設計,將 RSS 典藏資源作完善保存,在檢索方面利用 ASCII 編碼技術搭配資料
目錄索引項目,讓 RSS 資料能快速的被利用,提供瀏覽者查閱歷史資訊、研究與教育之
用途,以達到資訊共享之目標。(Hai et al., 2005)
3.1 如何典藏 RSS 資料
本研究參考 OAI 協定,對現行資料進行前置處理,並制定 XML 與 DTD 格式規範。
由於 RSS 資料是由其他網站經由收集器所蒐集的資訊,此資料已經是數位化的資訊,而
且已經事先經過簡單的分類處理儲存在資料庫,但是此資料事先分類的目錄屬性重複性
過高,所以本研究參考入口網站對新聞的分類,以結構化階層式的方式重新對目錄屬性
進行分類並儲存,如圖 3 為資料歸納目錄索引關聯圖(左邊為原始資料分類圖;右邊為
目錄索引關聯圖) (Yin-Fu & Shing-Hang, 2008)。左圖中原始資料分類當初是以”英文”與”
中文”作節點的分支,底下再分支政治、財經、科技等。右圖中是將重複的項目作整合,
規劃成一個新的結構化階層式來呈現,如把原本的”中文”與”英文”,取一個新的名稱”
國際&台灣”,裡面包含中文新聞與英文新聞,把原本的”中文”與”英文”裡的相同項目(如
中文-政治;英文-政治)作整合;恐怖活動、中東衝突、伊拉克等歸類到”其他”。
圖3 資料歸納目錄索引關聯圖
3.1.1 Dublin Core 詮釋資料格式
本研究針對在 OAI Data Provider 所提供不同的典藏之資料種類,並且根據不同
Metadata 設計各種 XML schema。除了將原有的資料欄位保留外,再增加識別碼、權限
管理與來源等欄位將資料的資訊的描述更為完整性,同時所提供的 Dublin Core 格式
Metadata 均符合 oai_dc OAI-defined XML schema 格式,表一為資料格式之 Metadata 元
素說明表。
表一: 資料格式之 Metadata 元素說明表
欄位名稱
Title
標示
定義
題名
Creator
創作者 資源之主要創作者。
資源所賦予的名稱。
Subject and 主題和 簡單的資源內容之描
Keywords
關鍵詞 述。
Description 描述
對資源之相關說明。
說明
題名是資源的正式標題名稱。
創作者包括個人、團體機構或服務系統。
可用關鍵詞或分類號來表示資源之內
容。
簡述可包括摘要或對於內容的文字敘述
等。
Publisher
出版者 資源提供者。
出版者包括個人、團體機構或服務單位。
Date
日期
日期通常可用來表示資源的創作或可供
資源的日期。
使用的時間。建議遵循 ISO 8601
[WDTF]之標準著錄日期,即以
YYYY-MM-DD 的格式著錄。
Type
Identifier
Language
資源類 資源之屬性。
資源類型包括描述資源之性質、功能、
型
類別等。
識別碼 資源在某環境中明確
建議利用字串或數字組成的識別系統來
語文
的辨識資料。
辨識資源。
資源內容之語文。
建議使用 RFC1766 並併用 ISO639 標
準,該標準使用兩個與三個字母做為語
文代碼。
Rights
權限管 有關權限的相關資
權限管理包括資源的權限申明,或說明
理
提供該資源的服務機構。
訊,包括資源原有的
或被賦予的權限。
Source
來源
說明衍生出本資源的
本資源可能完全或部份由原始資源衍生
原始資源。
而出。建議利用字串或數字所組成的識
別系統來表示其原始資源。
3.1.2 RSS 轉數位典藏之 XML 規劃設計
每日在網路上的 RSS 資料日益增加,目前國內外著名入口網站都有提供 RSS 即時
新聞的訂閱,吾人亦利用爬蟲程式(crawler)蒐集數量龐大的 RSS 資訊,如圖 4,而如何
簡化 RSS 格式,亦是研究的重點。為了讓 RSS 資料格式轉成數位典藏資料格式,對 RSS
資料進行重新命名與增加數位典藏必須要有的相關重要欄位,例如來源、權限主體和關
鍵詞等。(JianGang, Gang, JinLing, & Tao, 2006)
圖4 RSS 資料蒐集系統
如何讓兩個資料相對應並填入新的格式?首先針對原始資料屬性與新格式的屬
性,如果屬性類型一樣的就歸類在一起,例如:原始欄位中的 Title1 是資料的標題名稱
與新欄位中 Title 視為同屬性,如表二為資料格式之 Metadata 元素說明表,之後把原始
欄位資料填入新欄位中,而要是與原始欄位無對應則經由 Link1 或 Source 欄位連結到圖
5 為原始網站程式碼中擷取資料,如圖 5 中程式會抓取< label >裡的 NOWnews 填入到圖
6 中的 publisher 欄位裡,或由設計者自行填入資料,如圖 6 為 XML 之數位典藏格式規
劃圖。
表二: 資料格式之 Metadata 元素說明表
新欄位名稱
Title
Description
Date
Source
Publisher
Type
<div id="ynwsart">
<div class="hd"><div></div></div>
原始欄位名稱
Title1
Describe1
pubDate2
Link1
S
C2
<div class="bd">
<h1>MLB/王建民復出指標? 響尾蛇王牌冀望 9 月中回大聯盟</h1>
<div class="offer">
<label><a
href="http://tw.rd.yahoo.com/referurl/news/logo/ettoday//SIG=10pugg0rl/*http://www.no
wnews.com/" target="_blank"><img
src="http://l.yimg.com/f/i/tw/news/newspartner2006/ettoday.jpg" alt="NOWnews"
/></a></label>
<span>更新日期:<q>2010/08/31 12:34</q></span>
<em>記者陳浚錡/綜合報導</em>
</div>
<div class="w">
<div id="ynwsartcontent">
<p>同樣受肩傷所擾的響尾蛇王牌韋伯(Brandon Webb)恢復狀況可能作為<a
href="?" class="ynwsyq" title="王建民"><span>王建民</span></a>復出指標。</p>
</div>
</div>
</div>
圖5 原始網站程式碼
<?xml version="1.0" encoding="UTF-8"?>
<oai_dc:dc
xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/
http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
<dc:title xml:lang="ch">MLB/王建民復出指標?響尾蛇王牌冀望 9 月中回大聯盟
</dc:title>
<dc:creator>陳浚錡</dc:creator>
<dc:subject>響尾蛇,王建民</dc:subject>
<dc:publisher> NOWnews</dc:publisher>
<dc:date>2008-8-17</dc:date>
<dc:type> sport </dc:type>
<dc:description>同樣受肩傷所擾的響尾蛇王牌韋伯(Brandon Webb)恢復狀況
可能作為王建民復出指標。</dc:description>
<dc:identifier>056A3B367275303461757036Z010011</dc:identifier>
<dc:Source>http://tw.news.yahoo.com/article/url/d/a/100831/17/2c4ii.html</dc:Sour
ce>
<dc:language>Chinese</dc:language>
<dc:rights xml:lang="ch">Public Domain</dc:rights>
</oai_dc:dc>
圖6 XML 之數位典藏格式規劃圖
3.1.3 DTD 格式說明
要將所有的 RSS 資料整合到目錄索引系統為極大的工程,因此必須設法提出一套有
制度的轉換過程,各領域資料之特色與屬性,會依資料特性及設計者需求個別設計詮釋
資料格式,為了使各類詮釋資料格式得以互通(interoperability),其中以跨領域的資訊描
述都柏林核心集( Dublin Core metadata element set)為考量規範,被許多國家與學者採
用,同時也出現在 W3C (WWW Consortium)及 Z39.50 規範中,這份規範只包含通用的
都柏林核心集欄位,區域性的需求或政策,可依需要由使用者加上限制、規則及解釋,
此 定 義 來 自 於 Tim Berners-Lee 等 人 所 著 的 Internet RFC2396 “ Uniform Resource
Identifiers (URI): Generic Syntax”文件,而就 DC 的應用而言,資源主要乃指電子文獻。
(數位典藏國家型科技計畫, 2007)
因此本研究設計一個文件資料標籤結構與其及資料型態(Data Type),來驗證所制訂
出的 XML schema 是否符合數位典藏規範,如圖 7。如題名(Title)元素描述此筆資料
的正式標題;而資源類型(Type)元素則是記錄此筆 RSS 資料被分類到哪幾個的目錄索
引,以方便建立 RSS 資料與目錄索引的屬性關係;識別碼(Identifier)則用來作為此筆
資料的檢索編碼。雖然在 Dublin Core 的 15 個元素中有可描述資訊的項目供使用,但為
了簡化轉換過程所花費的時間,本研究只取 title、creator、subject 等欄位作為 RSS 格
式之描述。
圖7 文件資料標籤結構與其及資料型態
3.2 系統簡介
RSS 數位檔案資料庫檢索系統(RSS Digital Archives Retrieve System;以下簡稱
RDARS)由三個模組所組成:資訊檢索與發佈訂閱模組、目錄索引模組和關鍵字最佳化
模組,如圖 8 為系統概觀圖。首先,使用者透過電腦使用 RDARS,系統提供資訊檢索
與發佈訂閱模組、目錄索引模組與關鍵字最佳化模組功能,當使用者提出資訊請求後,
系統會依照使用者需求進入 RSS Data Base 裡取出資訊,並將取得的資訊回傳給 RDARS
呈現於畫面上。本章節將對這三個模組中的各個元件功能及相關的流程運作一一介紹。
圖8 系統概念圖
3.3 系統模組介紹
資訊檢索與發佈訂閱模組(Information Retrieve & Publish/Subscribe Module)主要功
能是讓使用者輸入所需的檢索的關鍵字,以及提供使用者可以訂閱想要閱讀的 RSS 資
訊。最後將使用者所需的資訊呈現給使用者。
目錄索引模組(Directory Classify Module)主要功能是透過 RSS 收集器至網際網路將
收集而來的資訊,藉由上述所規劃的目錄索引方法,將這些資訊歸類到適合的目錄,這
種分類方式方便系統資料的歸納與資料的處理,同時讓使用者可以透過目錄索引模組快
速找到某一類別的所有資訊,如運動類別只出現與運動相關的 RSS 資訊,而不會出現不
相干的資訊。
關鍵字最佳化模組(Keyword optimization Module)主要是透過 RSS 收集器收集到的
資訊,藉由使用者或是透過資料關聯詞庫表,將這些資訊加以編碼註解,以方便系統可
以藉由編碼快速的檢索到使用者所需的資料,同時會提供與此資料相關的資訊。首先我
們先對目錄索引的類別進行 16 進位編號,如表三。
表三: 目錄索引編號表
目錄索引
英文名稱
目錄索引編號
名稱
政治
目錄索引
英文名稱
名稱
目錄索引編號
01
影劇
showbiz
09
社會
politics
society
02
旅遊
travel
10
財經
biz
03
生活
life
11
科技
tech
04
恐怖活動
terrorism
12
運動
sport
05
中東衝突
Middle East
conflict
13
健康
health
06
伊拉克
Iraq
14
教育
edu
07
訃告
obituary
15
藝術
art
08
系統會先從 RSSDB 裡的 subject 欄位取出關鍵字進行編碼,例如某筆資料關鍵字
為
”
西
班
牙
仿
古
船
”
轉
換
成
ASCII
碼
為
7675203130207538367A3B33656A33746A3036;”西”為 767520;”班”為 313020;”
牙”為 753836;”仿”為 7A3B33;”古”為 656A33;”船”為 746A3036;再依照不
同領域的目錄索引編碼加入至前方,例如西班牙仿古船是屬於旅遊類編號為 10,就變成
107675203130207538367A3B33656A33746A3036;把這串數字建立於資料關聯詞庫表中
的關鍵字編碼,每筆資料會有唯一的文件號碼,如表 四其中一筆西班牙仿古船為
Z011011,再加上關鍵字 ASCII 碼就形成表中的關鍵字編碼,此碼會放入識別碼(identifier)
欄位,格式為目錄索引編號+關鍵字編號+唯一文件號碼。("ASCII,")此方法是在收尋資
料時藉由資料關聯詞庫表中的關鍵字編碼之資訊,利用欄位的編號快速的連結到資料庫
將資料擷取出來,這樣系統能快速的提供使用者資訊,不需要每筆資訊逐一搜尋。
假設使用者輸入”王建民”,系統會要求你王建民是屬於運動分類的資訊,系統會
先將”王建民”轉成 ASCII 碼為 6A3B367275303461757036,再加上運動為 05,形成
056A3B367275303461757036;將形成的這組字串進資料關聯詞庫表中的關鍵字編碼欄
位進行比對,過程中會從左到右的進行比對,Z 開頭後的數字為文件號碼,系統比對結
果 找 到 兩 筆 符 合 的 編 碼 如
056A3B367275303461757036Z010011
與
056A3B367275303461757036Z011000,接下來根據這兩筆的編碼 3 與編碼 4 進入資料庫
作連結並擷取資訊,接下來會把擷取到的資訊經由 XML 包裝後傳給使用者閱讀,如表
四資料關聯詞庫—關鍵字編碼以 16 進位表示。
表四: 資料關聯詞庫表
英文名稱
目 錄 關鍵字
關鍵字編碼
索引
編號
(ID)
編號
politics
01
sport
05
travel
10
travel
10
王金平
016A3B367275702071752F36Z000111
1
陳水扁
01 747036676A6F3331753033Z001001
2
王建民
056A3B367275303461757036Z010011
3
王建民
056A3B367275303461757036Z011000
4
西 班 牙 107675203130207538367A3B33656A3
3746A3036Z011011
仿古船
西 班 牙 107675203130207538367A3B33656A3
3746A3036Z110000
仿古船
5
6
3.4 系統運作流程
圖9 系統架構
本系統分兩個作業流程來加以說明,分別為資料分類流程作業與使用者資料檢索流
程作業,配合圖 9 系統架構圖中的運作流程編號,其運作方式如下列步驟:
3.4.1 資料分類流程作業
Step A.首先 RSS Date Base(以下簡稱 RSSDB)取出 RSS 資料,將原本的兩大分類中
文裡的政治、社會、科技、財經等 13 個項目與英文的政治、運動、科學、恐怖活動等
15 個項目,進行結構化分類把原先重複的分類進行整合分成”國際&台灣”以及”其他”這
兩大分類,除此之外將原資料轉換成新格式,另外儲存於新的資料庫,在新的資料庫中
每筆資料擁有 Primary Key,供日後連結每筆資訊所需,如上 3.1 節所敘。
Step B.在檢索方面,首先會對這兩大分類裡的項目進行目錄索引編號如運動類別為
05,接下來系統會從 RSSDB 裡的 subject 欄位中抓取每筆資料的關鍵字,將得到的關鍵
字進行 ASCII 編碼外,還會增加唯一的文件號碼與目錄索引編號組成一組數字建立資料
關聯詞庫表裡,在每筆資料擁有編號,日後能藉由編號快速的從資料庫裡的 Primary Key
欄位值連結資訊,詳細方法如 3.3 節所述。
Step C.會抓取最新的資訊呈現於網頁畫面中,讓使用者進入網頁時可以即時看到最
近的新聞資訊,另外如果使用者喜歡此筆資訊,可藉由 RSS Publish/Subscribe Component
元件下載此筆資訊,系統會紀錄使用者訂閱哪種類型的資訊,定期的傳送新資訊到使用
者電腦。
3.4.2 使用者資料檢索流程作業
Step 1.User 進入到 RDARS 網站系統內,系統提供 RSS 發佈和訂閱元件(RSS
Publish/Subscribe Component)與資訊檢索元件(Information Retrieve Component)兩種功能
供使用者使用,在發佈與訂閱元件會發佈最新 RSS 資訊供使用者訂閱;在資訊檢索元件
則是提供查詢的服務使用者可以進行查詢(Query)所需要的資訊,當使用者輸入關鍵字
時,會列出最近熱門搜尋的關鍵字或是已存在於資料關連表中的 subject,使用者除了輸
入關鍵字外還需要選擇所輸入的關鍵字是哪個領域,此動作會縮小資料庫的搜尋範圍。
Step 2.如果使用者下達的關鍵字是存在於資料關聯詞庫表中,將會從關鍵字表中挑
取符合關鍵字編號的相關資訊,藉由每筆資訊的編號(ID)連結到 RSSDB 抓取資料,並
包成 XML 格式傳輸到 RDARS 網站;如果不存在則直接進 RSSDB 取資料。
Step 3.系統會將使用者所需要的資訊利用多媒體技術呈現,藉此增加版面的互動性。
4. 結論與未來工作
目前提供 RSS 資訊網站繁多,網站幾乎以發佈資訊為主,但是有些網站系統會將時
間太久的 RSS 資料刪除,減少網站系統硬體的儲存空間,讓這些 RSS 資料無法永久保
存,而且每個網站的 RSS 格式都不盡相同,沒有一個整體的規劃。本研究提出對 RSS
資料轉成數位典藏格式之建構,其目標是將 RSS 資料經由數位典藏轉換後,能擁有保存
與分享達到資訊可再利用的價值,首先要對資料作結構化分類之建立,同時對每筆資訊
的描述更加完整性,另一方面,透過 ASCII 編碼技術搭配結構化階層式的方式加強對資
訊的檢索,讓系統可以達到有效率且符合使用者所需。
未來在檢索方面,將對系統建立更完善的檢索系統,加入資料探勘原理與技術概念
和記憶體快取概念等,如最近鄰演算法(Nearest Neighbor)、Web 文件探勘技術,讓資訊
能更準確更快速的提供給使用者,減少使用者的等待時間;在適性化多媒體方面目前系
統的 RSS 資訊是以單純的圖片和文字敘述呈現畫面,在影音與畫面的呈現較為薄弱,未
來將搭配多媒體技術進行更具有互動性與動態的畫面呈現。
參考文獻
1.
宋思齊. (1999). 數位博物館任遨遊. 科學月刊, 33(4), 301-306.
2.
政府入口網營運團隊. (2009). 政府新聞介接 RSS 應用說明. In 2009 年政府機關人員
-政府入口網應用教育訓練 (Ed.).
3.
張云濤、龔玲. (2007). 資料探勘原理與技術. 五南圖書出版股份有限公司.
4.
數 位 典 藏 國 家 型 科 技 計 畫 . (2007). 數 位 典 藏 技 術 彙 編 2007 年 版 , from
http://www2.ndap.org.tw/eBook08/index.html
5.
6.
7.
8.
Alkhatib, R., & Scholl, M. H. (2008). Efficient Compression and Querying of XML
Repositories. Paper presented at the Database and Expert Systems Application, 2008.
DEXA '08. 19th International Workshop on.
ASCII. from http://www.asciitable.com/
Codd, E. F. (1970). A relational model of data for large shared data banks. Commun.
ACM, 13(6), 377-387. doi: http://doi.acm.org/10.1145/362384.362685
Hai, G., Hui, X., Xiang-xu, M., Cheng-lei, Y., Lu, W., & Jian, L. (2005). Design and
implementation of enabled grid-based digital museum. Paper presented at the Computer
Supported Cooperative Work in Design, 2005. Proceedings of the Ninth International
Conference on.
9. Haslhofer, B. (2008). The Open Archives Initiative Protocol for Metadata Harvesting.
10. JianGang, M., Gang, X., JinLing, W., & Tao, H. (2006). A Semantic Publish/subscribe
System for Selective Dissemination of the RSS Documents. Paper presented at the Grid
and Cooperative Computing, 2006. GCC 2006. Fifth International Conference.
11. Jiejing, C., Jun, Z., Jingjing, H., Jiali, T., & Xiaojun, W. (2010). The study on
management and service of digital archives in Web 2.0. Paper presented at the
Networking and Digital Society (ICNDS), 2010 2nd International Conference on.
12. Yin-Fu, H., & Shing-Hang, W. (2008). An Efficient XML query processing based on
combining T-Bitmap and index techniques. Paper presented at the Computers and
Communications, 2008. ISCC 2008. IEEE Symposium on.
Upgrading Retrieval Performace for Digital Archive System
Based on RSS Approach
Chen, Jyi-Ta1
LIU, YUN-JU2
1
Department of Information Management, Southern Taiwan University
andypony@mail.stut.edu.tw
2
Department of Information Management, Southern Taiwan University
M9890109@webmail.stut.edu.tw
Abstract
Being the development of Internet technology, how to save and share information has
become a permanent trend. The digital archive technology has improved the format
specifications, branched out into the museum and library fields. Many books and antiquities
have been digitalized. In the collection process, digital archive ensures the availability of
digital data, providing the property of integrity, persistence and integrated. Through digital
archive schemes, information can be permanently preserved and transmitted through Internet
network around the world.
There are many portals providing RSS News. Users can subscribe RSS information and
get real-time news from RSS information. RSS messages have shortage that lack of
permanent preservation and weak classification of information. Therefore, this study applies
digital archives technology that equip with durability and integrity of information. We design
a set of self-defined RSS format. The self-defined RSS information can be stored in a
database and “link” tag of RSS format will perform well, even RSS lifetime expired over
many months. For structured information classification, we use data normalization method to
achieve target. Each RSS message has a unique ID, so that retrieval requests can be identified
and response quickly by information classification and ID code.
Keywords: RSS、Digital Archive、self-defined、tag、data normalization
Download