| 建立華文教育及中華文化大門網站之研究 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 參、中文搜尋引擎發展現況 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
一、中文搜尋引擎之種類、特性及發展環境 根據Netsizer(http://www.netsizer.com/)於1999年8月的統計,全球網站總數約為3,224,331個,所擁有的網頁總數更高達八億個。上網者要從網路中尋找到所需的資源,就需要透過搜尋引擎的協助。 目前Internet上所提供的搜尋引擎可分為兩大類型,一種是將網路上的資源依「內容主題」或「網站類型」分類,便於使用者找尋所需要的網站,這一類我們將其稱為「目錄服務」。另一種功能稱為「全文檢索」,使用者只需要輸入欲搜尋的文字,便可以找到所有包含這串文字的網頁。另外還有其它特殊用途的搜尋服務,不屬於以上兩種類型。以下分別作詳細介紹:
(一)目錄服務 目錄服務就如同圖書館的分類一樣,將網站依據內容主題的不同,分別放在各種不同的類別中,而每一種類別底下區分為更細的的子類別,成為「階層式」的架構。使用者由首頁的分類往下尋找,逐步縮小範圍,最後找到所需的網站。 目錄服務網站的運作方式,分為幾個部分: 目錄服務網站的最大好處,是蒐集的資源素質較整齊,不會參雜「垃圾資訊」,適合根據資訊內容主題來尋找網站的使用者。但是因為網站的管理人員必須花費時間去整理歸納資料,而隨著網站規模的增加,人力需求愈來愈大,容易造成更新速度太慢的問題,而影響鏈結的正確性。 目前Internet上較具規模的目錄服務網站,包括國外的YAHOO!、AOL、Lycos、Infoseek等,國內則有蕃薯藤、奇摩、ToDo等網站,中國大陸則有搜狐、Goyoyo、新浪網。(參考表3-1,3-2)
(二)全文檢索服務 第二種搜尋網路資源的方式是「全文檢索」,使用者輸入需要的文字,就可以找到所有包含搜尋文字的網頁內容。搜尋結果通常以關鍵字出現的頻率排列。 全文檢索的網站同樣是由Robot程式每天不斷蒐集資料,不同的是,Robot不但將網站首頁取回,同時也取回所有網頁的內容。全文檢索的唯一條件是關鍵字是否出現在網頁內容,因此並不需要再經過分類的工作。 由於全文檢索的內容包含所有網站內的文字,因此檢索結果也往往高達數百甚至數千筆資料,對使用者來說仍然不容易找到需要的資料。所以在全文檢索功能中,會加上布林運算功能來輔助資料的篩選,使查詢出來的結果更加準確。所謂的布林運算式: ●布林運算式查詢法: 提供邏輯上的AND(且)、OR(或)、NOT(非)三種運算方式,使用者可 以輸入多個查詢項目,配合三種運算方式進行檢索。 除此之外,為避免使用者輸入錯誤而找不到資料,通常會加上下列功能: ●國內外全文檢索引擎比較表: 表3-1
(三)特殊用途的搜尋服務 除了搜尋網站位址與內容之外,網路上還有提供各種資料的搜尋服務,內容包羅萬象,以下列舉幾種常見的服務類型:
中繼搜尋引擎,是將使用者輸入的關鍵字轉送給各大搜尋服務網站,並且將搜尋結果整理,最後傳送給使用者。以往使用者為了能找到資料,需要在不同的搜尋網站中輸入關鍵字,重複進行查詢的動作。運用中繼搜尋引擎,使用者只需要輸入一次,就可以得到數十個搜尋網站的結果。 近來Meta Search Engines的功能已被整合至User端的應用軟體之中,華文的中繼搜尋軟體有龍捲風科技的「Tornado個人資訊搜尋系統」、資訊人的「IQ網際搜尋家」、網擎資訊的「PIE99」。 提供使用者用關鍵字尋找新聞群組與BBS中的文章,搜尋範圍包括討論群組、標題、作者、內容、日期等等。國內的Openfind所發展的搜尋服務是目前唯一提供新聞群組搜尋功能的搜尋引擎。 新聞搜尋引擎類似全文檢索功能,只是它將搜尋的範圍限制在各媒體網站所提供的新聞內容。使用者可以指定新聞的主題、類型、時間、關鍵字等屬性,由新聞搜尋引擎去尋找並篩選。 網路上的FTP站台提供檔案傳輸的服務。檔案搜尋引擎能夠搜尋檔案存放在FTP站台內的路徑,讓使用者可以直接點選下載。 提供各種主題資訊的搜尋服務,包括金融資訊(股價、匯率),購物服務(產品、價格搜尋),企業資訊(企業名錄),人物資訊(人名、電話、電子郵件信箱),多媒體物件(圖片、音樂、動畫) (四)中文搜尋引擎建署現況 搜尋引擎分為目錄服務、全文檢索,以及各種特殊用途的搜尋服務。目前網 路上的大型搜尋網站,為了滿足使用者的不同需求,均同時提供數種不同類型的搜尋引擎。國內各主要搜尋網站之服務項目分析如下表: 表3-2/國內主要搜尋網站服務項目表
¨ 此資料蒐集截至1999年7月,並依網站英文名稱字母順序排列 二、中文搜尋引擎之技術工具及網站功能(一)技術工具 大門網站必須先取得其它網站或網頁的資料,建立一龐大的資料庫,才能夠加以分類或提供使用者搜尋。網際網路上的網站有數百萬個,包含的網頁有數千萬個,蒐集資料的工作自然無法以人工來進行,而必須藉由自動化的程式,這樣的程式俗稱為Robot,也可稱為Wander,Spider,Harvest,或是Pursuit。 Robot 是一種模擬WWW瀏覽器的程式,會自動遊走網路上的位址,將網站的首頁或是網頁內容抓回,再根據該HTML文件內所連結到其它網站或文件資訊,繼續將其它網站也抓回,如此不停循環(參見 WWW Robot Frequently Asked Questions 一文, http://info.webcrawler.com/mak/projects/robots/robots.html )。抓回來的資料內容,根據HTML內的Meta標記,擷取出網站位址、網站名稱、網站說明等部分。分類網站的管理者再依照網站的內容性質加以分類。至於全文檢索服務的網站,不但將網站首頁取回,同時也取回所有網頁的內容。而已經取得的網站資料,Robot還會不定時檢查連結是否正常,並且作資料的更新。Robot的基本設計原理並不複雜,簡單的Robot程式可以在網路上取得或者自行發展。然而由於程式是自動執行,若是程式設計者未能把情況考慮完整,或者程式內有未發現的小錯誤,Robot將會不斷地或重複地向同一個網站不停地抓取資料,造成該網站負擔過重,以及整個網路嚴重雍塞,甚至影響整個網際網路及伺服機器的服務品質。Robot對整個公共網路的負面影響,曾經引起國際注意,並提出 A Standard for Robot Exclusion ( http://info.webcrawler.com/mak/projects/robots/norobots.html)給資訊提供者及伺服器管理員參考,另有 Guidelines for Robot Writers (http://info.webcrawler.com/mak/projects/robots/guidelines.html ),給程式設計者及執行Robot程式者許多建議,以做為網路運作的共同規範,共同維護網路的正常運作。對於擁有大量使用者的網站,單一的伺服器與專線往往有不敷使用的情形。距離較遠的使用者,也會因為網際網路的「繞徑」(Routing)方式而降低網路的使用效率。Mirror Site就是設立多部資料相同的網站伺服器,伺服器內的資料彼此同步更新。當使用者連上網站時,系統會自動把使用者轉到其他的網站伺服器,或是由使用者自行選擇連結距離較近、速度較快的網站。例如網路上的大型網站 www.microsoft.com,便是由數台網站主機連結而成,同時在世界各地也都設有內容相同的網站主機,供不同地區使用。Proxy的主要原理為快取(Cache)與代理(Proxy)。當網路上的資料經過 Proxy server 時,Proxy server便將該資料保存起來。當其他人查詢同一筆資料時,則由Proxy server直接傳回使用者端,不必再透過原有的網站。Proxy的使用可大量降低降低網站的負荷,同時節省網站對外傳輸線路的負荷。 Proxy Server由使用者端的ISP提供建置,同時使用者也必須在瀏覽器中設定使用Proxy,才能達到效果。對網站建置者而言,應該在網站上對使用者推廣Proxy的觀念,不但可以加快使用者瀏覽的速度,也可以減低網站的負荷,利人又利己。 在網際網路逐漸盛行之際,各種網路上安全的問題也誰隨之浮現,而網路安全在網際網路上所扮演的角色更加吃重,諸如電子商務、通訊、國防安全、企業內部營運等,都必須以網路安全為前提之下,才能進一步發揮網際網路的功能。 在現實生活中,防火牆指的是建築物中一道阻止火勢蔓延的牆,它可以防止災難的繼續擴大。在電腦網路上,防火牆是一個位於兩個網路之間的一種網路裝置,可以限制兩網間來往的交通,包括限定兩網之間封包的起、訖主機位址、允許通過防火牆的通訊協定、服務、流通方向等。進階的防火牆尚可提供事件稽核、存取控制等服務。防火牆除了可以防止外界入侵之外,對內也可以限定內部某些主機對外的通訊,例如我們可以限定外界只可以存取內部網路的某些主機和某些服務。 防火牆也有其弱點,它並不能解決所有網路上的安全問題,防火牆基本上只能管制封包的流向,它並不能提供認證、資料完整性的驗證、用戶身份的認證等,而且也無法防止來自網路內部的侵害。此外,網路主機的作業系統以及應用軟體本身的漏洞以及錯誤,也是駭客能成功破壞網路的主要關鍵。因此,防火牆在整個網路安全體系當中,只能算是其中的一部分;系統補漏程式的安裝,資訊內容的加密,以及系統管理人員的教育,都必須一併考量,才能建構安全、穩定的網路環境。
●參考資料: 網際網路安全之關鍵問題與技術 (謝續平 國立交通大學資訊工程學系) 推動國家資訊基礎建設-電子化政府 (黃宗立 國立成功大學)
(二)網站功能
提供使用者輸入關鍵文字,搜尋網站內資訊的服務。全文檢索功能可自行利用CGI開發,也可使用市面上現成的搜尋功能模組。目前較為常用的全文檢索軟體有網擎科技的Openfind,以及龍捲風科技的Tornado Web Search。 ◎Openfind全文檢索結果:
電子郵件是網路上使用最頻繁、最廣為人知的服務。透過SMTP(Simple Mail Transfer Protocol),將文件傳遞給網路上的另一人或一群人。以電子郵件為基礎的網站服務功能,包括有: (1)免費電子郵件信箱 對於沒有E-mail address的使用者,由網站提供免費的電子郵件信箱。藉由「免費提供」的號召力,網站能聚集大量的網路使用者,達到宣傳廣告與建立虛擬社群的效果。 (2)郵件列表Mail List 一群具有相同喜好與興趣的人,在網路上組成團體,彼此以電子郵件方式傳遞資訊。使用者將自己的電子郵件位址加入列表,就可以將信件傳送給列表上的其他人,也會收到其他人寄來的信件。 (3)網路電子報 使用者訂閱電子報之後,會定期接收到由系統以E-mail方式寄送的訊息,內容包羅萬象,舉凡新聞事件、最新消息、活動報導、廣告……等等。電子報掌握了人們「不一定每天會看網站,但一定會看電子郵件」的特性,主動將網站消息推播(Push)給使用者。 Usenet是User's Network的簡稱,Usenet上的新聞伺服主機,藉由NNTP(Network News Transfer Protocol)為通訊協定,互相傳遞訊息。Usenet依特定主題分為許多討論區,供使用者瀏覽、討論,有如閱讀報紙一般,因此稱為新聞群組News group。 Usenet的新聞群組目前共分為九大類的討論主題,從其名稱的第一組字便可加以辨識,分別是:
目前台灣的新聞論壇與各大專院校所設置的電子布告欄(BBS)資料內容相互流通,提供了豐富的華文資訊內容,也是華人網路使用者聚集最為密集之處。
Openfind BBS/New分類討論區: http://www.openfind.com.te/
供使用者在網站上留下訊息,可作為使用者與網站管理者的溝通管道,或是使用者彼此間的意見交流。不同於Usenet,使用者並不需要識別名稱(ID)就可以在留言版上發表意見。而留言的內容,也只存放在該網站內,不與其他網站相互流通。 攝影網路討論區: http://www.photonet.net/
使用者透過外掛程式,與網站管理者或其他使用者作即時的線上交談。交談的媒介可分為文字、聲音與影像,所需要的網路頻寬要求也不同。 標題:阿波羅線上聊天室
每個人在現實生活中,都有所屬的社群團體,例如校友會、同鄉會、同好會等。經營網路社群服務的網站, 則提供了這些社群在網路上的聚集場所。經過簡單的申請程序,使用者可在網路上建立該社群專屬的區域, 並提供Mail List、論壇、留言版、線上交談、電子報…等各式服務。為維持各網路社群的私密性,欲加入 該社群的使用者,必須經過申請的方式,由該社群管理者加以審核通過。 標題:iClub虛擬社群(http://www.iclub.com.tw/)
(三)國內主要中文搜尋引擎設備及人力分析
附註:
三、中文搜尋引擎經營機制探討 1996年,Yahoo發行股票上市,上市第一天的股票總市值竟然飆漲到將近九億美金;居高不下的股價,吸引了許多媒體、企業紛紛投入入口網站的經營,從此入口網站成為網際網路產業的兵家必爭之地。在日益蓬勃的網路資訊內容(Content)產業中,入口網站業者擁有較為充足的人力、財力,如同「火車頭」一般,扮演了關鍵的推動角色。 最初,像Yahoo一類的搜尋引擎與目錄服務網站,主要目的在提供使用者能夠快速找到目標(destination)網站。隨著網路市場競爭的日趨激烈,並且為了吸引更多的使用者,搜尋引擎業者開始定位為「入口網站」(Portal Site),也就是從過去單純的接駁角色、上網第一站,到現在已經成為接駁、第一站、目的站(destination)的綜合體。(李宏麟PCHome On Line,1998) 台灣地區搜尋網站發展: 國內最先出現的搜尋網站,是1996年2月由開拓文教基金會設立的「蕃薯藤台灣網際網路索引」,但蕃薯藤是以服務、公益為宗旨的非營利性搜尋網站(蕃薯藤大事記, http://www.yam.com.tw/)。1996下半年,Yahoo!在美國獲得空前的成功之後,國內外資訊業者紛紛投入中文入口網站的經營,著名的有Kimo、ToDo、What Site、Sina Net等。1998年,Yahoo成立中文網站,正式進軍台灣市場。而台灣搜尋網站始祖蕃薯藤,以及由中正大學開發的國內第一個全文檢索網站GAIS,也在市場競爭壓力下宣布成立公司。於是,台灣的入口網站產業正式形成,並展開激烈的競爭。目前國內入口網站總數約有60-70個,但大部分使用者卻只集中在上述幾個大型入口網站。搜尋網站業者的經營機制: 一、發展自有資訊內容(Content) 現有的搜尋引擎網站,幾乎都是免費提供搜尋服務的,因此對於業者而言,廣告收益就成了最主要的收入來源。擁有大量的使用者,一直是搜尋網站業者吸引廣告商的主要因素。而使用者在網站上停留的時間愈久,暴露在網路廣告的時間也愈長,瀏覽或點選(Click)廣告的機率也愈大。因此搜尋網站如何吸引更多的使用者,並增加使用者停留的時間,就是一項最大的挑戰。 以往搜尋網站只單純提供網站搜尋與連結服務,本身並不製作資訊內容(Content)。使用者搜尋到所需的網站之後,便直接轉向目的網站(Destination Site)而離開原有的搜尋網站。若是使用者將目的網站的網址直接加到瀏覽器的書籤(Bookmark)或是「我的最愛」(My Favorites),下一次便可以不必透過搜尋網站而直接連接至目的網站。 為了吸引使用者,提高對搜尋網站的興趣,搜尋網站網站業者也開始充實資訊內容(Content),讓使用者可以直接找到想要的資料。為了充實網站的資訊內容,搜尋網站業者開始發展網站的自有內容,在網站的工作人員編組當中,增設「編輯」或是「記者」一類的職務。除此之外,搜尋網站也與其他網站或傳統媒體(報紙、電視、雜誌等)合作,以轉載或交換連結的方式,提供資訊內容。 二、虛擬社群 網路不僅具有傳播媒體的特性,更重要的是具有雙向互動的功能,網路使用者能彼此透過網路媒介來進行交流與互動。而網路上具有共同興趣、嗜好、話題或特性的使用者,彼此聚集組成「社群」,但由於此社群並非真實存在,故稱為「虛擬社群」(Virtual Community)。在台灣,最典型的網路虛擬社群,就是由校園發展出來的BBS(電子佈告欄)。 虛擬社群能滿足人類交友、互動、興趣的特性,因此被視為下一波網路產業經營的重點。近來各大入口網站業者紛紛引入虛擬社群概念,在網站上提供各項服務,聊天室(Chat Room)便是一例。大型入口網站以政治名人、影視紅星主持聊天室作為號召,吸引網友、影歌迷們蜂擁上線。除了動態的聊天室服務以外,搜尋網站也常常根據熱門時事話題,開闢靜態的「討論區」,提供網友自由發表意見的空間。近來免費風潮盛行,免費的網頁空間或是免費電子郵件帳號等服務也是吸引使用者的最佳宣傳手法。 三、策略聯盟 「策略聯盟」指的是不同的公司之間,為了達成「共同目標」,共同「投入資源」,並結合部分事業,而成的合夥、合作或協議關係。策略聯盟的發生,乃在於成本效益的考量,藉著結合企業各自的專長與資源,產生「加成」,也就是「1+1>2」的效果。在成本考量上,聯盟成員彼此分擔投資成本與風險,可減少單一公司的資本支出。再者,策略聯盟可以使得公司取得關鍵技術,而公司本身仍能專精原有的技術,不必再投入資源發展新的技術。 策略聯盟當然也具有風險,參與聯盟的企業可能因為需要公開部分業務內容,因而犧牲了密性和自主性,而依賴他人技術也會有受制於人的風險。但整體說來,策略聯盟還是利多於弊的,只要控制得當,仍然可以避免許多風險。 對於搜尋引擎網站業者,策略聯盟可以有如下的合作型態:
搜尋引擎網站擁有大量的使用者,因此電腦設備與網路頻寬的需求極大,業者若要自行鋪設專線與維護網路運作,需要極高的人力與成本,因此大部分的搜尋網站幾乎都採用主機代管的方案。因此對於搜尋網站業者而言,與ISP業者進行策略聯盟,可降低設備與線路的租用費,而ISP業者也可藉由搜尋網站帶來大量的使用者,達到宣傳的效果。 搜尋網站業者藉由與資訊內容提供者的合作,共同發展成為資訊平台(content platform),豐富網站的內容。對於搜尋引擎業者,能增加使用者使用搜尋網站的次數,並且讓使用者停留更多的時間,增加瀏覽與點選廣告的機會。而資訊內容業者則藉由搜尋網站的通路,將資訊內容散佈出去,讓更多使用者看到資訊。 在全球資訊網產業中,搜尋引擎始終擁有數量最多的使用者。以國內的大型入口網站為例,Kimo( 只要委託網路廣告商,便可在聯盟的搜尋網站中,看到「旗幟式」(Banner)的廣告圖案。廣告主的相關網站或網頁,也會以較為優先的順序或是較高的頻率,出現在使用者的搜尋結果中。 「如何才能吸引更多的使用者?」一直是搜尋網站業者不斷思考的問題。現有的搜尋網站業者已逐漸轉型成為「入口網站」,期望能成為每位使用者上網之後光臨的「第一站」。未來,這些入口網站將不斷擴充其資訊內容與服務功能,期望能達到「一站購足」的目標。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||