畢業(yè)設(shè)計(jì)論文 搜索引擎
《畢業(yè)設(shè)計(jì)論文 搜索引擎》由會(huì)員分享,可在線閱讀,更多相關(guān)《畢業(yè)設(shè)計(jì)論文 搜索引擎(68頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、目 錄 第一章 課題背景知識(shí) .(1) 第一節(jié) 搜索引擎原理 .(1) 第二節(jié) 搜索引擎分類(lèi) .(2) 第三節(jié) 搜索引擎技術(shù)的發(fā)展歷史 .(4) 第四節(jié) 搜索引擎現(xiàn)狀 .(5) 第五節(jié) 搜索引擎展望 .(6) 第二章 技術(shù)詮釋 .(10) 第一節(jié) HTTP 及 HTML .(10) 第二節(jié) 網(wǎng)絡(luò)蜘蛛 .(11) 第三節(jié) 網(wǎng)頁(yè)噪聲 .(13) 第四節(jié) 頁(yè)面分析 .(13) 第五節(jié) 中文分詞 .(16) 第六節(jié) 布爾代數(shù) .(19) 第七節(jié) CGI.(19) 第八節(jié) SOCKECT 網(wǎng)絡(luò)編程 .(20) 第三章 TOKING 海量網(wǎng)頁(yè)搜索系統(tǒng)體系結(jié)構(gòu)及實(shí)現(xiàn) .(21) 第一節(jié) 結(jié)構(gòu)設(shè)計(jì) .(21)
2、 第二節(jié) 數(shù)據(jù)流圖 .(22) 第三節(jié) 網(wǎng)頁(yè)抓取部分 .(31) 第四節(jié) 網(wǎng)頁(yè)預(yù)處理部分 .(35) 第五節(jié) 信息查詢(xún)服務(wù)部分 .(42) 第六節(jié) 用戶(hù)反饋 .(46) 第七節(jié) 功能拓展 .(46) 第八節(jié) 優(yōu)化用戶(hù)感受 .(50) 第四章 系統(tǒng)測(cè)評(píng) .(52) 第一節(jié) 抓取速度 .(52) 第二節(jié) 分詞效率 .(52) 第三節(jié) 搜索評(píng)價(jià) .(53) 參考文獻(xiàn) .(54) 致 謝 .(55) 附 錄 .(56) 本科生畢業(yè)設(shè)計(jì) 1 第一章 課題背景知識(shí) 70 年代中期,美國(guó)國(guó)防部高級(jí)研究計(jì)劃局 DARPA (Defense Advanced Research Projects Agency)開(kāi)
3、始了互聯(lián)網(wǎng)技術(shù)的研究。而 WWW (World Wide Web)自 1989 年 誕生以來(lái),近二十年來(lái)發(fā)展迅猛,它已成為人類(lèi)社會(huì)信息資源中的一個(gè)重要組成部 分,越來(lái)越多的社會(huì)信息資源實(shí)體開(kāi)始選擇 Web 作為其載體。 著名的 netcraft(via Digg)剛剛完成了最新的互聯(lián)網(wǎng)調(diào)查,結(jié)果顯示到 2006 年 3 月 31 日止,互聯(lián)網(wǎng)上一共有 80655993 個(gè)網(wǎng)站。而單是在 06 年 3 月這一個(gè)月里, 世界上的網(wǎng)站數(shù)量就增長(zhǎng)了 310 萬(wàn)個(gè)。而在 2003 年 8 月所得的調(diào)查結(jié)果為 4000 萬(wàn) 個(gè),這說(shuō)明了互聯(lián)網(wǎng)上的網(wǎng)站數(shù)量在過(guò)去的 3 年里就已經(jīng)翻了一番,增長(zhǎng)速度十分 驚人
4、。著名的網(wǎng)站排名的國(guó)際網(wǎng)站 在 2007 年 4 月更是收錄了全球 大約有 34762836735 個(gè)網(wǎng)址。由此,人們?cè)谛畔⒑Q笾兴阉髯约核枰男畔⒌哪?力顯得愈發(fā)重要,搜索引擎成了人們?cè)诰W(wǎng)上檢索信息的必要工具。 第一節(jié) 搜索引擎原理 搜索引擎,應(yīng)該被定位成一個(gè)計(jì)算機(jī)應(yīng)用軟件系統(tǒng),或者一個(gè)網(wǎng)絡(luò)應(yīng)用軟件系 統(tǒng)。從網(wǎng)絡(luò)用戶(hù)的角度看,它根據(jù)用戶(hù)提交的類(lèi)自然語(yǔ)言查詢(xún)?cè)~或者短語(yǔ),返回一 系列很可能與該查詢(xún)相關(guān)的網(wǎng)頁(yè)信息,供用戶(hù)進(jìn)一步判斷和選取。為了有效地做到 這一點(diǎn),它大致上被分成三個(gè)子系統(tǒng);即網(wǎng)頁(yè)搜集,網(wǎng)頁(yè)預(yù)處理和查詢(xún)服務(wù)。 網(wǎng)頁(yè)搜集主要負(fù)責(zé)網(wǎng)頁(yè)的抓取,由 URL 服務(wù)器、爬行器、存儲(chǔ)器、分析器和
5、 URL 解析器組成, 爬行器是該部分的核心;網(wǎng)頁(yè)預(yù)處理主要負(fù)責(zé)對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行 分析,對(duì)文檔進(jìn)行標(biāo)引并存儲(chǔ)到數(shù)據(jù)庫(kù)里,由標(biāo)引器和分類(lèi)器組成,該模塊涉及許 多文件和數(shù)據(jù),有關(guān)于桶的操作是該部分的核心;查詢(xún)服務(wù)主要負(fù)責(zé)分析用戶(hù)輸入 的檢索表達(dá)式,匹配相關(guān)文檔,把檢索結(jié)果返回給用戶(hù),由查詢(xún)器和網(wǎng)頁(yè)級(jí)別評(píng)定 器組成,其中網(wǎng)頁(yè)等級(jí)的計(jì)算是該部分的核心。 搜索引擎的主要工作流程是:首先從蜘蛛開(kāi)始,蜘蛛程序每隔一定的時(shí)間自動(dòng) 啟動(dòng)并讀取網(wǎng)頁(yè)URL服務(wù)器上的URL列表,按深度優(yōu)先或廣度優(yōu)先算法,抓取各 URL所指定的網(wǎng)站,將抓取的網(wǎng)頁(yè)分配一個(gè)唯一文檔,存入文檔數(shù)據(jù)庫(kù)。并將當(dāng)前 頁(yè)上的所的超連接存入到URL服務(wù)
6、器中。在進(jìn)行抓取的同時(shí),切詞器和索引器將已 經(jīng)抓取的網(wǎng)頁(yè)文檔進(jìn)行切詞處理,并按詞在網(wǎng)頁(yè)中出現(xiàn)的位置和頻率計(jì)算權(quán)值,然 后將切詞結(jié)果存入索引數(shù)據(jù)庫(kù)。整個(gè)抓取工作和索引工作完成后更新整個(gè)索引數(shù)據(jù) 庫(kù)和文檔數(shù)據(jù)庫(kù),這樣用戶(hù)就可以查詢(xún)最新的網(wǎng)頁(yè)信息。查詢(xún)器首先對(duì)用戶(hù)輸入的 本科生畢業(yè)設(shè)計(jì) 2 信息進(jìn)行切詞處理,并檢索出所有包含檢索詞的記錄,通過(guò)計(jì)算網(wǎng)頁(yè)權(quán)重和級(jí)別對(duì) 查詢(xún)記錄進(jìn)行排序并進(jìn)行集合運(yùn)算,最后從文檔數(shù)據(jù)庫(kù)中提取各網(wǎng)頁(yè)的摘要信息反 饋給查詢(xún)用戶(hù)。 URL服 務(wù) 器 爬 行 器 存 儲(chǔ) 服 務(wù) 器 資 源 庫(kù) 頁(yè) 級(jí) 別 評(píng) 定 器 URL解 析 器 標(biāo) 引 器 查 詢(xún) 器 分 類(lèi) 器 錨 庫(kù) 詞
7、 典 庫(kù) 索 引 庫(kù) 鏈 接 庫(kù) 桶 桶 桶 桶 桶 桶 Web 頁(yè)搜 索 標(biāo)引 入庫(kù) 用戶(hù) 查詢(xún) 圖 1-1-1 搜索引擎通用總體系統(tǒng)結(jié)構(gòu)圖 第二節(jié) 搜索引擎分類(lèi) 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine) 、目錄索引類(lèi)搜索引擎(Search Index/Directory)和元搜索引擎 (Meta Search Engine) 。 一、全文搜索引擎 全文搜索引擎是名副其實(shí)的搜索引擎,國(guó)外具代表性的有 Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma 、WiseNut 等,國(guó)內(nèi)著名的 有百
8、度(Baidu) 。它們都是通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為 主)而建立的數(shù)據(jù)庫(kù)中,檢索與用戶(hù)查詢(xún)條件匹配的相關(guān)記錄,然后按一定的排列 順序?qū)⒔Y(jié)果返回給用戶(hù),因此他們是真正的搜索引擎。 本科生畢業(yè)設(shè)計(jì) 3 圖 1-2-1 全球著名全文搜索引擎 LOGO 二、目錄索引 目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是 按目錄分類(lèi)的網(wǎng)站鏈接列表而已。用戶(hù)完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查 詢(xún),僅靠分類(lèi)目錄也可找到需要的信息。目錄索引中最具代表性的莫過(guò)于大名鼎鼎 的 Yahoo 雅虎。其他著名的還有 Open Directory Project(DMOZ
9、) 、 LookSmart、 About 等。國(guó)內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類(lèi)。 圖 1-2-2 全球著名目錄索引 LOGO 三、元搜索引擎 (META Search Engine) 元搜索引擎在接受用戶(hù)查詢(xún)請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié) 果返回給用戶(hù)。著名的元搜索引擎有 InfoSpace、Dogpile、Vivisimo 等,中文元搜 索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來(lái)源引擎 排列搜索結(jié)果,如 Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如 Vivisimo。 四、其他 除上述三大類(lèi)引擎外,還有以下幾種非主流形式: (一)集合
10、式搜索引擎:如 HotBot 在 2002 年底推出的引擎。該引擎類(lèi)似 META 搜索引擎,但區(qū)別在于不是同時(shí)調(diào)用多個(gè)引擎進(jìn)行搜索,而是由用戶(hù)從提 供的 4 個(gè)引擎當(dāng)中選擇,因此叫它“集合式” 搜索引擎更確切些。 (二)門(mén)戶(hù)搜索引擎:如 AOL Search、MSN Search 等雖然提供搜索服務(wù),但 自身即沒(méi)有分類(lèi)目錄也沒(méi)有網(wǎng)頁(yè)數(shù)據(jù)庫(kù),其搜索結(jié)果完全來(lái)自其他引擎。 (三)免費(fèi)鏈接列表(Free For All Links,簡(jiǎn)稱(chēng) FFA):這類(lèi)網(wǎng)站一般只簡(jiǎn)單 地滾動(dòng)排列鏈接條目,少部分有簡(jiǎn)單的分類(lèi)目錄,不過(guò)規(guī)模比起 Yahoo 等目錄索 引來(lái)要小得多。 (四)垂直搜索引擎:有針對(duì)性的搜索引擎
11、。一次搜索的結(jié)果可能有成千上萬(wàn) 條,而在這過(guò)于龐大的信息群中,有用信息只是其中的小部分。通用搜索引擎的弊 端在網(wǎng)絡(luò)信息的急劇膨脹下突顯起來(lái),搜索越來(lái)越難以控制,用戶(hù)需求和市場(chǎng)服務(wù) 本科生畢業(yè)設(shè)計(jì) 4 間的巨大反差產(chǎn)生了強(qiáng)大的“搜索噪音” ,垂直搜索引擎的應(yīng)運(yùn)而生,成為搜索引擎 發(fā)展史上的一塊里程碑。 第三節(jié) 搜索引擎技術(shù)的發(fā)展歷史 在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸 性的發(fā)展,普通網(wǎng)絡(luò)用戶(hù)想找到所需的資料簡(jiǎn)直如同大海撈針,這時(shí)為滿(mǎn)足大眾信 息檢索需求的專(zhuān)業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。 現(xiàn)代意義上的搜索引擎的祖先,是 1990 年由蒙特利爾大學(xué)學(xué)生 Alan Emta
12、ge 發(fā)明的 Archie。雖然當(dāng)時(shí) World Wide Web 還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng) 頻繁的,而且由于大量的文件散布在各個(gè)分散的 FTP 主機(jī)中,查詢(xún)起來(lái)非常不便, 因此 Alan Emtage 想到了開(kāi)發(fā)一個(gè)可以以文件名查找文件的系統(tǒng),于是便有了 Archie。 Archie 工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上 的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢(xún)。由于 Archie 深受用戶(hù)歡迎,受其啟發(fā),美國(guó)內(nèi)華達(dá) System Computing Services 大學(xué)于 1993 年 開(kāi)發(fā)了另一個(gè)與之非常相似的搜索工具,不過(guò)此時(shí)的搜
13、索工具除了索引文件外,已 能檢索網(wǎng)頁(yè)。 當(dāng)時(shí), “機(jī)器人 ”一詞在編程者中十分流行。電腦 “機(jī)器人”(Computer Robot)是 指某個(gè)能以人類(lèi)無(wú)法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專(zhuān)門(mén)用于 檢索信息的“ 機(jī)器人” 程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來(lái)爬去,因此,搜索引擎的“機(jī)器 人”程序也被稱(chēng)為 “蜘蛛”程序。 世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人” 程序是 Matthew Gray 開(kāi)發(fā) 的 World wide Web Wanderer。剛開(kāi)始它只用來(lái)統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來(lái) 則發(fā)展為能夠檢索網(wǎng)站域名。 與 Wanderer 相對(duì)應(yīng),Martin Koster 于
14、1993 年 10 月創(chuàng)建了 ALIWEB,它是 Archie 的 HTTP 版本。ALIWEB 不使用“機(jī)器人” 程序,而是靠網(wǎng)站主動(dòng)提交信息來(lái) 建立自己的鏈接索引,類(lèi)似于現(xiàn)在我們熟知的 Yahoo。 隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁(yè)變得越來(lái)越困難,因此, 在 Matthew Gray 的 Wanderer 基礎(chǔ)上,一些編程者將傳統(tǒng)的 “蜘蛛”程序工作原理作 了些改進(jìn)。其設(shè)想是,既然所有網(wǎng)頁(yè)都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一 個(gè)網(wǎng)站的鏈接開(kāi)始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。到 1993 年底,一些基于此原理的 搜索引擎開(kāi)始紛紛涌現(xiàn),其中以 JumpStation、The Wor
15、ld Wide Web Worm(Goto 本科生畢業(yè)設(shè)計(jì) 5 的前身,也就是今天 Overture) ,和 Repository-Based Software Engineering (RBSE) spider 最負(fù)盛名。 然而 JumpStation 和 WWW Worm 只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的 先后次序排列搜索結(jié)果,因此毫無(wú)信息關(guān)聯(lián)度可言。而 RBSE 是第一個(gè)在搜索結(jié) 果排列中引入關(guān)鍵字串匹配程度概念的引擎。 最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994 年 7 月。當(dāng)時(shí) Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家
16、現(xiàn)在熟知的 Lycos。同年 4 月,斯坦福(Stanford )大學(xué)的兩名博士生, David Filo 和美籍華人楊致遠(yuǎn) (Gerry Yang)共同創(chuàng)辦了超級(jí)目錄索引 Yahoo,并成功地使搜索引擎的概念深入 人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已 達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語(yǔ)。比如 Yahoo 號(hào)稱(chēng)收錄的網(wǎng)頁(yè) 達(dá)到 200 億。 隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,一家搜索引擎光靠自己?jiǎn)未颡?dú)斗已無(wú)法適應(yīng)目前 的市場(chǎng)狀況,因此現(xiàn)在搜索引擎之間開(kāi)始出現(xiàn)了分工協(xié)作,并有了專(zhuān)業(yè)的搜索引擎 技術(shù)和搜索數(shù)據(jù)庫(kù)服務(wù)提供商。象國(guó)外的 Inktomi(已被 Yah
17、oo 收購(gòu)) ,它本身并 不是直接面向用戶(hù)的搜索引擎,但像包括 Overture(原 GoTo,已被 Yahoo 收購(gòu)) 、 LookSmart、 MSN、HotBot 等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁(yè)搜索服務(wù)。國(guó)內(nèi)的 百度也屬于這一類(lèi),搜狐和新浪用的就是它的技術(shù)。因此從這個(gè)意義上說(shuō),它們是 搜索引擎的搜索引擎。 第四節(jié) 搜索引擎現(xiàn)狀 隨著網(wǎng)絡(luò)信息內(nèi)容的爆炸式增長(zhǎng)和形式的不斷翻新,搜索引擎越來(lái)越不能滿(mǎn)足 網(wǎng)絡(luò)使用者的各種信息需求。從 1996 年起,搜索引擎技術(shù)開(kāi)始注重網(wǎng)頁(yè)質(zhì)量與相 關(guān)性的結(jié)合,這主要是通過(guò)三種手段: 是對(duì)網(wǎng)上的超鏈結(jié)構(gòu)進(jìn)行分析,如 INFOSEEK 和 GOOGLE; 是對(duì)用
18、戶(hù)的點(diǎn)擊行為進(jìn)行分析,如 DIRECTHIT(被 ASK JEEVES 收購(gòu)); 是與網(wǎng)站目錄相結(jié)合。最新的趨勢(shì)則是搜索的個(gè)性化、本地化和垂直化。 個(gè)性化:入門(mén)網(wǎng)站的個(gè)性化已經(jīng)比較成熟了,但是搜索引擎的個(gè)性化并沒(méi)有得 到解決,不同的人使用相同的檢索詞得到的結(jié)果是相同的。也就是說(shuō)搜索引擎沒(méi)有 考慮人的地域、性別、年齡等方面的差別。DIRECTHIT 等公司一年前開(kāi)始了個(gè)性 化方面的研發(fā)工作,但至今沒(méi)有推出任何產(chǎn)品。 垂直化:垂直搜索引擎這種高度目標(biāo)化、專(zhuān)業(yè)化的搜索引擎的優(yōu)勢(shì)在于:針對(duì) 本科生畢業(yè)設(shè)計(jì) 6 性強(qiáng),對(duì)特定范圍的網(wǎng)絡(luò)信息的覆蓋率相對(duì)較高,具有可靠的技術(shù)和信息資源保障, 有明確的檢索目標(biāo)
19、定位,有效地彌補(bǔ)了通用綜合性搜索引擎對(duì)專(zhuān)門(mén)領(lǐng)域及特定主題 信息覆蓋率過(guò)低的問(wèn)題。根據(jù) CNNIC 的調(diào)查結(jié)果,2005 年,使用百度和 Google 的用戶(hù)達(dá)到總量的 90%;而 2006 年這一數(shù)值下降到 87.4%,這其中就有垂直搜索的 分流作用。 本地化:本地化是一個(gè)比個(gè)性化更明顯的趨勢(shì)。隨著互聯(lián)網(wǎng)在全球的迅速普及, 綜合性的搜索引擎已經(jīng)不能滿(mǎn)足很多非美國(guó)網(wǎng)民的信息需求。近來(lái), YAHOO!、INKTOMI、LYCOS 等公司不斷推出各國(guó)、各地區(qū)的本地搜索網(wǎng)站,搜 索的本地化已經(jīng)是勢(shì)不可擋。 第五節(jié) 搜索引擎展望 一、技術(shù)展望 各大公司都把下一代搜索引擎的查詢(xún)方式的創(chuàng)新性,作為自己競(jìng)爭(zhēng)的
20、籌碼,以 下是對(duì)下一代搜索引擎技術(shù)的一些構(gòu)想。 未來(lái),搜索引擎技術(shù)將重點(diǎn)發(fā)展在以下幾個(gè)方面: (一)自然語(yǔ)言理解技術(shù) 自然語(yǔ)言理解是計(jì)算機(jī)科學(xué)中的一個(gè)富有挑戰(zhàn)性的課題。從計(jì)算機(jī)科學(xué)特別是 從人工智能的觀點(diǎn)看,自然語(yǔ)言理解的任務(wù)是建立一種計(jì)算機(jī)模型,這種計(jì)算機(jī)模 型能夠給出像人那樣理解、分析并回答自然語(yǔ)言。以自然語(yǔ)言理解技術(shù)為基礎(chǔ)的新 一代搜索引擎,我們稱(chēng)之為智能搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層 面提高到基于知識(shí)(或概念)層面,對(duì)知識(shí)有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞 技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎 具有信息服務(wù)的智能化、人性化特征,允許網(wǎng)
21、民采用自然語(yǔ)言進(jìn)行信息的檢索,為 他們提供更方便、更確切的搜索服務(wù)。 (二)P2P P2P 是 peer-to-peer 的縮寫(xiě),意為對(duì)等網(wǎng)絡(luò)。其宗旨在于加強(qiáng)網(wǎng)絡(luò)上人與人的 交流、在文件交換、分布計(jì)算等方面大有前途。長(zhǎng)久以來(lái),人們習(xí)慣的互聯(lián)網(wǎng)是以 服務(wù)器為中心,人們向服務(wù)器發(fā)送請(qǐng)求,然后瀏覽服務(wù)器回應(yīng)的信息。而 P2P 所 包含的技術(shù)就是使聯(lián)網(wǎng)電腦能夠進(jìn)行數(shù)據(jù)交換,但數(shù)據(jù)是存儲(chǔ)在每臺(tái)電腦里,而不 是存儲(chǔ)在既昂貴又容易受到攻擊的服務(wù)器里。網(wǎng)絡(luò)成員可以在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)里自由搜 索、更新、回答和傳送數(shù)據(jù)。所有人都共享了他們認(rèn)為最有價(jià)值的東西,這將使互 聯(lián)網(wǎng)上信息的價(jià)值得到極大的提升。 本科生畢業(yè)設(shè)計(jì) 7
22、 (三)移動(dòng)搜索引擎 隨著手機(jī)接入互聯(lián)網(wǎng)的能力越來(lái)越強(qiáng),以及移動(dòng)業(yè)務(wù)日益傾向于內(nèi)容驅(qū)動(dòng),搜 索引擎的移動(dòng)化也成為不可避免的趨勢(shì)。許多運(yùn)營(yíng)商已經(jīng)在其內(nèi)容網(wǎng)站上使用當(dāng)?shù)?搜索引擎來(lái)幫助消費(fèi)者找到所需信息,一些主要的搜索引擎公司如 Google、百度、 愛(ài)問(wèn)等已著力于移動(dòng)搜索,其搜索引擎的移動(dòng)化版本已經(jīng)問(wèn)世并開(kāi)始運(yùn)營(yíng)。 (四)垂直搜索服務(wù)及本地化 垂直搜索引擎的搜索器只搜索特定的主題信息,按預(yù)先己經(jīng)定義好的專(zhuān)題有選 擇地收集相關(guān)的網(wǎng)頁(yè)。這樣大大降低了收集信息的難度,提高了信息的質(zhì)量。由于 所收集的學(xué)科領(lǐng)域小,信息量相對(duì)較少,可以采用“ 專(zhuān)家分類(lèi)標(biāo)引” 的方法對(duì)收集到 的信息進(jìn)行組織整理,進(jìn)一步提高信
23、息的質(zhì)量,建立一個(gè)高質(zhì)量的、專(zhuān)業(yè)信息收集 全的數(shù)據(jù)庫(kù)。 每一種行業(yè)都可以做一個(gè)垂直搜索。目前搜索領(lǐng)域才剛剛起步,尤其是垂直搜 索,還有很大的空間。比如說(shuō)家電、建材、家居、醫(yī)療健康等等方面,甚至還可以 在更細(xì)的領(lǐng)域做更加深的搜索。美國(guó)去年第四季度出現(xiàn)了專(zhuān)門(mén)給老年人服務(wù)的搜索 引擎。本地搜索前景也很好,面臨的挑戰(zhàn)就是把全中國(guó)所有的店家信息收集上來(lái)需 要很多投入。賽迪顧問(wèn)執(zhí)行總裁李峻預(yù)測(cè),垂直搜索、本地搜索等未來(lái)搜索引擎市 場(chǎng)仍將保持 30%左右的增長(zhǎng)速度。 一些垂直搜索將會(huì)成為值得深度挖掘的方向,如旅游搜索、求職搜索等行業(yè)細(xì) 分的搜索引擎,而且搜索引擎技術(shù)和渠道的創(chuàng)新核心還在于商業(yè)模式的不斷完善。
24、 (五)多媒體搜索引擎 隨著寬帶技術(shù)的發(fā)展,未來(lái)的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)代。開(kāi)發(fā)出可查尋圖像、 聲音、圖片和電影的搜索引擎是一個(gè)新的方向。目前瑞典一家公司已經(jīng)研制推出被 稱(chēng)作“第五代搜索引擎 ”的動(dòng)態(tài)的和有聲的多媒體搜索引擎。圖像、視頻將很快取代 文本成為互聯(lián)網(wǎng)上主要的信息。 二、市場(chǎng)展望 iResearch 預(yù)測(cè)到 2007 年中國(guó)搜索引擎市場(chǎng)規(guī)模將達(dá)到 56.2 億元人民幣,未來(lái) 3 年的年增長(zhǎng)率平均保持在 55%以上 1。中國(guó)本土的搜索引擎:百度、中搜、搜狗、 一搜等相繼推出后,都取得了不錯(cuò)的反響,特別是百度在 2005 年 8 月 5 日正式在 納斯達(dá)克上市,上市首日股票瘋狂上漲:最高
25、達(dá) 151 美元,把搜索引擎的市值推到 了高潮。微軟對(duì)搜索引擎的研發(fā)也伴隨著大規(guī)模的招兵買(mǎi)馬,微軟亞洲研究院也成 立了專(zhuān)門(mén)的搜索小組。李開(kāi)復(fù)先生加盟 Google 后,讓很多人預(yù)測(cè) Google 一定會(huì)吃 掉中文搜索引擎這個(gè)巨大的市場(chǎng)。而李開(kāi)復(fù)先生在閃電加盟后,在“開(kāi)復(fù)學(xué)生網(wǎng)” 上 發(fā)表了一篇題為“Google 和中國(guó) -追隨我心的選擇”,Google 的搜索文化對(duì)技術(shù)人員 本科生畢業(yè)設(shè)計(jì) 8 的吸引可見(jiàn)一斑,等等數(shù)字和事件表明,搜索引擎在互聯(lián)網(wǎng)上有著強(qiáng)勁的生命力和 發(fā)展?jié)摿?,同時(shí)也是互聯(lián)網(wǎng)公司豐厚利潤(rùn)的來(lái)源之一。 圖 1-5-1 2002-2006 年中國(guó)搜索引擎市場(chǎng)規(guī)模及增長(zhǎng) 2 2005
26、 年 8 月,法國(guó)總統(tǒng)希拉克大張旗鼓地發(fā)布了“Quaero”計(jì)劃,它很快被顯 現(xiàn)為一種歐洲的決心推出與 Google 搜索競(jìng)爭(zhēng)的相同產(chǎn)品。這款名為“Quaero”的 搜索引擎,不僅能搜索文本,而且還能搜索圖片和視頻。Quaero 的拉丁文語(yǔ)義是 “我搜索”,該項(xiàng)目獲得了 2.5 億歐元資助(3.3 億美元 ),法德兩國(guó)主要技術(shù)公司參加 了開(kāi)發(fā)。而在德國(guó),一些德國(guó)企業(yè)將參加另外的德國(guó)版搜索引擎“Theseus”的開(kāi)發(fā), 該引擎更加集中于文本分析。法德兩國(guó)開(kāi)發(fā)商將在合作、競(jìng)爭(zhēng)及互補(bǔ)的環(huán)境下實(shí)施 歐洲新一代搜索引擎的開(kāi)發(fā)計(jì)劃。 和其他許多國(guó)家一樣,在日本提起搜索引擎,人們首先想到的是谷歌,此外還 有
27、雅虎和微軟麾下的 MSN。根據(jù)今年 3 月的一項(xiàng)調(diào)查,在日本檢索服務(wù)利用率排 名中居首位的是雅虎,其利用率達(dá) 64.5%,其次是谷歌和 MSN,日本開(kāi)發(fā)的 GOO 雖然名列第四,但實(shí)際利用率只有 5.5%,與前三名的差距很明顯。中國(guó)百度也已 經(jīng)進(jìn)入日本市場(chǎng),欲與群雄共逐鹿。 其實(shí)日本著手開(kāi)發(fā)搜索引擎要早于美國(guó),日本電信電話(huà)公司、日本電氣公司和 東芝公司等都曾擁有過(guò)各自獨(dú)立的搜索引擎。直到 20 世紀(jì) 90 年代后期,這些日本 國(guó)產(chǎn)搜索引擎還在相互競(jìng)爭(zhēng)。但隨著美國(guó)谷歌的出現(xiàn),互聯(lián)網(wǎng)信息檢索業(yè)界的格局 在 2000 年前后發(fā)生了劇變。谷歌高精確度的檢索服務(wù)使日本眾多門(mén)戶(hù)網(wǎng)站形成了 這樣的共識(shí)“ 搜
28、索引擎依靠谷歌就足夠了 ”,因此日本國(guó)產(chǎn)搜索引擎全線敗退。 搜索引擎是遨游網(wǎng)絡(luò)世界的必備工具,而其中的基干技術(shù)掌握在外國(guó)企業(yè)手中。一 些日本業(yè)界專(zhuān)家認(rèn)為,長(zhǎng)此以往日本互聯(lián)網(wǎng)搜索業(yè)務(wù)未來(lái)有可能被外國(guó)企業(yè)控制。 本科生畢業(yè)設(shè)計(jì) 9 抱著同樣的危機(jī)感,日本政府把國(guó)產(chǎn)下一代搜索引擎項(xiàng)目提上了議事日程。經(jīng)濟(jì)產(chǎn) 業(yè)省 2005 年 12 月設(shè)立了企業(yè)、研究機(jī)構(gòu)和政府部門(mén)共同參與的網(wǎng)絡(luò)搜索引擎研究 小組,負(fù)責(zé)整理與搜索技術(shù)開(kāi)發(fā)相關(guān)的資料,2006 年 7 月末由大學(xué)和 52 家企業(yè)參 與的合作項(xiàng)目“ 信息大航海計(jì)劃 ”正式啟動(dòng),準(zhǔn)備用 3 年時(shí)間開(kāi)發(fā)出下一代互聯(lián)網(wǎng)搜 索引擎,挑戰(zhàn)谷歌等搜索引擎的市場(chǎng)霸主地位
29、,并打算在 2007 年度預(yù)算中申請(qǐng) 50 億日元(約合 4300 萬(wàn)美元)作為研發(fā)費(fèi)用,爭(zhēng)取 5 年后使下一代搜索引擎進(jìn)入實(shí)用 階段。 據(jù)日本媒體報(bào)道,日本下一代搜索引擎不僅能像現(xiàn)在一樣依靠關(guān)鍵詞從互聯(lián)網(wǎng) 上的信息海洋中提取所需信息,運(yùn)用現(xiàn)在逐漸普及的電子標(biāo)簽,還可以及時(shí)掌握有 關(guān)全球產(chǎn)品的信息,或者以從視頻資料中剪輯的錄音為基礎(chǔ),檢索音頻資料。日本 下一代搜索引擎的終端設(shè)備不僅有電腦,還可能是電視機(jī)、手機(jī)、汽車(chē)導(dǎo)航儀等。 今后只要操縱遙控器就能通過(guò)新搜索引擎找到電視節(jié)目中出現(xiàn)過(guò)的人物或某個(gè)地區(qū) 的資料,查詢(xún)并購(gòu)買(mǎi)電視中出現(xiàn)過(guò)的某款商品等。 業(yè)內(nèi)人士指出,雅虎、谷歌、MSN 每年分別投資數(shù)億
30、美元用于技術(shù)研發(fā),這 帶來(lái)問(wèn)題是在目前體制下怎樣才能超越上述企業(yè)的技術(shù)水準(zhǔn)。谷歌等搜索引擎霸主 的戰(zhàn)略也包含將檢索對(duì)象從文本擴(kuò)展到視頻和音頻資料,此外日本及歐洲大型企業(yè) 的不少資深技術(shù)人員常跳槽到谷歌和雅虎,這可能有助于谷歌等開(kāi)發(fā)下一代搜索引 擎終端設(shè)備。因此像法國(guó)的 “Quaero”計(jì)劃和日本的 “信息大航海計(jì)劃”等等的實(shí)施 能否取得預(yù)期效果現(xiàn)在很難準(zhǔn)確預(yù)料。但不可否認(rèn)的是:搜索引擎市場(chǎng)將進(jìn)入一個(gè) 群雄逐鹿的瘋狂競(jìng)爭(zhēng)時(shí)代。 隨著搜索經(jīng)濟(jì)的崛起,人們開(kāi)始越加關(guān)注全球各大搜索引擎的性能、技術(shù)和日 流量。作為企業(yè),會(huì)根據(jù)搜索引擎的知名度以及日流量來(lái)選擇是否要投放廣告等。 對(duì)于消費(fèi)者而言,使用互聯(lián)網(wǎng)
31、搜索引擎是進(jìn)入網(wǎng)絡(luò)世界的一個(gè)重要入口,這意味著 巨大的商機(jī)。微軟將 2007 財(cái)政年度的研發(fā)開(kāi)支預(yù)算調(diào)高至 75 億美元,較預(yù)期高出 約 13 億美元,此舉顯示出微軟與 Google、雅虎在互聯(lián)網(wǎng)搜索市場(chǎng)上一決高下的決 心。搜索引擎也將不再是技術(shù),而是經(jīng)濟(jì)。 本科生畢業(yè)設(shè)計(jì) 10 第一章 技術(shù)詮釋 第一節(jié) HTTP 及 HTML 超文本傳輸協(xié)議(HTTP)是應(yīng)用層協(xié)議,由于其簡(jiǎn)捷、快速的方式,適用于 分布式和合作式超媒體信息系統(tǒng)。自 1990 年起, HTTP 就已經(jīng)被應(yīng)用于 WWW 全球信息服務(wù)系統(tǒng)??蛻?hù)進(jìn)程建立一條同服務(wù)器進(jìn)程的 TCP 連接,然后發(fā)出請(qǐng)求 并讀取服務(wù)器進(jìn)程的應(yīng)答。服務(wù)器進(jìn)
32、程關(guān)閉連接表示本次響應(yīng)結(jié)束。服務(wù)器進(jìn)程返 回的內(nèi)容包含兩個(gè)部分,一個(gè)“應(yīng)答頭” (response header) ,一個(gè)“ 應(yīng)答體” (response body) ,后者通常是一個(gè) HTML 文件,我們稱(chēng)之為“網(wǎng)頁(yè)”。 通常 HTTP 消息包括客戶(hù)機(jī)向服務(wù)器的請(qǐng)求消息和服務(wù)器向客戶(hù)機(jī)的響應(yīng)消息。 這兩種類(lèi)型的消息由一個(gè)起始行,一個(gè)或者多個(gè)頭域,一個(gè)只是頭域結(jié)束的空行和 可選的消息體組成。HTTP 的頭域包括通用頭,請(qǐng)求頭,響應(yīng)頭和實(shí)體頭四個(gè)部分。 每個(gè)頭域由一個(gè)域名,冒號(hào)(:)和域值三部分組成。域名是大小寫(xiě)無(wú)關(guān)的,域值 前可以添加任何數(shù)量的空格符,頭域可以被擴(kuò)展為多行,在每行開(kāi)始處,使用至
33、少 一個(gè)空格或制表符。 HTTP 協(xié)議采用了請(qǐng)求/響應(yīng)模型??蛻?hù)端向服務(wù)器發(fā)送一個(gè)請(qǐng)求,請(qǐng)求頭包 含請(qǐng)求的方法、URI、協(xié)議版本、以及包含請(qǐng)求修飾符、客戶(hù)信息和內(nèi)容的類(lèi)似于 MIME 的消息結(jié)構(gòu)。服務(wù)器以一個(gè)狀態(tài)行作為響應(yīng),相應(yīng)的內(nèi)容包括消息協(xié)議的版 本,成功或者錯(cuò)誤編碼加上包含服務(wù)器信息、實(shí)體元信息以及可能的實(shí)體內(nèi)容。 Web 服務(wù)器的 HTTP 應(yīng)答一般由以下幾項(xiàng)構(gòu)成:一個(gè)狀態(tài)行,一個(gè)或多個(gè)應(yīng) 答頭,一個(gè)空行,內(nèi)容文檔。設(shè)置 HTTP 應(yīng)答頭往往和設(shè)置狀態(tài)行中的狀態(tài)代碼結(jié) 合起來(lái)。 典型的請(qǐng)求消息: GET http:/class/download.microtool.de:80/some
34、data.exe Host:download.microtool.de Accept:*/* Pragma:no-cache Cache-Control:no-cache Referer:http:/class/download.microtool.de/ User-Agent:Mozilla/4.04en(Win95;I;Nav) Range:bytes=554554- 典型的響應(yīng)消息: HTTP/1.0200OK 本科生畢業(yè)設(shè)計(jì) 11 Date:Mon,31Dec200104:25:57GMT Server:Apache/1.3.14(Unix) Content-type:text/htm
35、l Last-modified:Tue,17Apr200106:46:28GMT Etag:a030f020ac7c01:1e9f Content-length:39725426 Content-range:bytes554554-40279979/40279980 一個(gè)完整的 HTML 文檔以 開(kāi)始,以結(jié)束。大部分的 HTML 命令都像這樣成對(duì)出現(xiàn)。HTML 文檔含有以開(kāi)始、以結(jié)束的首 部和以 開(kāi)始、以結(jié)束的主體部分。標(biāo)題通常由客戶(hù)程序顯示在 窗口的頂部。 第二節(jié) 網(wǎng)絡(luò)蜘蛛 網(wǎng)絡(luò)蜘蛛即 Web Spider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng), 那么 Spider 就是在網(wǎng)上爬來(lái)爬
36、去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找 網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的 其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到 把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò) 蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。 首先蜘蛛讀取抓取站點(diǎn)的 URL 列表,取出一個(gè)站點(diǎn) URL,將其放入未訪問(wèn)的 URL 列表(UVURL 列表)中,如果 UVURL 不為空剛從中取出一個(gè) URL 判斷是 否已經(jīng)訪問(wèn)過(guò),若沒(méi)有訪問(wèn)過(guò)則讀取此網(wǎng)頁(yè),并進(jìn)行超鏈分析及內(nèi)容分析,并將些 頁(yè)存入文檔數(shù)據(jù)庫(kù),并將些 URL
37、放入已訪問(wèn) URL 列表(VURL 列表) ,直到 UVRL 為空為止,此時(shí)再抓取其他站點(diǎn),依次循環(huán)直到所有的站點(diǎn) URL 列表都抓 取完為止。 對(duì)于搜索引擎來(lái)說(shuō),要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)幾乎是不可能的,從目前公布 的數(shù)據(jù)來(lái)看,容量最大的搜索引擎也不過(guò)是抓取了整個(gè)網(wǎng)頁(yè)數(shù)量的百分之四十左右。 這其中的原因一方面是抓取技術(shù)的瓶頸,無(wú)法遍歷所有的網(wǎng)頁(yè),有許多網(wǎng)頁(yè)無(wú)法從 其它網(wǎng)頁(yè)的鏈接中找到;另一個(gè)原因是存儲(chǔ)技術(shù)和處理技術(shù)的問(wèn)題,如果按照每個(gè) 頁(yè)面的平均大小為 20K 計(jì)算(包含圖片) ,100 億網(wǎng)頁(yè)的容量是 1002000G 字節(jié), 即使能夠存儲(chǔ),下載也存在問(wèn)題(按照一臺(tái)機(jī)器每秒下載 20K 計(jì)算
38、,需要 340 臺(tái) 機(jī)器不停的下載一年時(shí)間,才能把所有網(wǎng)頁(yè)下載完畢) 。同時(shí),由于數(shù)據(jù)量太大, 在提供搜索時(shí)也會(huì)有效率方面的影響。因此,許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那 本科生畢業(yè)設(shè)計(jì) 12 些重要的網(wǎng)頁(yè),而在抓取的時(shí)候評(píng)價(jià)重要性主要的依據(jù)是某個(gè)網(wǎng)頁(yè)的鏈接深度。 在抓取網(wǎng)頁(yè)的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先(如下圖 所示) 。廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇 其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。這是最常用的方式, 因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛 會(huì)從起始頁(yè)開(kāi)始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,
39、處理完這條線路之后再轉(zhuǎn)入下一個(gè) 起始頁(yè),繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。 網(wǎng)絡(luò)蜘蛛在訪問(wèn)網(wǎng)站網(wǎng)頁(yè)的時(shí)候,經(jīng)常會(huì)遇到加密數(shù)據(jù)和網(wǎng)頁(yè)權(quán)限的問(wèn)題,有 些網(wǎng)頁(yè)是需要會(huì)員權(quán)限才能訪問(wèn)。當(dāng)然,網(wǎng)站的所有者可以通過(guò)協(xié)議讓網(wǎng)絡(luò)蜘蛛不 去抓取,但對(duì)于一些出售報(bào)告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報(bào)告,但 又不能完全免費(fèi)的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶(hù)名和密碼。 網(wǎng)絡(luò)蜘蛛可以通過(guò)所給的權(quán)限對(duì)這些網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)抓取,從而提供搜索。而當(dāng)搜索 者點(diǎn)擊查看該網(wǎng)頁(yè)的時(shí)候,同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。 網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁(yè),不同于一般的訪問(wèn),如果控制不好,則會(huì)引起網(wǎng)站服
40、 務(wù)器負(fù)擔(dān)過(guò)重。有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進(jìn)行交流。一方面讓網(wǎng)站管理員 了解網(wǎng)絡(luò)蜘蛛都來(lái)自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁(yè)不應(yīng)該 抓取,哪些網(wǎng)頁(yè)應(yīng)該更新。 每個(gè)網(wǎng)絡(luò)蜘蛛都有自己的名字,在抓取網(wǎng)頁(yè)的時(shí)候,都會(huì)向網(wǎng)站標(biāo)明自己的身 份。網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁(yè)的時(shí)候會(huì)發(fā)送一個(gè)請(qǐng)求,這個(gè)請(qǐng)求中就有一個(gè)字段為 Useragent,用于標(biāo)識(shí)此網(wǎng)絡(luò)蜘蛛的身份。例如 Google 網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為 GoogleBot,Baidu 網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為 BaiDuSpider,Yahoo 網(wǎng)絡(luò)蜘蛛的標(biāo)識(shí)為 Inktomi Slurp。如果在網(wǎng)站上有訪問(wèn)日志記錄,網(wǎng)站管理員就能知道,哪些搜索引 擎的網(wǎng)絡(luò)
41、蜘蛛過(guò)來(lái)過(guò),什么時(shí)候過(guò)來(lái)的,以及讀了多少數(shù)據(jù)等等。如果網(wǎng)站管理員 發(fā)現(xiàn)某個(gè)蜘蛛有問(wèn)題,就通過(guò)其標(biāo)識(shí)來(lái)和其所有者聯(lián)系。 網(wǎng)絡(luò)蜘蛛進(jìn)入一個(gè)網(wǎng)站,一般會(huì)訪問(wèn)一個(gè)特殊的文本文件 Robots.txt,這個(gè)文 件一般放在網(wǎng)站服務(wù)器的根目錄下,如: http:/ 。網(wǎng) 站管理員可以通過(guò) robots.txt 來(lái)定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問(wèn),或者哪些目錄對(duì) 于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問(wèn)。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時(shí)文件目錄 不希望被搜索引擎搜索到,那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問(wèn)目錄。 Robots.txt 語(yǔ)法很簡(jiǎn)單,例如如果對(duì)目錄沒(méi)有任何限制,可以用以下兩行來(lái)描述: User-agen
42、t: * Disallow: 當(dāng)然,Robots.txt 只是一個(gè)協(xié)議,如果網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)者不遵循這個(gè)協(xié)議,網(wǎng) 站管理員也無(wú)法阻止網(wǎng)絡(luò)蜘蛛對(duì)于某些頁(yè)面的訪問(wèn),但一般的網(wǎng)絡(luò)蜘蛛都會(huì)遵循這 本科生畢業(yè)設(shè)計(jì) 13 些協(xié)議,而且網(wǎng)站管理員還可以通過(guò)其它方式來(lái)拒絕網(wǎng)絡(luò)蜘蛛對(duì)某些網(wǎng)頁(yè)的抓取。 第三節(jié) 網(wǎng)頁(yè)噪聲 當(dāng) Web 中獲取所需信息的同時(shí),會(huì)常常看見(jiàn)大量和所關(guān)心內(nèi)容無(wú)關(guān)的導(dǎo)航條、 廣告信息、版權(quán)信息以及調(diào)查問(wèn)卷等,稱(chēng)之為“噪聲 ”內(nèi)容。在某些情況下,可能從 這些噪音內(nèi)容中得到一些意外的驚喜;但多數(shù)時(shí)候,因這些噪聲消耗掉了很多的注 意力。同時(shí),噪聲內(nèi)容通常伴隨著相關(guān)的超鏈。因此,噪聲會(huì)導(dǎo)致相互鏈接的網(wǎng)頁(yè)
43、 常常并無(wú)內(nèi)容相關(guān)性。這樣,網(wǎng)頁(yè)內(nèi)容的混亂不僅給基于網(wǎng)頁(yè)內(nèi)容的研究工作帶來(lái) 困難,也給基于網(wǎng)頁(yè)超鏈指向的研究工作帶來(lái)困難。另外,隨著 Web 各種研究與 應(yīng)用的深入發(fā)展,僅僅是原始網(wǎng)頁(yè)內(nèi)容已經(jīng)不能滿(mǎn)足需求,還要求能夠提供便于計(jì) 算機(jī)處理的元數(shù)據(jù)信息,例如關(guān)鍵詞、摘要、網(wǎng)頁(yè)內(nèi)容類(lèi)別等。然而,現(xiàn)在大部分 網(wǎng)頁(yè)仍然是普通 HTML 網(wǎng)頁(yè),并不包含必要的元數(shù)據(jù)。因此,本節(jié)討論一個(gè)網(wǎng)頁(yè) 表示模型建立和實(shí)現(xiàn)的方法,這一方面使我們能夠自動(dòng)從網(wǎng)頁(yè)中提取相關(guān)的元數(shù)據(jù), 另一方面也去除了和網(wǎng)頁(yè)主題內(nèi)容無(wú)關(guān)的噪音內(nèi)容,進(jìn)而在原始 Web 上搭建一個(gè) 噪聲小、描述清晰、更易于處理和利用的網(wǎng)頁(yè)信息平臺(tái)。 在網(wǎng)頁(yè)分類(lèi)領(lǐng)域
44、,由于噪聲內(nèi)容與主題無(wú)關(guān),訓(xùn)練集中的噪聲內(nèi)容會(huì)導(dǎo)致各個(gè) 類(lèi)別的特征不夠明顯,而待分類(lèi)網(wǎng)頁(yè)中的噪聲內(nèi)容則會(huì)導(dǎo)致該網(wǎng)頁(yè)類(lèi)別不明確,因 而影響了網(wǎng)頁(yè)自動(dòng)分類(lèi)的效果。因此提出了通過(guò)去掉網(wǎng)頁(yè)中的噪聲內(nèi)容來(lái)提高網(wǎng)頁(yè) 分類(lèi)質(zhì)量的方法。 在網(wǎng)頁(yè)信息提取領(lǐng)域,自動(dòng)識(shí)別模式的方法必須要從整個(gè)網(wǎng)頁(yè)中提取模式,而 不是只針對(duì)主題內(nèi)容提取。因此,在凈化后的網(wǎng)頁(yè)上作信息提取不僅可以排除噪聲 信息對(duì)信息提取的干擾,提高信息提取的準(zhǔn)確性,而且可以使得網(wǎng)頁(yè)中的結(jié)構(gòu)簡(jiǎn)單 化,提高信息提取的效率。 上述分析我們看到,網(wǎng)頁(yè)噪聲對(duì)基于網(wǎng)頁(yè)的研究工作的影響是普遍而嚴(yán)重的, 雖然各個(gè)領(lǐng)域采用的方法各不相同,但處理的目的都是為了去除網(wǎng)頁(yè)中的
45、噪聲內(nèi)容, 得到真正的主題內(nèi)容。 第四節(jié) 頁(yè)面分析 由于WWW網(wǎng)上的信息主要是以HTML文檔的形式存放的,因此要根據(jù)HTML文檔 的特點(diǎn),對(duì)其進(jìn)行掃描分析,以提取信息。 HTML文檔有五個(gè)定義好的組件: 本科生畢業(yè)設(shè)計(jì) 14 、文本 、注釋 、簡(jiǎn)單標(biāo)簽 、起始標(biāo)簽 、結(jié)束標(biāo)簽 文本就是在HTML頁(yè)面上看到的詞句的內(nèi)容。除了腳本代碼,HTML文檔中的所有 數(shù)據(jù),只要不是標(biāo)簽的組成部分,都被認(rèn)為是文本。文本是格式化的,并且受包圍 它的標(biāo)簽的控制。就像前面所提到的那樣,如果數(shù)據(jù)位于文本之外,將不會(huì)被看作 文本。但是程序在理解HTML頁(yè)面時(shí),腳本代碼具有與文本相似的特性。腳本代碼包 含在標(biāo)簽和之間。確
46、保搜索引擎程序不會(huì)將腳本代碼與文本數(shù) 據(jù)混淆是很重要的。 文本實(shí)際上就是顯示在瀏覽器中的文字,其顯示方式由包圍它的標(biāo)簽來(lái)網(wǎng)以決 定。根據(jù)本課題的要求,文本無(wú)疑是我們所需要的重要的信息源之一。頁(yè)相關(guān)的主 題是通過(guò)文本來(lái)表達(dá)的,所以文本信息必須被完全提取出來(lái),便進(jìn)一步處理。 注釋表示HTML文檔中不會(huì)顯示給用戶(hù)的那部分內(nèi)容。他們通常是HTML程序員所 做的說(shuō)明,這些說(shuō)明通常是表達(dá)編程思路的,所以這類(lèi)數(shù)據(jù)對(duì)本課題來(lái)說(shuō)是毫無(wú)用 處。因此在解析HTML文檔時(shí),將注釋忽略。簡(jiǎn)單標(biāo)簽是由單個(gè)表示的HTML標(biāo)簽。最 普遍的簡(jiǎn)單標(biāo)簽是行中斷符()標(biāo)簽和圖像標(biāo)簽( ),它們都沒(méi)有相應(yīng)的結(jié) 束標(biāo)簽。簡(jiǎn)單標(biāo)簽主要是用
47、來(lái)控制顯示格式或使用圖像美化界面用的。 大多數(shù)HTML標(biāo)簽都是由開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽組成的。開(kāi)始標(biāo)簽非常像簡(jiǎn)單標(biāo)簽。 開(kāi)始標(biāo)簽與簡(jiǎn)單標(biāo)簽直接的唯一區(qū)別是:開(kāi)始標(biāo)簽有一個(gè)相應(yīng)的結(jié)束標(biāo)簽,該結(jié)束 標(biāo)簽出現(xiàn)在后面。開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽用來(lái)控制其所包含的HTML代碼的功能。 在所有的開(kāi)始和結(jié)束標(biāo)簽中,標(biāo)簽是最有用的。標(biāo)簽在HTML中 叫做鏈接標(biāo)簽,它決定了當(dāng)在瀏覽器中點(diǎn)擊該標(biāo)簽的文本時(shí)所要打開(kāi)的網(wǎng)頁(yè)的 URL。下面是一個(gè)例子: Click Here 從上面的例子中我們可以看出,標(biāo)識(shí)它所鏈接的URL是該標(biāo)簽的href屬性決定, href的值就代表了一個(gè)URL. Href屬性值有兩種表達(dá)方式:一種是絕對(duì)路徑,
48、也就是 說(shuō)它的值是一個(gè)完整的URL,程序可以直接使用它;另一種相對(duì)路徑,它的表示方式 只有目錄或文件名,表示相對(duì)于木網(wǎng)頁(yè)的所在目錄的位置。使用相對(duì)路徑的目的是 提高網(wǎng)頁(yè)的可移植性。標(biāo)簽中的鏈接并不是唯一將用戶(hù)帶到其它頁(yè)面的基 礎(chǔ)結(jié)構(gòu)標(biāo)簽。Web站點(diǎn)還能建立圖像映像,當(dāng)用戶(hù)點(diǎn)擊它們時(shí),也能將用戶(hù)帶到相 應(yīng)的新頁(yè)面。圖像映像由客戶(hù)端和服務(wù)器圖像映像組成,但是服務(wù)器圖像映像幾乎 本科生畢業(yè)設(shè)計(jì) 15 完全被客戶(hù)端所取代。這是因?yàn)榉?wù)器端的圖像映像,需要一個(gè)服務(wù)器插件來(lái)注冊(cè) 用戶(hù)點(diǎn)擊的圖像區(qū)域。而這在客戶(hù)端圖像映像中是完全包含在HTML文件中 3。 客戶(hù)端圖像映像不需要服務(wù)器端的腳本表示來(lái)解釋可多處點(diǎn)
49、擊的圖像的 hot”區(qū)。實(shí)際上,客戶(hù)端圖像映像比服務(wù)器端圖像映像更為有效,而且還允許訪 問(wèn)者在Web瀏覽器的狀態(tài)區(qū)中看到映像區(qū)域真正關(guān)聯(lián)的URL。該狀態(tài)文本還會(huì)在用戶(hù) 鼠標(biāo)在圖像映像區(qū)域移動(dòng)的時(shí)候出現(xiàn)??蛻?hù)端映像圖像將包含一個(gè)如下所示的映像。 該映像將每個(gè)圖像區(qū)域鏈接到一個(gè)URL: 在該HTML文件的后面,該映像以類(lèi)似于下面的方式使用: 通過(guò)以上分析圖像映像當(dāng)中的超級(jí)鏈接可以由圖像的簡(jiǎn)單標(biāo)簽中的href 屬性得到。除了以上兩種情況外,框架中的src屬性也可以設(shè)置超級(jí)鏈接。框架標(biāo) 簽屬于開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽,下面是一個(gè)例子。 在上面的例子中可以看出,該標(biāo)簽中有一個(gè)名為src的屬性,代表了該框架中
50、應(yīng)顯示的網(wǎng)頁(yè)鏈接,在網(wǎng)頁(yè)中搜索鏈接時(shí),不應(yīng)遺漏此類(lèi)鏈接。需要說(shuō)明的是,窗 體、腳本語(yǔ)言代碼和網(wǎng)頁(yè)中嵌入式對(duì)象也可以提供鏈接功能。但是,它們主要是提 供一些特殊領(lǐng)域的特殊功能的應(yīng)用。窗體主要是用來(lái)收集用戶(hù)信息,用戶(hù)信息是瀏 覽網(wǎng)頁(yè)的人根據(jù)自己的實(shí)際情況填寫(xiě),例如,用戶(hù)名和密碼等。在這些用戶(hù)信息不 全的情況下,返回的網(wǎng)頁(yè)通常顯示的是錯(cuò)誤的信息的頁(yè)面。這對(duì)本文所研究的垂直 搜索引擎來(lái)說(shuō)是毫無(wú)意義的,因此,我們對(duì)表單不作處理。至于腳本語(yǔ)言代碼,通 常是網(wǎng)頁(yè)編寫(xiě)者按照自己的意愿和邏輯,用腳本語(yǔ)言寫(xiě)的一段代碼,它也可以返回 一個(gè)網(wǎng)頁(yè)。然而不幸的是,除非搜索引擎能正確理解腳本代碼,才一能得到正確的 返回頁(yè)面
51、的URL。否則,應(yīng)該回避。對(duì)于網(wǎng)頁(yè)中的嵌入式對(duì)象,比如ActiveX控件, Java Applet等,他們都是已編譯好的程序。要對(duì)它們中的鏈接進(jìn)行識(shí)別的話(huà),必 須全面深入其二進(jìn)制代碼內(nèi)部結(jié)構(gòu),難度極大。 本科生畢業(yè)設(shè)計(jì) 16 第五節(jié) 中文分詞 眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開(kāi),而中文是以字為 單位,句子中所有的字連起來(lái)才能描述一個(gè)意思。例如,英文句子 I am a student, 用中文則為:“ 我是一個(gè)學(xué)生 ”。計(jì)算機(jī)可以很簡(jiǎn)單通過(guò)空格知道 student 是一個(gè)單 詞,但是不能很容易明白“學(xué)” 、 “生”兩個(gè)字合起來(lái)才表示一個(gè)詞。把中文的漢字序 列切分成有意義的詞,就
52、是中文分詞,有些人也稱(chēng)為切詞。我是一個(gè)學(xué)生,分詞的 結(jié)果是:我/是/一個(gè)/學(xué)生。 中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個(gè)應(yīng)用。其 他的比如機(jī)器翻譯(MT) 、語(yǔ)音合成、自動(dòng)分類(lèi)、自動(dòng)摘要、自動(dòng)校對(duì)等等,都需 要用到分詞。 一、分詞方法概述 現(xiàn)有的分詞算法可分為三大類(lèi):基于字符串匹配的分詞方法、基于理解的分詞 方法和基于統(tǒng)計(jì)的分詞方法。 (一)基于字符串匹配的分詞方法 這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè) “充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功 (識(shí)別出一個(gè)詞) 。按照掃描方向的不同,串匹配分詞方法可以分為正
53、向匹配和逆 向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短) 匹配;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相 結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下: 正向最大匹配法(由左到右的方向) ; 逆向最大匹配法(由右到左的方向) ; 最少切分(使每一句中切出的詞數(shù)最小) 。 還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大 匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆 向最小匹配一般很少使用。一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到 的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的
54、錯(cuò)誤率為 1/169,單 純使用逆向最大匹配的錯(cuò)誤率為 1/2454。但這種精度還遠(yuǎn)遠(yuǎn)不能滿(mǎn)足實(shí)際的需要。 實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過(guò)利用各種其它 的語(yǔ)言信息來(lái)進(jìn)一步提高切分的準(zhǔn)確率。 一種方法是改進(jìn)掃描方式,稱(chēng)為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中 本科生畢業(yè)設(shè)計(jì) 17 識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小 的串再來(lái)進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。另一種方法是將分詞和詞類(lèi)標(biāo)注結(jié) 合起來(lái),利用豐富的詞類(lèi)信息對(duì)分詞決策提供幫助,并且在標(biāo)注過(guò)程中又反過(guò)來(lái)對(duì) 分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。 對(duì)于機(jī)械分詞
55、方法,可以建立一個(gè)一般的模型,在這方面有專(zhuān)業(yè)的學(xué)術(shù)論文, 這里不做詳細(xì)論述。 (二)基于理解的分詞方法 這種分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基 本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧 義現(xiàn)象。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控 部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧 義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過(guò)程。這種分詞方法需要使用大量的語(yǔ)言 知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器 可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階
56、段。 (三)基于統(tǒng)計(jì)的分詞方法 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次 數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反 映成詞的可信度??梢詫?duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它 們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字 X、Y 的相鄰共現(xiàn)概率?;?現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可 認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需 要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局 限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字
57、組,例如“這一” 、 “之一”、 “有的”、 “我的 ”、 “許多的” 等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開(kāi)銷(xiāo)大。實(shí)際應(yīng)用 的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同 時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來(lái),既發(fā)揮匹配分 詞切分速度快、效率高的特點(diǎn),又利用了無(wú)詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消 除歧義的優(yōu)點(diǎn)。 到底哪種分詞算法的準(zhǔn)確度更高,目前并無(wú)定論。對(duì)于任何一個(gè)成熟的分詞系 統(tǒng)來(lái)說(shuō),不可能單獨(dú)依靠某一種算法來(lái)實(shí)現(xiàn),都需要綜合不同的算法。筆者了解, 海量科技的分詞算法就采用“復(fù)方分詞法” ,所謂復(fù)方,相當(dāng)于用中藥中的復(fù)方概念, 即用不同的藥才
58、綜合起來(lái)去醫(yī)治疾病,同樣,對(duì)于中文詞的識(shí)別,需要多種算法來(lái) 處理不同的問(wèn)題。 本科生畢業(yè)設(shè)計(jì) 18 二、分詞中的難題 有了成熟的分詞算法,是否就能容易的解決中文分詞的問(wèn)題呢?事實(shí)遠(yuǎn)非如此。 中文是一種十分復(fù)雜的語(yǔ)言,讓計(jì)算機(jī)理解中文語(yǔ)言更是困難。在中文分詞過(guò)程中, 有兩大難題一直沒(méi)有完全突破。 (一)歧義識(shí)別 歧義是指同樣的一句話(huà),可能有兩種或者更多的切分方法。例如:表面的,因 為“表面”和“面的 ”都是詞,那么這個(gè)短語(yǔ)就可以分成 “表面 的” 和“表 面的”。這種 稱(chēng)為交叉歧義。像這種交叉歧義十分常見(jiàn),前面舉的“和服” 的例子,其實(shí)就是因?yàn)?交叉歧義引起的錯(cuò)誤。 “化妝和服裝 ”可以分成“化
59、妝/ 和/ 服裝”或者“ 化妝/ 和服/裝”。 由于沒(méi)有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。 交叉歧義相對(duì)組合歧義來(lái)說(shuō)是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句 子來(lái)判斷了。例如,在句子“這個(gè)門(mén)把手壞了” 中, “把手”是個(gè)詞,但在句子“ 請(qǐng)把手 拿開(kāi)”中, “把手” 就不是一個(gè)詞;在句子“將軍任命了一名中將 ”中, “中將” 是個(gè)詞, 但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍” 中, “中將”就不再是詞。這些詞計(jì)算機(jī)又如何去 識(shí)別? 如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話(huà),在歧義中還有一個(gè)難題,是真 歧義。真歧義意思是給出一句話(huà),由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不 是詞。例如:
60、“ 乒乓球拍賣(mài)完了 ”,可以切分成“乒乓/ 球拍/ 賣(mài)/完/ 了” 、也可切分成 “乒乓球/拍賣(mài) /完/了” ,如果沒(méi)有上下文其他的句子,恐怕誰(shuí)也不知道“ 拍賣(mài)”在這里 算不算一個(gè)詞。 (二)新詞識(shí)別 新詞,專(zhuān)業(yè)術(shù)語(yǔ)稱(chēng)為未登錄詞。也就是那些在字典中都沒(méi)有收錄過(guò),但又確實(shí) 能稱(chēng)為詞的那些詞。最典型的是人名,人可以很容易理解句子“王軍虎去廣州了” 中, “王軍虎”是個(gè)詞,因?yàn)槭且粋€(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把 “王軍虎”做為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新 增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是 會(huì)存在問(wèn)題,例如:在句
61、子“王軍虎頭虎腦的” 中, “王軍虎”還能不能算詞? 新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱(chēng)、省略語(yǔ)等 都是很難處理的問(wèn)題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來(lái) 說(shuō),分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞 系統(tǒng)好壞的重要標(biāo)志之一。 本科生畢業(yè)設(shè)計(jì) 19 第六節(jié) 布爾代數(shù) 布爾(George Boole) 是十九世紀(jì)英國(guó)一位小學(xué)數(shù)學(xué)老師。他生前沒(méi)有人認(rèn)為 他是數(shù)學(xué)家。布爾在工作之余,喜歡閱讀數(shù)學(xué)論著、思考數(shù)學(xué)問(wèn)題。1854 年思 維規(guī)律(An Investigation of the Laws of Thought, on whi
62、ch are founded the Mathematical Theories of Logic and Probabilities) 一書(shū),第一次向人們展示了如何 用數(shù)學(xué)的方法解決邏輯問(wèn)題 5。 布爾代數(shù)運(yùn)算的元素只有兩個(gè) 1 (TRUE , 真) 和 0(FALSE,假)?;镜?運(yùn)算只有“與 ”(AND) 、 “或” (OR) 和“非”(NOT) 三種(后來(lái)發(fā)現(xiàn),這三種運(yùn)算都 可以轉(zhuǎn)換成“ 與”“非” ANDNOT 兩種運(yùn)算) 。 事實(shí)上在布爾代數(shù)提出后 80 多年里,它確實(shí)沒(méi)有什么像樣的應(yīng)用,直到 1938 年香農(nóng)在他的碩士論文中指出用布爾代數(shù)來(lái)實(shí)現(xiàn)開(kāi)關(guān)電路,才使得布爾代數(shù) 成為數(shù)字
63、電路的基礎(chǔ)。所有的數(shù)學(xué)和邏輯運(yùn)算,加、減、乘、除、乘方、開(kāi)方等等, 全部能轉(zhuǎn)換成二值的布爾運(yùn)算。 二進(jìn)制和布爾運(yùn)算是世界上最簡(jiǎn)單的計(jì)數(shù)方法和運(yùn)算。無(wú)論哪一個(gè)搜索引擎宣 稱(chēng)自己如何聰明、多么智能化,其實(shí)只要是追求效率,從根本上講都不可能離開(kāi)布 爾運(yùn)算。ToKing 搜索引擎的倒排索引文件的實(shí)際方法將主要采用布爾代數(shù)。 第七節(jié) CGI CGI 代表 Common Gateway Interface(通用網(wǎng)關(guān)界面) ,它使在網(wǎng)絡(luò)服務(wù)器下運(yùn) 行外部分應(yīng)用程序(或網(wǎng)關(guān))成為可能。CGI-BIN 目錄是存放 CGI 腳本的地方。 這些腳本使 WWW 服務(wù)器和瀏覽器能運(yùn)行外部程序,而無(wú)需啟動(dòng)另一個(gè)原因程序。
64、 它是運(yùn)行在 Web 服務(wù)器上的一個(gè)程序,并由來(lái)自于瀏覽者的輸人觸發(fā)。CGI 是在 HTTP 服務(wù)器下運(yùn)行外部程序(或網(wǎng)關(guān))的一個(gè)接口,它能讓網(wǎng)絡(luò)用戶(hù)訪問(wèn)遠(yuǎn)程系 統(tǒng)上的使用類(lèi)型程序,就好像他們?cè)趯?shí)際使用那些遠(yuǎn)程計(jì)算機(jī)一樣。 CGI 能夠讓瀏覽者與服務(wù)器進(jìn)行交互,如果你曾經(jīng)遇到過(guò)在網(wǎng)絡(luò)上填表或者進(jìn) 行搜索,就很有可能就是用的 CGI。 盡管 CGI 易于使用,但是當(dāng)大批人同時(shí)使用一個(gè) CGI 應(yīng)用程序是會(huì)反應(yīng)較慢, 網(wǎng)絡(luò)服務(wù)器 速度也會(huì)受到很大 影響。CGI 應(yīng)用程序的優(yōu)點(diǎn)是可以獨(dú)立運(yùn)行。 CGI 應(yīng)用程序可以由大多數(shù)的編程語(yǔ)言編寫(xiě),如 Perl(Practical Extraction and
65、 Report Language)、CC+、Java 和 Visual Basic 等。不過(guò)對(duì)于那些沒(méi)有太多編程經(jīng) 驗(yàn)的網(wǎng)頁(yè)制作人來(lái)說(shuō),實(shí)在是一個(gè)不小的難題。 本科生畢業(yè)設(shè)計(jì) 20 CGI 應(yīng)用程序的工作原理是這樣的: .瀏覽器通過(guò) HTML 表單或超鏈接請(qǐng)求指上一個(gè) CGI 應(yīng)用程序的 URL。 .服務(wù)器收發(fā)到請(qǐng)求。 .服務(wù)器執(zhí)行指定所 CGI 應(yīng)用程序。 .CGI 應(yīng)用程序執(zhí)行所需要的操作,通常是基于瀏覽者輸人的內(nèi)容。 .CGI 應(yīng)用程序把結(jié)果格式化為網(wǎng)絡(luò)服務(wù)器和瀏覽器能夠理解的文檔(通常 是 HTML 網(wǎng)頁(yè)) 。 .網(wǎng)絡(luò)服務(wù)器把結(jié)果返回到瀏覽器中。 自 CGI 產(chǎn)生以來(lái),C 語(yǔ)言以其高效
66、性、靈活性和通用性一直是開(kāi)發(fā)交互式 WEB 應(yīng)用的最有吸引力的選擇。但近年來(lái),能直接內(nèi)嵌于 HTML 文檔中間的各種 腳本工具,以其簡(jiǎn)便性易用性使一部分用戶(hù)開(kāi)始放棄了直接用 C 來(lái)開(kāi)發(fā) CGI 腳本。 但還有兩類(lèi)用戶(hù)沒(méi)有放棄用 C 來(lái)開(kāi)發(fā)它們的應(yīng)用,一是對(duì)性能追求較高的高端開(kāi) 發(fā)者,二是嵌入式設(shè)備的開(kāi)者。前者選擇 C 語(yǔ)言來(lái)開(kāi)發(fā)它們的 WEB 應(yīng)用,是因?yàn)?C 高效性、靈活性和通用性是各種腳本工具無(wú)法取代的。后者選擇 C 語(yǔ)言,是因 嵌入式設(shè)備的特點(diǎn)(內(nèi)存、CPU 等資源有限等,不可在設(shè)備上運(yùn)行如 ASP,PHP,PERL 等的腳本的運(yùn)行環(huán)境)決定的(另外,目前嵌入式設(shè)備主要以 C 語(yǔ)言開(kāi)發(fā)為主) 。 第八節(jié) SOCKECT 網(wǎng)絡(luò)編程 所謂 socket 通常也稱(chēng)作套接字,用于描述 IP 地址和端口,是一個(gè)通信鏈的 句柄。應(yīng)用程序通常通過(guò) 套接字 向網(wǎng)絡(luò)發(fā)出請(qǐng)求或者應(yīng)答網(wǎng)絡(luò)請(qǐng)求。 網(wǎng)頁(yè)抓取 部分就是采用的這種技術(shù)。 本科生畢業(yè)設(shè)計(jì) 21 第二章 TOKING 海量網(wǎng)頁(yè)搜索系統(tǒng)體系結(jié)構(gòu)及實(shí)現(xiàn) 第一節(jié) 結(jié)構(gòu)設(shè)計(jì) 搜索引擎的最基本的功能就是在一個(gè)可以接受的時(shí)間內(nèi)返回一個(gè)和用戶(hù)查詢(xún)匹 配的網(wǎng)頁(yè)
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)6整理和復(fù)習(xí)2圖形與幾何第7課時(shí)圖形的位置練習(xí)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)6整理和復(fù)習(xí)2圖形與幾何第1課時(shí)圖形的認(rèn)識(shí)與測(cè)量1平面圖形的認(rèn)識(shí)練習(xí)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)6整理和復(fù)習(xí)1數(shù)與代數(shù)第10課時(shí)比和比例2作業(yè)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)4比例1比例的意義和基本性質(zhì)第3課時(shí)解比例練習(xí)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)3圓柱與圓錐1圓柱第7課時(shí)圓柱的體積3作業(yè)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)3圓柱與圓錐1圓柱第1節(jié)圓柱的認(rèn)識(shí)作業(yè)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)2百分?jǐn)?shù)(二)第1節(jié)折扣和成數(shù)作業(yè)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)1負(fù)數(shù)第1課時(shí)負(fù)數(shù)的初步認(rèn)識(shí)作業(yè)課件新人教版
- 2023年六年級(jí)數(shù)學(xué)上冊(cè)期末復(fù)習(xí)考前模擬期末模擬訓(xùn)練二作業(yè)課件蘇教版
- 2023年六年級(jí)數(shù)學(xué)上冊(cè)期末豐收?qǐng)@作業(yè)課件蘇教版
- 2023年六年級(jí)數(shù)學(xué)上冊(cè)易錯(cuò)清單十二課件新人教版
- 標(biāo)準(zhǔn)工時(shí)講義
- 2021年一年級(jí)語(yǔ)文上冊(cè)第六單元知識(shí)要點(diǎn)習(xí)題課件新人教版
- 2022春一年級(jí)語(yǔ)文下冊(cè)課文5識(shí)字測(cè)評(píng)習(xí)題課件新人教版
- 2023年六年級(jí)數(shù)學(xué)下冊(cè)6整理和復(fù)習(xí)4數(shù)學(xué)思考第1課時(shí)數(shù)學(xué)思考1練習(xí)課件新人教版