互聯(lián)網(wǎng)搜索引擎工作原理

1. 引言 2. 聚焦萬(wàn)維網(wǎng) 3. 建立索引 4. 建立搜索 5. 未來(lái)的搜索

有關(guān)互聯(lián)網(wǎng)和它最引人注目的部分——萬(wàn)維網(wǎng)的好消息是，網(wǎng)上有無(wú)數(shù)網(wǎng)頁(yè)提供主題極為多樣的信息。壞消息是，這些網(wǎng)頁(yè)大都是由制作者隨便命名的，而且?guī)缀跞即鎯?chǔ)在不知何名的服務(wù)器上。當(dāng)你需要了解特定主題時(shí)，您怎么知道應(yīng)當(dāng)閱讀哪些網(wǎng)頁(yè)呢？像大多數(shù)人一樣，您要使用互聯(lián)網(wǎng)搜索引擎。

互聯(lián)網(wǎng)搜索引擎是萬(wàn)維網(wǎng)中的特殊站點(diǎn)，專門用來(lái)幫助人們查找存儲(chǔ)在其他站點(diǎn)上的信息。盡管各種搜索引擎的工作方-式有所不同，但它們都要完成三個(gè)基本任務(wù)：

基于關(guān)鍵字來(lái)搜索互聯(lián)網(wǎng)——或其中的一部分。
生成一份索引，保存所搜尋的詞語(yǔ)，以及相應(yīng)地址。
允許用戶在索引中查找詞語(yǔ)或詞語(yǔ)組合

早期搜索引擎的索引僅包括數(shù)十萬(wàn)個(gè)的網(wǎng)頁(yè)或文檔，每天受理的查詢可能只有一兩千次。如今，頂級(jí)搜索引擎的索引列表涵蓋數(shù)億個(gè)網(wǎng)頁(yè)，每天響應(yīng)數(shù)千萬(wàn)次查詢。在本文中，我們將會(huì)講解這些基本任務(wù)是如何完成，以及互聯(lián)網(wǎng)搜索引擎是如何整合信息以幫助我們?cè)诰W(wǎng)上找到所需內(nèi)容。

聚焦萬(wàn)維網(wǎng)

大多數(shù)人談及互聯(lián)網(wǎng)搜索引擎時(shí)，實(shí)際上指的是萬(wàn)維網(wǎng)搜索引擎。在萬(wàn)維網(wǎng)成為互聯(lián)網(wǎng)最引人注目的部分之前，早就有搜索引擎幫助人們查找網(wǎng)上信息了。如“gopher”和“Archie”等程序可以生成索引，存儲(chǔ)在接入互聯(lián)網(wǎng)的各個(gè)服務(wù)器上的文件信息，極大縮短了查找程序和文檔的時(shí)間。上世紀(jì)八十年代末，要想從互聯(lián)網(wǎng)上獲得有價(jià)值的信息，就必須知道如何使用 gopher、Archie、Veronica以及其它類似程序。

現(xiàn)在，大多數(shù)互聯(lián)網(wǎng)用戶只限于搜索萬(wàn)維網(wǎng)，所以本文只討論面向網(wǎng)頁(yè)內(nèi)容的搜索引擎。

小蜘蛛開始行動(dòng)

搜索引擎在有能力告訴你文件或文檔存儲(chǔ)在何處之前，必須先找到它們。為了在現(xiàn)有的數(shù)億網(wǎng)頁(yè)中找到信息，搜索引擎使用了一種特殊的軟件機(jī)器人，稱之為蜘蛛程序，以此生成在網(wǎng)站上查詢到的詞語(yǔ)列表。蜘蛛程序建立詞語(yǔ)列表的過(guò)程被稱為爬網(wǎng)。（將互聯(lián)網(wǎng)的一部分稱為網(wǎng)絡(luò)有些缺點(diǎn)——大量工具以蜘蛛命名就是其一。）為了建立并維護(hù)一份有用的詞語(yǔ)列表，搜索引擎的蜘蛛程序需要游歷大量網(wǎng)頁(yè)。

蜘蛛程序如何開始其網(wǎng)上旅程？通常起點(diǎn)是那些訪問(wèn)量很大的服務(wù)器和熱門網(wǎng)頁(yè)。蜘蛛程序從一個(gè)很受歡迎的網(wǎng)站開始，檢索網(wǎng)頁(yè)上的詞語(yǔ)并追蹤在該網(wǎng)站上找到的每個(gè)鏈接。這樣，蜘蛛程序迅速開始了旅行，爬遍網(wǎng)上絕大多數(shù)經(jīng)常訪問(wèn)的網(wǎng)站。

為了方便在線用戶找到所需網(wǎng)頁(yè)，
蜘蛛程序提取網(wǎng)頁(yè)內(nèi)容并設(shè)立搜索關(guān)鍵字。

Google的前身是一個(gè)學(xué)術(shù)搜索引擎。在介紹該系統(tǒng)開發(fā)過(guò)程的論文中，google創(chuàng)始人塞吉·布林（Sergey Brin）和勞倫斯·佩奇（Lawrence Page）舉例說(shuō)明了他們的蜘蛛程序工作得有多快。他們最初開發(fā)的系統(tǒng)使用多個(gè)蜘蛛程序——通常是三個(gè)。每個(gè)蜘蛛程序可以同時(shí)打開300個(gè)鏈接。最多可以同時(shí)使用四個(gè)蜘蛛程序，此時(shí)該系統(tǒng)每秒可以游歷100多個(gè)網(wǎng)頁(yè)，生成大約600KB的數(shù)據(jù)。

要保證一切都快速運(yùn)行，意味著必須開發(fā)一套系統(tǒng)來(lái)為蜘蛛程序提供必要信息。早期Google系統(tǒng)有一個(gè)專門為蜘蛛程序提供鏈接信息的服務(wù)器。為了盡可能減少延時(shí)，Google沒(méi)有依靠互聯(lián)網(wǎng)服務(wù)提供商提供的域名服務(wù)器(DNS)來(lái)將服務(wù)器名翻譯為網(wǎng)址，而是準(zhǔn)備了自己的域名服務(wù)器。

當(dāng)Google的蜘蛛程序訪問(wèn)一個(gè)HTML網(wǎng)頁(yè)時(shí)，它會(huì)記錄以下兩種信息：

網(wǎng)頁(yè)中的詞語(yǔ)
詞語(yǔ)所在位置

出現(xiàn)在標(biāo)題、副標(biāo)題、元標(biāo)記以及其他相對(duì)重要的位置的詞語(yǔ)，會(huì)被記錄下來(lái)，這些詞語(yǔ)往往是日后用戶搜索時(shí)經(jīng)常使用的。Google蜘蛛程序的設(shè)計(jì)旨在檢索網(wǎng)頁(yè)中的每一個(gè)重要單詞（對(duì)于英文來(lái)說(shuō)，還要濾掉冠詞a、an和the等）。其他蜘蛛程序采用不同的方法。

這些方法通常是為了盡量加快蜘蛛程序的速度，或使用戶可以更有效地進(jìn)行搜索，或二者兼而有之。例如，有些蜘蛛程序會(huì)追蹤標(biāo)題、副標(biāo)題和鏈接中的詞語(yǔ)，以及網(wǎng)頁(yè)中最常用的100個(gè)詞和文章前20行中的每一個(gè)詞。據(jù)說(shuō)Lycos就是使用這種方法爬網(wǎng)的。

其他系統(tǒng)，如比AltaVista，則反其道而行之，檢索網(wǎng)頁(yè)中的每一個(gè)字，包括a、an、the以及其他“不重要”的詞。人們完善這種方法的干勁從未減弱，而另一些系統(tǒng)則通過(guò)其它方法與之抗衡。比如關(guān)注網(wǎng)頁(yè)的不可見(jiàn)部分，即元標(biāo)記。

元標(biāo)記

元標(biāo)記允許網(wǎng)頁(yè)所有者來(lái)設(shè)定檢索網(wǎng)頁(yè)的關(guān)鍵字或概念。這很有用，特別是在網(wǎng)頁(yè)中的詞語(yǔ)有多個(gè)含義的時(shí)候——元標(biāo)記可以引導(dǎo)搜索引擎在這些詞的幾種可能含義中選擇正確的一項(xiàng)。但是，過(guò)分依賴元標(biāo)記有一個(gè)危險(xiǎn)：粗心或不負(fù)責(zé)任的網(wǎng)頁(yè)所有者會(huì)添加一些對(duì)應(yīng)熱門話題的元標(biāo)記，但是與網(wǎng)頁(yè)實(shí)際內(nèi)容沒(méi)有任何關(guān)系。為了防止此種事情發(fā)生，蜘蛛程序會(huì)比對(duì)元標(biāo)記和網(wǎng)頁(yè)內(nèi)容，剔除那些與網(wǎng)頁(yè)詞語(yǔ)不符的元標(biāo)記。

上述方法均基于一個(gè)假設(shè)，也就是網(wǎng)頁(yè)所有者希望自己的網(wǎng)頁(yè)被納入搜索引擎的搜索列表。但有些情況下，網(wǎng)頁(yè)所有者并不希望它們出現(xiàn)在主流搜索引擎中，或是不希望蜘蛛程序訪問(wèn)網(wǎng)頁(yè)。比如，假設(shè)有一款網(wǎng)頁(yè)游戲，每當(dāng)部分頁(yè)面被顯示或者新鏈接被點(diǎn)擊時(shí)，游戲就會(huì)生成新的動(dòng)態(tài)頁(yè)面。如果網(wǎng)絡(luò)蜘蛛程序進(jìn)入網(wǎng)頁(yè)，繼而開始追蹤所有新網(wǎng)頁(yè)的鏈接，游戲很可能將這些操作錯(cuò)認(rèn)為是由一名操作速度極快的玩家執(zhí)行的，從而失去控制。為了避免此類情況，人們制定了一套拒絕蜘蛛?yún)f(xié)議。該協(xié)議如果嵌入網(wǎng)頁(yè)開頭的元標(biāo)記部分，就會(huì)告訴蜘蛛程序遠(yuǎn)離該頁(yè)面——既不要檢索網(wǎng)頁(yè)上的詞語(yǔ)，也不要試圖追蹤網(wǎng)頁(yè)上的鏈接。

日搜索次數(shù)：美國(guó)前五名搜索引擎

Google:250000000
Overture:167000000
Inktomi:80000000
LookSmart:45000000
FindWhat:33000000

建立索引

一旦蜘蛛程序完成了網(wǎng)頁(yè)信息收集工作（我們應(yīng)當(dāng)注意，這是一項(xiàng)永遠(yuǎn)不可能真正完成的工作——網(wǎng)頁(yè)不斷更新的特性意味著蜘蛛程序需要不斷爬網(wǎng)），搜索引擎就必須以一種有效方式存儲(chǔ)這些信息。要讓收集到的數(shù)據(jù)可供用戶使用，涉及兩個(gè)關(guān)鍵環(huán)節(jié)：

以數(shù)據(jù)存儲(chǔ)信息
為信息建立索引方法

在最簡(jiǎn)單的情況下，搜索引擎只需存儲(chǔ)詞語(yǔ)和詞語(yǔ)所在地址。實(shí)際上，這樣做會(huì)限制搜索引擎的用途，因?yàn)檫@種方式無(wú)法區(qū)別詞語(yǔ)在網(wǎng)頁(yè)中是被重點(diǎn)使用，還是略一提及，也無(wú)法區(qū)別詞語(yǔ)是使用一次還是多次，或該網(wǎng)頁(yè)上是否含有其它包括該關(guān)鍵字的網(wǎng)頁(yè)的鏈接。換句話說(shuō)，這樣做將無(wú)法建立排名表，無(wú)法把最有用的網(wǎng)頁(yè)放在查詢結(jié)果列表的頂端。

為了獲得更多有用信息，大多數(shù)搜索引擎存儲(chǔ)的信息不僅僅是詞語(yǔ)和網(wǎng)址，還可能存儲(chǔ)著該字在網(wǎng)頁(yè)中出現(xiàn)的次數(shù)。搜索引擎可能會(huì)為每個(gè)詞條指定一個(gè)權(quán)重，按照詞語(yǔ)出現(xiàn)在文檔開頭、網(wǎng)頁(yè)副標(biāo)題、鏈接、元標(biāo)記或標(biāo)題的順序，權(quán)重依次增大。各商業(yè)搜索引擎指定索引中詞語(yǔ)權(quán)重的公式有所不同。這從一個(gè)側(cè)面解釋了為什么使用不同搜索引擎來(lái)搜索相同關(guān)鍵字，卻會(huì)產(chǎn)生不同的搜索結(jié)果列表，網(wǎng)頁(yè)排列順序也有所不同。

如果忽略搜索引擎存儲(chǔ)的額外信息的準(zhǔn)確組合，將這些數(shù)據(jù)進(jìn)行編碼可以節(jié)省存儲(chǔ)空間。比如，最初的Google論文描述了使用兩個(gè)字節(jié)（每個(gè)字節(jié)8比特）來(lái)存儲(chǔ)權(quán)重信息——單詞是不是大寫、字號(hào)大小、位置以及其他用來(lái)為數(shù)據(jù)確定級(jí)別的信息。每個(gè)因素大概占據(jù)兩字節(jié)中的兩三個(gè)比特（8比特=1字節(jié)）。因此，大量信息便能以一種壓縮率極高的方式存儲(chǔ)下來(lái)。信息被壓縮之后，就可以建立索引了。

索引的唯一目的是盡快找到信息。有好幾種方法可以建立索引，但是最有效的方法是建立散列表。通過(guò)散列法，運(yùn)用公式給每個(gè)詞賦予一個(gè)數(shù)值。該公式可以把詞條平均分配給預(yù)定數(shù)目的分區(qū)。此種數(shù)值分配不同于根據(jù)字母表分配，這是散列表的有效性的關(guān)鍵所在。

在英語(yǔ)中，以某些字母開頭的單詞較多，而以其他字母開頭的單詞較少。例如，您會(huì)發(fā)現(xiàn)，字典的M部就比X部厚得多。這種不均衡意味著查找一個(gè)以“常見(jiàn)”字母開頭的單詞，要比查找不常見(jiàn)字母開頭的單詞花費(fèi)更多時(shí)間。散列法平衡了這種區(qū)別，并且縮短了查找某一詞條的平均時(shí)間。它還將索引和實(shí)際詞條分開。散列表中含有經(jīng)過(guò)散列函數(shù)轉(zhuǎn)換生成的數(shù)字和一個(gè)指向?qū)嶋H數(shù)據(jù)的指針，（這樣）不論什么方式，只要它讓實(shí)際數(shù)據(jù)最有效地存儲(chǔ)起來(lái)，實(shí)際數(shù)據(jù)都可以用這種方式得到分類排序。通過(guò)高效的索引和有效的存儲(chǔ)方式，即使用戶進(jìn)行了一次復(fù)雜的查詢，也能迅速查找到結(jié)果。

建立搜索

通過(guò)索引進(jìn)行搜索需要用戶進(jìn)行一次查詢，并通過(guò)搜索引擎提交。查詢可以相當(dāng)簡(jiǎn)單，最少僅需一個(gè)詞。建立比較復(fù)雜的查詢則需要使用布爾運(yùn)算符來(lái)細(xì)化和拓展搜索項(xiàng)。

最常見(jiàn)的布爾運(yùn)算符包括：

AND（與）——以“AND”相連的若干搜索項(xiàng)必須全部出現(xiàn)在網(wǎng)頁(yè)或文檔中。有些搜索引擎使用運(yùn)算符號(hào)“+”來(lái)代替“AND”。
OR（或）——以“OR”相連的搜索項(xiàng)必須至少有一項(xiàng)出現(xiàn)在網(wǎng)頁(yè)或文檔中。
NOT（非）——“NOT”之后的搜索項(xiàng)不能出現(xiàn)在網(wǎng)頁(yè)或文檔中。有些搜索引擎使用運(yùn)算符號(hào)“-”來(lái)代替“NOT”。
FOLLOWED BY（跟隨）——某一搜索項(xiàng)必須緊隨另一搜索項(xiàng)。
NEAR（臨近）——某一搜索項(xiàng)和另一搜索項(xiàng)的距離必須小于特定詞數(shù)。
引號(hào)——引號(hào)內(nèi)的詞語(yǔ)應(yīng)被看作一個(gè)完整短語(yǔ)，出現(xiàn)在網(wǎng)頁(yè)或文檔中。

搜索游戲搜索引擎已經(jīng)成為我們生活的不可或缺的部分，基于這個(gè)工具至少開發(fā)了一款精心設(shè)計(jì)的游戲。玩Google命中游戲時(shí)，您需要在 Google搜索引擎中鍵入兩個(gè)詞，期盼著只得到唯一結(jié)果——只有一個(gè)網(wǎng)頁(yè)同時(shí)包含這兩個(gè)詞。這叫做純命中。

這是一個(gè)很難的游戲——您需要選擇兩個(gè)完全不相關(guān)的詞，否則肯定會(huì)得到許多網(wǎng)頁(yè)結(jié)果。另一方面，很多完全不相關(guān)的單詞查詢不到任何結(jié)果。

如果你發(fā)現(xiàn)了一個(gè)純命中，可以把它提交到www.googlewhack.com，他們會(huì)把它公布在命中棧（標(biāo)著您的名字，或者任何您喜歡的稱呼）上，大家都可以瀏覽。

未來(lái)的搜索

借助布爾運(yùn)算符定義的搜索是一種文字搜索——搜索引擎按照鍵入的詞語(yǔ)或短語(yǔ)精確搜索。如果鍵入的單詞含有多種意思，就會(huì)有問(wèn)題。例如，“床”（bed），既可以是睡覺(jué)的床，也可以是種植花卉的花床，還可以是卡車的貨艙或魚的產(chǎn)卵地。如果您只對(duì)其中的一個(gè)意思感興趣，也許就不想查看使用其他意思的網(wǎng)頁(yè)。您可以嘗試去除您不感興趣的意思來(lái)建立文字搜索。但是，如果搜索引擎自己可以解決的話就更好了。

基于概念的搜索是搜索引擎的研究領(lǐng)域之一。有些此類搜索引擎應(yīng)用統(tǒng)計(jì)分析來(lái)處理包含您要搜索的單詞或短語(yǔ)的網(wǎng)頁(yè)，以此尋找其它您可能感興趣的網(wǎng)頁(yè)。顯然，對(duì)于基于概念的搜索引擎來(lái)說(shuō)，為每個(gè)網(wǎng)頁(yè)存儲(chǔ)的信息要更多，而且每次查詢也需要更復(fù)雜的處理過(guò)程。盡管如此，還是有許多團(tuán)隊(duì)致力于改進(jìn)此類搜索引擎的結(jié)果和表現(xiàn)。還有些人轉(zhuǎn)入了另一個(gè)研究領(lǐng)域，名為自然語(yǔ)言查詢。

自然語(yǔ)言查詢的理念是，您可以像詢問(wèn)坐在身邊的人那樣輸入問(wèn)題——不必使用布爾運(yùn)算符或者復(fù)雜的查詢結(jié)構(gòu)。目前最受歡迎的自然語(yǔ)言查詢網(wǎng)站是AskJeeves.com，該網(wǎng)站可以將用戶的查詢解析為關(guān)鍵字，之后再對(duì)已建好的網(wǎng)站索引進(jìn)行搜索。它只能處理簡(jiǎn)單查詢，但在適用于復(fù)雜自然語(yǔ)言的搜索引擎的開發(fā)領(lǐng)域，競(jìng)爭(zhēng)相當(dāng)激烈。

閱讀全文

搜索引擎(13272) 搜索引擎(13272)

評(píng)論

相關(guān)推薦

FPGA加速視覺(jué)搜索引擎解決方案

電子發(fā)燒友網(wǎng)站提供《FPGA加速視覺(jué)搜索引擎解決方案.pdf》資料免費(fèi)下載

2023-09-13 10:32:05

Neeva宣布關(guān)閉其搜索引擎

但打造搜索引擎實(shí)際上是很容易的部分。Ramaswamy和Raghunathan繼續(xù)說(shuō)道：“在整個(gè)過(guò)程中，我們發(fā)現(xiàn)打造搜索引擎是一回事，而說(shuō)服普通用戶需要轉(zhuǎn)向更好的選擇則是另一回事。”

2023-05-24 10:22:37

277

使用Rust語(yǔ)言重寫的代碼搜索引擎黑鳥系統(tǒng)Blackbird正式啟用

其次，需要完全從頭開始構(gòu)建了一個(gè)新的代碼搜索引擎。新的引擎需要非常快（大約是舊代碼搜索速度的兩倍），功能更強(qiáng)大（支持子字符串查詢、正則表達(dá)式和符號(hào)搜索），并且理解代碼，將最相關(guān)的結(jié)果放在排名最前面。

2023-05-11 09:52:56

253

[分享]最強(qiáng)山寨版搜索引擎震驚世界-熊熊搜索

日前，一款名為“熊熊搜索”（Bearsou.com）的搜索引擎引起了不少網(wǎng)友的關(guān)注，這個(gè)搜索引擎一眼看去和普通搜索引擎區(qū)別不大，但仔細(xì)一看，這款搜索不僅整合了Google，百度和雅虎三大搜索引擎

2008-11-22 18:58:17

微軟GPT-4搜索引擎重大升級(jí) 新Bing開放AI能力

微軟GPT-4搜索引擎重大升級(jí) 新Bing開放AI能力微軟和OpenAI合作將人工智能技術(shù)應(yīng)用于必應(yīng)搜索帶來(lái)了更多不一樣的搜索體驗(yàn)。此前Open AI發(fā)布了新一代大型人工智能語(yǔ)言訓(xùn)練模型

2023-05-05 17:15:35

1501

一個(gè)基于GPT-4的代碼搜索引擎，開源了！

于是，一個(gè)名為 Bloop 的代碼搜索引擎應(yīng)運(yùn)而生，它的存在，徹底打破了以往傳統(tǒng)的代碼搜索方式，采用基于 GPT-4 的 AI 智能模型，成功實(shí)現(xiàn)用自然語(yǔ)言，語(yǔ)義化的代碼搜索方式！

2023-04-27 14:25:40

571

NAS下搭建linux命令搜索引擎教程

前面寫到了程序?qū)Ｓ玫膙scode，今天再來(lái)介紹一款程序佬專用的搜索引擎——Linux命令搜索引擎。該引擎專用于搜索Linux下的各種命令，畢竟人的記憶力是有限的，當(dāng)你記不住某一個(gè)命令的使用時(shí)，只需要打開此搜索引擎輸入想查詢的內(nèi)容即可。

2023-02-24 11:33:12

580

搜索引擎技術(shù)大戰(zhàn)，始于昨日

“搜索引擎的技術(shù)大戰(zhàn)，始于今日。我們會(huì)繼續(xù)前進(jìn)并加快步伐。更重要的是，我們希望能在搜索領(lǐng)域持續(xù)創(chuàng)新，如今時(shí)機(jī)已到。”微軟 CEO Satya Nadella 說(shuō)道，“這代表著搜索領(lǐng)域進(jìn)入了全新的篇章。”

2023-02-10 16:02:11

647

ChatGPT能否取代Google、百度等傳統(tǒng)搜索引擎

ChatGPT并不是搜索引擎。它的目的不是提供信息搜索。相對(duì)于搜索引擎通過(guò)索引網(wǎng)頁(yè)并匹配搜索詞來(lái)提供信息，ChatGPT則是通過(guò)對(duì)自然語(yǔ)言問(wèn)題的回答來(lái)幫助用戶解決問(wèn)題。因此，它們之間沒(méi)有直接的競(jìng)爭(zhēng)關(guān)系，并不能相互顛覆。

2023-02-09 16:17:04

701

基于預(yù)訓(xùn)練語(yǔ)言模型的行業(yè)搜索的應(yīng)用和研究

面向產(chǎn)業(yè)和消費(fèi)互聯(lián)網(wǎng)的搜索本質(zhì)都是一樣的：用戶有信息獲取需求，同時(shí)有信息資源庫(kù)，通過(guò)搜索引擎把兩者橋接起來(lái)。

2023-02-01 11:23:45

482

ChatGPT爆紅，百度、搜狗、360等搜索引擎尷尬嗎？

用戶對(duì)ChatGPT的期待，實(shí)際上也有一層隱性含義在，即對(duì)現(xiàn)有谷歌、百度、搜狗、360搜索、神馬搜索等搜索引擎的表現(xiàn)不滿，ChatGPT越火，搜索引擎似乎愈發(fā)尷尬。使用的人多沒(méi)什么了不起，竟然會(huì)有那么多人不喜歡這些搜索引擎的用戶體驗(yàn)。

2022-12-14 14:04:32

564

張俊林：ChatGPT會(huì)成為下一代搜索引擎嗎

說(shuō)回ChatGPT，例子就不舉了，在網(wǎng)上漫山遍野都是，我們主要從技術(shù)角度來(lái)聊聊。那么，ChatGPT到底是采用了怎樣的技術(shù)，才能做到如此超凡脫俗的效果？既然chatGPT功能如此強(qiáng)大，那么它可以取代Google、百度等現(xiàn)有搜索引擎嗎？如果能，那是為什么，如果不能，又是為什么？

2022-12-07 11:02:40

558

Midori瀏覽器沒(méi)有停止維護(hù)，將集成自家開源搜索引擎

在 Reddit 的帖子中，Astian 的工作人員表示他們計(jì)劃在 Midori 網(wǎng)絡(luò)瀏覽器的下一次更新中增加一個(gè)集成的開源搜索引擎，即 AstianGO。目前這項(xiàng)開發(fā)工作的細(xì)節(jié)并不多，但 Astian 提到：

2022-12-01 15:27:18

603

傳騰訊和字節(jié)跳動(dòng)內(nèi)容有望向其他搜索引擎開放

工信部近日要求騰訊公司和字節(jié)跳動(dòng)等媒體公司開放允許用戶在本平臺(tái)上搜索訪問(wèn)其他平臺(tái)的文字內(nèi)容，目前的審議主要集中在微信的公眾賬號(hào)上，用戶可以獲取到微信上的數(shù)億篇文章直接轉(zhuǎn)移到百度等搜索引擎上。

2021-10-20 15:41:18

1856

基于蛻變測(cè)試的用戶搜索引擎性能分析

面對(duì)海量的互聯(lián)網(wǎng)信息，用戶在進(jìn)行搜索時(shí)缺乏客觀公認(rèn)的 Oracle驗(yàn)證搜索引擎所返回結(jié)果是否正確為此，將蛻變測(cè)試應(yīng)用于搜索引擎的性能測(cè)試。針對(duì)搜索引擎 Baidu、Bing和360，結(jié)合搜索操作符

2021-05-25 16:37:48

谷歌威脅將整個(gè)澳大利亞撤出其搜索引擎

據(jù)外媒消息，如果澳大利亞擬議的法律生效，谷歌威脅要從整個(gè)澳大利亞撤出其搜索引擎。

2021-01-22 10:28:53

1580

蘋果自研的搜索引擎干的過(guò)谷歌嗎？

據(jù)TNW報(bào)道，蘋果正在加快研發(fā)自己的搜索引擎，以取代谷歌。推出自己的搜索引擎，將有利于蘋果的產(chǎn)品服務(wù)的推廣，同時(shí)削弱谷歌在搜索領(lǐng)域的壟斷地位。

2020-12-22 14:54:30

1585

蘋果正在加快研發(fā)自己的搜索引擎,以取代谷歌

　12月22日消息：據(jù)TNW報(bào)道，蘋果正在加快研發(fā)自己的搜索引擎，以取代谷歌。推出自己的搜索引擎，將有利于蘋果的產(chǎn)品服務(wù)的推廣，同時(shí)削弱谷歌在搜索領(lǐng)域的壟斷地位。

2020-12-22 11:56:20

2376

谷歌將讓歐洲的Android用戶選擇搜索引擎

但是，并非所有搜索引擎都具有此功能，因?yàn)橐?b style="color: red">搜索提供者填寫一份申請(qǐng)表，以使其有機(jī)會(huì)“競(jìng)標(biāo)收錄”。Google決定進(jìn)行一次密封的競(jìng)標(biāo)拍賣，供應(yīng)商會(huì)說(shuō)明他們?cè)敢鉃槊總€(gè)國(guó)家/地區(qū)展示的價(jià)格。

2020-12-18 14:03:34

1178

中國(guó)搜索引擎市場(chǎng)規(guī)模已突破千億元，百度引領(lǐng)國(guó)內(nèi)發(fā)展

搜索引擎作為互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用，是網(wǎng)民獲取信息的重要工具，其使用率自2010年后始終保持在80%左右，使用率在所有應(yīng)用中穩(wěn)居第二。整體上，搜索引擎網(wǎng)民增長(zhǎng)已進(jìn)入平穩(wěn)發(fā)展期，但更加多元化。隨著移動(dòng)互聯(lián)網(wǎng)快速發(fā)展，網(wǎng)民的部分搜索行為轉(zhuǎn)向了移動(dòng)搜索，移動(dòng)搜索成為搜索企業(yè)未來(lái)新的增長(zhǎng)點(diǎn)。

2020-11-05 15:44:10

2925

蘋果正在開發(fā)iPhone的搜索引擎技術(shù),挑戰(zhàn)谷歌的壟斷地位

據(jù)英國(guó)媒體報(bào)道，蘋果可能正在開發(fā)iPhone設(shè)備中的搜索引擎技術(shù)，從而將挑戰(zhàn)目前谷歌在全球搜索引擎中的壟斷地位。谷歌當(dāng)前正在遭遇歐美政府更加嚴(yán)厲的反壟斷起訴。

2020-10-30 11:55:10

2292

谷歌每年向蘋果支付數(shù)十億美元,確保其是iPhone的默認(rèn)搜索引擎

盡管谷歌每年向蘋果支付數(shù)十億美元以確保其仍然是 iPhone 的默認(rèn)搜索引擎，但有報(bào)道指出，蘋果已經(jīng)在內(nèi)部開發(fā)自家的搜索技術(shù)。

2020-10-29 15:03:49

1555

蘋果秘密研發(fā)搜索引擎，或?qū)雀璋l(fā)起競(jìng)爭(zhēng)挑戰(zhàn)

谷歌為確保其搜索引擎在iPhone等蘋果設(shè)備上的默認(rèn)搜索地位，每年向蘋果支付數(shù)十億美元。鑒于美國(guó)司法部提起的訴訟威脅到谷歌與蘋果的交易，蘋果正加緊努力開發(fā)自家網(wǎng)絡(luò)搜索技術(shù)，探索建立自家搜索工具。

2020-10-29 11:38:11

1326

谷歌每年向蘋果支付80-120億美元,使谷歌成為其設(shè)備的默認(rèn)搜索引擎

2017年，蘋果將Google的搜索引擎作為蘋果設(shè)備上的預(yù)選項(xiàng)。據(jù)《紐約時(shí)報(bào)》報(bào)道，蘋果每年因此可獲得約80-120億美元作為回報(bào)，以使谷歌成為其設(shè)備和服務(wù)（包括iPhone和Siri）上的默認(rèn)搜索引擎。據(jù)信這是谷歌向外界支付的最大一筆款項(xiàng)，占蘋果年利潤(rùn)的14%至21%。

2020-10-26 11:03:29

1372

華為Mate40全球線上發(fā)布搜索引擎和地圖應(yīng)用

10月22日晚，華為在Mate 40系列全球線上發(fā)布會(huì)面向海外用戶正式發(fā)布海外搜索引擎、地圖、文檔應(yīng)用，為用戶帶來(lái)更便捷、豐富的手機(jī)應(yīng)用體驗(yàn)。

2020-10-23 11:38:38

2446

靠搜索引擎發(fā)家的谷歌，或被美國(guó)盯上采取法律行動(dòng)

谷歌靠搜索引擎起家，現(xiàn)在要惹上麻煩了，美國(guó)很快就要對(duì)他們?cè)?b style="color: red">搜索引擎上的壟斷采取法律行動(dòng)。

2020-09-29 10:33:00

1338

2020年華為開發(fā)者大會(huì)快訊：華為搜索引擎基于移動(dòng)云搜索面向移動(dòng)終端用戶

在2020年華為開發(fā)者大會(huì)上，華為消費(fèi)者業(yè)務(wù)云服務(wù)總裁張平安宣布 HMS Core 5.0 全球發(fā)布。華為搜索引擎主要面向移動(dòng)領(lǐng)域，當(dāng)然同樣可以開放給企業(yè)和生態(tài)合作伙伴。華為搜索引擎主要面向移動(dòng)

2020-09-10 17:10:41

2006

Apple將在不久的將來(lái)啟動(dòng)搜索引擎

另一方面，即使蘋果公司是它與Google簽訂的合同的獲勝方，它也可以放棄該合同并成為搜索引擎方面的競(jìng)爭(zhēng)對(duì)手，以炫耀其競(jìng)爭(zhēng)對(duì)手Google。為此，請(qǐng)?zhí)嵝涯袛?shù)百萬(wàn)個(gè)用戶和數(shù)百萬(wàn)個(gè)活動(dòng)的Safari瀏覽器。

2020-09-09 15:44:29

1401

中國(guó)搜索引擎增速放緩，移動(dòng)搜索成為搜索企業(yè)未來(lái)新的增長(zhǎng)點(diǎn)

搜索引擎作為互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用，是網(wǎng)民獲取信息的重要工具，其使用率自2010年后始終保持在80％左右，使用率在所有應(yīng)用中穩(wěn)居第二。整體上，搜索引擎網(wǎng)民增長(zhǎng)已進(jìn)入平穩(wěn)發(fā)展期，但更加多元化。隨著移動(dòng)互聯(lián)網(wǎng)快速發(fā)展，網(wǎng)民的部分搜索行為轉(zhuǎn)向了移動(dòng)搜索，移動(dòng)搜索成為搜索企業(yè)未來(lái)新的增長(zhǎng)點(diǎn)。

2020-09-08 10:04:03

1659

2020上半年國(guó)內(nèi)搜索引擎數(shù)據(jù)出爐，百度斬獲雙第一

日前，“網(wǎng)速管家”發(fā)布2020年7月最新的國(guó)內(nèi)搜索引擎占有率，其中，百度作為多數(shù)中國(guó)網(wǎng)民優(yōu)先選擇的搜索引擎，穩(wěn)居國(guó)內(nèi)搜索引擎排名第一，PC端市場(chǎng)占比81.26%，移動(dòng)端市場(chǎng)占比80.62%，均碾壓其他搜索引擎。

2020-08-16 10:10:32

4159

DuckDuckGo搜索引擎采用了新的簡(jiǎn)約設(shè)計(jì)

搜索引擎最近達(dá)到了500萬(wàn)個(gè)直接訪問(wèn)標(biāo)記。如果將它與Google甚至Bing收到的請(qǐng)求進(jìn)行比較，則可能并不多，但穩(wěn)定的增長(zhǎng)始終是一個(gè)好兆頭。

2020-07-24 16:45:30

1181

Verizon推出新型搜索引擎OneSearch，以保障用戶信息安全

Verizon Media發(fā)布了一款面向消費(fèi)者用戶推出的隱私搜索引擎——OneSearch，主打用戶的信息安全。

2020-05-04 10:27:00

1008

Verizon Media發(fā)布一款的隱私搜索引擎將不會(huì)利用cookie對(duì)用戶進(jìn)行追蹤

Verizon Media今天發(fā)布了一款面向消費(fèi)者用戶推出的隱私搜索引擎——OneSearch，主打用戶的信息安全。

2020-01-15 13:57:48

1488

大數(shù)據(jù)是如何優(yōu)化企業(yè)搜索引擎

企業(yè)網(wǎng)站將比以往任何時(shí)候都更多地使用大數(shù)據(jù)，大數(shù)據(jù)在搜索引擎優(yōu)化（SEO）中起著非常重要的作用。

2019-12-28 10:24:02

1975

迫于歐盟壓力，谷歌放寬對(duì)搜索引擎競(jìng)爭(zhēng)對(duì)手的競(jìng)標(biāo)條件

在歐盟的壓力下，谷歌再次修改了相關(guān)條款，為想要出現(xiàn)在安卓手機(jī)上的搜索引擎競(jìng)爭(zhēng)對(duì)手放寬了競(jìng)標(biāo)條件。

2019-10-24 16:02:06

2353

區(qū)塊鏈技術(shù)打造的區(qū)塊鏈搜索引擎和資訊服務(wù)平臺(tái)Bee360介紹

Bee360 最基礎(chǔ)的功能之一就是搜索，我們希望用戶通過(guò) Bee360 可以接收和搜索區(qū)塊鏈相關(guān)的全部公開信息。區(qū)塊鏈全域搜索引擎覆蓋全球數(shù)萬(wàn)家專業(yè)媒體、自媒體、項(xiàng)目方門戶等信息源，運(yùn)用強(qiáng)大的搜索引擎對(duì)信息流進(jìn)行實(shí)時(shí)監(jiān)測(cè)和歸集，根據(jù)用戶定制需求和搜索指令給以呈現(xiàn)。

2019-07-31 10:54:55

2394

基于Lucene實(shí)現(xiàn)全文搜索引擎MYSearch的構(gòu)建

Lucene是apache軟件基金會(huì)4 jakarta項(xiàng)目組的一個(gè)子項(xiàng)目，是一個(gè)開放源代碼的全文檢索引擎工具包，即它不是一個(gè)完整的全文檢索引擎，而是一個(gè)全文檢索引擎的架構(gòu)，提供了完整的查詢引擎和索引

2019-07-25 08:07:00

2365

基于區(qū)塊鏈技術(shù)的革命性安全搜索引擎IPFS介紹

IPSE（星際搜索引擎），一種基于IPFS的革命性搜索引擎，通過(guò)維護(hù)用戶隱私，去中心化和搜索效率來(lái)構(gòu)建新體驗(yàn)。 IPSE允許用戶通過(guò)加密技術(shù)和智能合約控制他們的個(gè)人數(shù)據(jù)。通過(guò)IPSE享受無(wú)限制和無(wú)需

2019-05-05 14:53:50

1192

人工智能時(shí)代的到來(lái)，搜索引擎將會(huì)是什么樣子呢？

今天當(dāng)我們談及搜索引擎的時(shí)候，首先想到的就是搜索框和搜索結(jié)果。而未來(lái)的搜索引擎將會(huì)是什么樣子呢？我們并沒(méi)有確切答案。但是我們樂(lè)于擁有更強(qiáng)大的搜索引擎，讓我們?cè)诓煌膱?chǎng)景、不同的產(chǎn)品或不同的交互界面里，能夠看見(jiàn)、聽(tīng)見(jiàn)和感受到。搜索，將會(huì)無(wú)處不在。

2019-03-20 16:35:39

2061

谷歌“實(shí)際上已經(jīng)終止”開發(fā)中國(guó)版搜索引擎的“蜻蜓項(xiàng)目”計(jì)劃

谷歌一款被稱為“信號(hào)塔”（BeaconTower）的工具，能夠辨識(shí)使用者的搜索詞是否違反中國(guó)的審查，該工具協(xié)助谷歌工程師得出一個(gè)數(shù)千個(gè)被禁網(wǎng)站的清單，其中包括BBC和維基百科，而被禁的網(wǎng)站可能會(huì)被排除在蜻蜓搜索引擎的搜索結(jié)果之外。

2018-12-21 14:42:05

3616

微軟必應(yīng)搜索引擎含虛假的谷歌Chrome網(wǎng)址

近期，據(jù)某推特用戶揭露，微軟必應(yīng)搜索引擎含惡意廣告，推廣虛假的谷歌Chrome網(wǎng)址，在微軟將其移除前，少數(shù)用戶已看到這些廣告。

2018-10-31 10:07:29

4317

區(qū)塊鏈技術(shù)如何推動(dòng)搜索引擎變革

搜索引擎的主要目的很簡(jiǎn)單：提供可靠、權(quán)威、及時(shí)的信息來(lái)供應(yīng)查詢。隨著搜索者不斷地查詢、點(diǎn)擊和學(xué)習(xí)，他們與企業(yè)之間產(chǎn)生互動(dòng)的頻率自然會(huì)增加。這些相互作用可以能使雙方受益，消費(fèi)者希望得到問(wèn)題的答案，企業(yè)則希望能為消費(fèi)者提供解決方案。由兩者之間的互動(dòng)生成的數(shù)據(jù)存在一定的意義，且會(huì)形成一個(gè)良性循環(huán)。

2018-10-23 11:32:55

1130

谷歌確實(shí)在開發(fā)中國(guó)定制版的谷歌搜索引擎.

谷歌搜索業(yè)務(wù)于2010年退出中國(guó)市場(chǎng)，之后幾年，谷歌返華的話題幾乎每年都會(huì)拿出來(lái)炒作一番。但今年這個(gè)話題才開始變得真實(shí)，早前的爆料中顯示谷歌內(nèi)部開發(fā)了能夠滿足中國(guó)法律要求的定制版搜索引擎。

2018-10-22 14:21:51

3742

谷歌發(fā)布查找在線數(shù)據(jù)的搜索引擎Dataset Search

9月5日，谷歌發(fā)布了一個(gè)幫助研究者查找在線數(shù)據(jù)的免費(fèi)搜索引擎 Dataset Search。谷歌表示，該引擎面向「科學(xué)家、數(shù)據(jù)記者、數(shù)據(jù)極客等人群」。該引擎有助于促進(jìn)數(shù)據(jù)的開放利用和重復(fù)利用。

2018-09-11 16:20:15

3171

數(shù)萬(wàn)臺(tái)大華設(shè)備現(xiàn)漏洞密碼暴露于ZoomEye物聯(lián)網(wǎng)搜索引擎

據(jù)外媒報(bào)道，數(shù)以萬(wàn)計(jì)大華設(shè)備的登陸密碼被緩存在ZoomEye的搜索結(jié)果中，這意味著它們處于危險(xiǎn)之中。ZoomEye是一個(gè)用于發(fā)現(xiàn)連接互聯(lián)網(wǎng)設(shè)備的搜索引擎，也被稱為物聯(lián)網(wǎng)搜索引擎。

2018-09-01 16:06:00

5679

python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎

本文檔的主要內(nèi)容詳細(xì)介紹的是python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎

2018-08-28 15:32:29

上千谷歌員工對(duì)中國(guó)版搜索引擎提出抗議

上千名谷歌員工聯(lián)署，對(duì)公司為中國(guó)秘密打造審查版搜索引擎表達(dá)不滿，稱這引發(fā)了“緊迫的道德和倫理問(wèn)題”，呼吁提高透明度，公開有爭(zhēng)議項(xiàng)目的道德評(píng)估。

2018-08-20 08:53:29

2882

機(jī)器學(xué)習(xí)成就了互聯(lián)網(wǎng)搜索

當(dāng)你打開互聯(lián)網(wǎng)搜索引擎，輸入關(guān)鍵詞尋找并得到想要的鏈接時(shí)，“機(jī)器學(xué)習(xí)”已經(jīng)貫穿整個(gè)過(guò)程：搜索到的內(nèi)容是機(jī)器根據(jù)無(wú)數(shù)人搜索關(guān)鍵詞的統(tǒng)計(jì)結(jié)果，返回的最可能被需要的目標(biāo)信息；而同時(shí)，你的這一次搜索行為也

2018-06-21 09:09:00

945

三分鐘了解意圖搜索技術(shù)在安防領(lǐng)域的應(yīng)用

意圖搜索最早起源于互聯(lián)網(wǎng)行業(yè)搜索引擎工具，隨著互聯(lián)網(wǎng)信息量的不斷增加，能夠快速、準(zhǔn)確地查找信息越來(lái)越困難，主要原因是搜索引擎不能理解用戶的真實(shí)查詢意圖，因而機(jī)器學(xué)習(xí)如遺傳算法、BP神經(jīng)網(wǎng)絡(luò)法等在這方面的應(yīng)用研究快速地被引起關(guān)注。

2018-05-20 11:00:00

805

VC++搜索引擎網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)文檔下載

網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問(wèn)題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后具體闡述了如何設(shè)計(jì)并實(shí)現(xiàn)搜索引擎

2018-04-08 15:31:38

介紹五個(gè)具有高級(jí)功能的搜索引擎

數(shù)據(jù)庫(kù)里存儲(chǔ)的大量的信息對(duì)標(biāo)準(zhǔn)的搜索引擎來(lái)說(shuō)是不可見(jiàn)的，標(biāo)準(zhǔn)的搜索引擎只是索引網(wǎng)站上的內(nèi)容，從一個(gè)鏈接到另一個(gè)鏈接。隱匿搜索引擎專門用來(lái)搜索被稱作Deep Web上的隱藏?cái)?shù)據(jù)。

2018-04-04 09:13:25

6472

Valossa推出一個(gè)由AI算法驅(qū)動(dòng)的智能電影搜索引擎

whatismymovie.com可以通過(guò)關(guān)鍵詞或描述搜索相應(yīng)的電影，但它不是一個(gè)普通網(wǎng)站，而是一個(gè)由AI算法驅(qū)動(dòng)的智能電影搜索引擎。該搜索引擎由融合AI的算法提供支持，這一算法通過(guò)結(jié)合自然語(yǔ)言理解、文本識(shí)別和模式識(shí)別，來(lái)理解視頻文件內(nèi)容。

2018-02-09 10:04:25

7397

垂直搜索引擎是什么_垂直搜索引擎有哪些

垂直搜索引擎是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎，是搜索引擎的細(xì)分和延伸，是對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次整合，定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。垂直搜索是相對(duì)通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等提出來(lái)的新的搜索引擎服務(wù)模式

2018-01-04 17:19:18

6946

基于帶權(quán)集合的搜索引擎隱式反饋算法

隨著Internet的迅速發(fā)展，網(wǎng)絡(luò)信息資源開始爆炸式增長(zhǎng)。傳統(tǒng)的搜索引擎很難從用戶輸入的檢索詞中獲知其檢索意圖，只能返回大量匹配結(jié)果供用戶選擇。為了有效的提高搜索引擎的查準(zhǔn)率，本文提出了一種基于帶

2017-12-20 15:49:37

深智云的物聯(lián)網(wǎng)搜索引擎獲得2017IoT技術(shù)創(chuàng)新獎(jiǎng)提名

深智云物聯(lián)網(wǎng)搜索引擎工具，這是行業(yè)內(nèi)首款針對(duì)物聯(lián)網(wǎng)為傳統(tǒng)制造業(yè)廠商提供針對(duì)于未來(lái)的服務(wù)體系，通過(guò)大數(shù)據(jù)和搜索引擎工具，為傳統(tǒng)制造業(yè)廠商提供不僅是產(chǎn)品打造層面，還能更好的建立新商貿(mào)合作關(guān)系，讓傳統(tǒng)

2017-12-01 14:37:14

1634

蘋果拋棄微軟攜手谷歌,谷歌替代必應(yīng)成為Siri的默認(rèn)搜索引擎

日前傳出消息，蘋果終于決定放棄微軟必應(yīng)，將谷歌設(shè)為iOS默認(rèn)搜索引擎，Mac上的Spotlight同樣如此。蘋果公司表示，這一轉(zhuǎn)變是為給用戶創(chuàng)造“始終如一的網(wǎng)頁(yè)搜索體驗(yàn)”。之前有報(bào)道稱，谷歌豪擲30億美元，終于成為Safari瀏覽器的默認(rèn)搜索引擎。

2017-09-27 13:52:24

1008

分布式搜索引擎elasticsearch使用手冊(cè)

分布式搜索引擎elasticsearch使用手冊(cè)

2016-12-13 21:05:37

一個(gè)大規(guī)模超文本網(wǎng)絡(luò)搜索引擎剖析（英文版）

一個(gè)大規(guī)模超文本網(wǎng)絡(luò)搜索引擎剖析（英文版）

2015-04-30 14:09:30

強(qiáng)化選型工具，MLCC搜索引擎功力大

選型替代是研發(fā)工程師和采購(gòu)經(jīng)理剛需服務(wù)，電子元件技術(shù)網(wǎng)聯(lián)合專業(yè)公司資源隆重推出MLCC搜索引擎，解決從參數(shù)到原廠料號(hào)的搜索和選型難題。

2015-01-26 10:26:50

993

一種校內(nèi)網(wǎng)資源搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

搜索引擎是目前人們尋找網(wǎng)絡(luò)資源最常用的方式，本系統(tǒng)依照搜索引擎的設(shè)計(jì)原理，采用多Agent方式，通過(guò)對(duì)索引模塊參數(shù)設(shè)置實(shí)現(xiàn)對(duì)校內(nèi)網(wǎng)不同的資源進(jìn)行統(tǒng)一整合，建立校內(nèi)網(wǎng)資源的

2012-05-09 08:58:00

841

基于JAVA技術(shù)的搜索引擎的研究與實(shí)現(xiàn)

本文還利用Java技術(shù)對(duì)搜索引擎的三個(gè)核心部分即網(wǎng)絡(luò)蜘蛛、網(wǎng)頁(yè)索引、搜索進(jìn)行了實(shí)現(xiàn)。索引和搜索部分借助Lucene全文搜索引擎庫(kù)中的Java類進(jìn)行實(shí)現(xiàn)。實(shí)現(xiàn)搜索引擎的個(gè)性化，使搜索引

2012-05-07 14:14:32

谷歌升級(jí)圖像搜索引擎改善了搜索和瀏覽網(wǎng)絡(luò)能力

7月21日消息，據(jù)國(guó)外媒體報(bào)道，一個(gè)圖片勝過(guò)一千句話。但是，你要找到一個(gè)正確的圖片不需要輸入一千句話。谷歌為其搜索引擎增加了許多功能和更新，改善了搜索和瀏覽網(wǎng)絡(luò)上

2010-07-21 08:38:07

555

主題搜索引擎的研究

介紹了將開源的全文檢索工具包Lucene嵌入到自己的搜索引擎中來(lái)滿足開發(fā)主題搜索引擎的需求。并基于Lucene中文分詞的不足設(shè)計(jì)了一個(gè)比較完善的中文分詞器，然后將其引入具體應(yīng)

2010-07-05 16:30:21

微軟必應(yīng)搜索引擎3月份市場(chǎng)份額增至11.68％

微軟必應(yīng)搜索引擎3月份市場(chǎng)份額增至11.68％ 4月10日消息，據(jù)comScore最新發(fā)表的數(shù)據(jù)顯示，微軟必應(yīng)搜索引擎3月份在美國(guó)的市場(chǎng)份額從高2月份的11.5%提

2010-04-10 10:58:16

537

李彥宏：搜索引擎沒(méi)什么門檻誰(shuí)都可以做

李彥宏：搜索引擎沒(méi)什么門檻誰(shuí)都可以做百度公司創(chuàng)始人、董事長(zhǎng)兼CEO李彥宏28日上午在深圳說(shuō)，搜索引擎沒(méi)有什么門檻，誰(shuí)都可以做，他認(rèn)為中

2010-03-30 10:10:26

805

網(wǎng)絡(luò)搜索引擎,網(wǎng)絡(luò)搜索引擎的工作原理

網(wǎng)絡(luò)搜索引擎,網(wǎng)絡(luò)搜索引擎的工作原理 21 世紀(jì)是信息時(shí)代,隨著信息科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)已成為人們生活中的重要組成部分,網(wǎng)上

2010-03-26 15:51:25

1247

AT&T從Android手機(jī)中移走了谷歌搜索引擎

AT&T從Android手機(jī)中移走了谷歌搜索引擎 3月3日消息，據(jù)國(guó)外媒體報(bào)道，AT&T公司決定做出驚人舉動(dòng)，從Android操作系統(tǒng)中抽離谷歌搜索引擎。

2010-03-03 08:56:51

716

E桶金行業(yè)搜索引擎ASP.NET2.0 v0.2

E桶金行業(yè)搜索引擎ASP.NET2.0 v0.2 .rar E桶金行業(yè)搜索引擎 特別適用于超大、中型信息門戶、行業(yè)門戶、電子商務(wù)等網(wǎng)站使用。它是一款真正意義上的搜索引擎:

2010-02-08 14:33:12

基于大型網(wǎng)站的搜索引擎網(wǎng)頁(yè)更新方法研究

大型網(wǎng)站是網(wǎng)絡(luò)信息的核心，其信息規(guī)模之大，更新速度之快是中小型網(wǎng)站不可比擬的，對(duì)大型網(wǎng)站網(wǎng)頁(yè)搜索的好壞直接影響搜索引擎的整體性能。本文在分析分類網(wǎng)頁(yè)更新策略的

2009-08-24 10:30:40

空中互聯(lián)網(wǎng)工作原理

空中互聯(lián)網(wǎng)工作原理 1. 引言

2009-08-06 09:23:54

1407

互聯(lián)網(wǎng)工作原理

互聯(lián)網(wǎng)工作原理 1. 引言 2. 網(wǎng)絡(luò)的層次結(jié)構(gòu)

2009-08-06 08:50:52

9350

為什么搜索引擎中有那么多無(wú)效鏈接？

為什么搜索引擎中有那么多無(wú)效鏈接？無(wú)效鏈接確實(shí)是一個(gè)問(wèn)題——它們浪費(fèi)了人們的大量時(shí)間，是萬(wàn)維網(wǎng)最煩人的問(wèn)題之一。該問(wèn)題涉及的主題相當(dāng)微妙，但它是檔案庫(kù)

2009-08-06 08:15:05

1087

星際互聯(lián)網(wǎng)工作原理

星際互聯(lián)網(wǎng)工作原理1. 引言 2. 星際互聯(lián)網(wǎng)的構(gòu)成

2009-08-05 11:31:05

1271

教育網(wǎng)BBS搜索引擎設(shè)計(jì)與實(shí)現(xiàn)

BBS 是教育網(wǎng)的一大特色，也是傳統(tǒng)搜索引擎搜索的盲點(diǎn)，本文系統(tǒng)介紹了根據(jù)教育網(wǎng)BBS 的特點(diǎn)建立BBS 搜索引擎的關(guān)鍵技術(shù)和實(shí)現(xiàn)方法。關(guān)鍵詞：搜索引擎，Telnet 協(xié)議，BBS，

2009-06-17 11:28:11

分布式多搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)

隨著Internet 的迅速發(fā)展，傳統(tǒng)的搜索引擎在覆蓋度、查詢精度、可擴(kuò)展性和用戶多樣化需求等方面存在許多不足。本文詳細(xì)介紹了多搜索引擎技術(shù)，以及在該技術(shù)基礎(chǔ)上實(shí)現(xiàn)的多搜

2009-06-09 09:20:25

基于壓縮后綴數(shù)組技術(shù)的搜索引擎

目前，搜索引擎的核心模塊(索引器)均采用倒排文件結(jié)構(gòu)，對(duì)短語(yǔ)查詢的準(zhǔn)確率較低。該文引入后綴數(shù)組技術(shù)進(jìn)行全文索引，為克服全文索引時(shí)占用空間大的缺點(diǎn)，研究了壓縮后綴數(shù)

2009-04-22 09:57:40

Web Services在黃頁(yè)搜索引擎中的應(yīng)用

提出一種將Windows平臺(tái)上的動(dòng)態(tài)鏈接庫(kù)文件封裝為.NET平臺(tái)下的Web Services并使用Linux平臺(tái)下Java Web程序調(diào)用的方法。該方法已成功應(yīng)用于中國(guó)電信公司黃頁(yè)搜索引擎系統(tǒng)。該文討論了整

2009-04-22 09:00:19

原創(chuàng)優(yōu)先的搜索引擎排序算法

現(xiàn)有的搜索引擎排序算法大多根據(jù)網(wǎng)頁(yè)之間的鏈接關(guān)系進(jìn)行排序，沒(méi)有考慮原創(chuàng)和轉(zhuǎn)載文章之間的優(yōu)先次序。該文提出一種適用于專業(yè)搜索引擎的新型排序算法，在排序時(shí)優(yōu)先考慮

2009-04-16 08:43:00

分布式數(shù)據(jù)庫(kù)搜索引擎的索引建立和優(yōu)化

對(duì)于使用數(shù)據(jù)的用戶來(lái)說(shuō)，能找到準(zhǔn)確的數(shù)據(jù)且沒(méi)有遺漏是一件非常困難的事。為了較好地滿足用戶需求，該文提出了利用分布式數(shù)據(jù)庫(kù)搜索引擎架構(gòu)來(lái)實(shí)現(xiàn)智能化的搜索和定位。

2009-04-15 10:01:19

維、哈、柯全文搜索引擎檢索器的關(guān)鍵技術(shù)

研究維、哈、柯全文搜索引擎檢索器的關(guān)鍵問(wèn)題，提出有效的解決方法，包括在用戶計(jì)算機(jī)沒(méi)有安裝本地輸入法和字庫(kù)的情況下輸入維、哈、柯文檢索詞并正常顯示搜索結(jié)果，針對(duì)

2009-04-11 09:26:31

基于偽爬行器的主題式元搜索引擎研究與設(shè)計(jì)

為提高搜索的查準(zhǔn)率和查全率，設(shè)計(jì)一個(gè)主題式的元搜索引擎和一個(gè)類似于爬行器的偽爬行器，通過(guò)調(diào)用通用搜索引擎采集信息，查全率高于通用搜索引擎。利用反饋機(jī)制，參考用

2009-04-10 09:33:03

搜索引擎查詢?nèi)罩镜木垲?/a>

隨著搜索引擎技術(shù)和網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)的發(fā)展，怎樣從搜索引擎查詢?nèi)罩局姓业接杏玫男畔⒊蔀檠芯繜狳c(diǎn)。該文在討論Beeferman提出的算法及Chan對(duì)其改進(jìn)的算法的優(yōu)缺點(diǎn)后，提出一個(gè)

2009-04-02 08:49:28

基于網(wǎng)格技術(shù)的并行搜索引擎

研究現(xiàn)有網(wǎng)格技術(shù)和搜索技術(shù)，分析并行搜索引擎的優(yōu)點(diǎn)和不足，提出基于網(wǎng)格技術(shù)的并行搜索引擎解決方案，其中包含一個(gè)3 層結(jié)構(gòu)的應(yīng)用框架和一個(gè)并行搜索引擎的應(yīng)用方案。

2009-03-30 10:09:38

什么是并行搜索技術(shù)

什么是并行搜索技術(shù) 并行搜索引擎(又稱集成搜索引擎、元搜索引擎、大型搜索引擎)是一種可同時(shí)檢索多個(gè)搜索引擎，并以統(tǒng)一的檢索界面

2009-03-30 10:08:17

1460

基于網(wǎng)絡(luò)搜索引擎的網(wǎng)絡(luò)話題分析框架

為了解網(wǎng)絡(luò)話題內(nèi)容組成和演化情況，提出基于有向圖的在線分類(OCBDG)方法，并設(shè)計(jì)一個(gè)基于網(wǎng)絡(luò)搜索引擎的話題分析框架。通過(guò)搜索引擎查詢?cè)掝}內(nèi)容，OCBDG 將查詢結(jié)果分成若干

2009-03-29 09:45:13

已全部加載完成

搜索歷史

互聯(lián)網(wǎng)搜索引擎工作原理

互聯(lián)網(wǎng)搜索引擎工作原理

評(píng)論