垂直搜索引擎是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶。垂直搜索是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點就是“專、精、深”,且具有行業色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。
什么是垂直搜索引擎
垂直搜索是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶。
垂直搜索引擎和普通的網頁搜索引擎的最大區別是對網頁信息進行了結構化信息抽取,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基于視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。然后將這些數據存儲到數據庫,進行進一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。
整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理后以非結構化的方式和結構化的方式返回給用戶。
垂直搜索引擎的應用方向很多,比如企業庫搜索、供求信息搜索引擎、購物搜索、房產搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索……幾乎各行各業各類信息都可以進一步細化成各類的垂直搜索引擎。
舉個例子來說明會更容易理解,比如購物搜索引擎,整體流程大致如下:抓取網頁后,對網頁商品信息進行抽取,抽取出商品名稱、價格、簡介……甚至可以進一步將筆記本簡介細分成“品牌、型號、CPU、內存、硬盤、顯示屏、……”然后對信息進行清洗、去重、分類、分析比較、數據挖掘,最后通過分詞索引提供用戶搜索、通過分析挖掘提供市場行情報告。
垂直搜索引擎大體上需要以下技術
1.Spider
2.網頁結構化信息抽取技術或元數據采集技術
3.分詞、索引
4.其他信息處理技術
垂直搜索引擎的技術評估應從以下幾點來判斷
1.全面性
2.更新性
3.準確性
4.功能性
垂直搜索的進入門檻很低,但是競爭的門檻很高。沒有專注的精神和精湛的技術是不行的。行業門戶網站具備行業優勢但他們又是沒有技術優勢的,絕對不要想像著招幾個人就可以搞定垂直搜索的全部技術,作為一個需要持續改進可運營的產品而不是一個項目來說對技術的把握控制程度又是垂直搜索成功的重要因素之一。
1、垂直搜索引擎不是什么?
垂直搜索不只是類google的行業通用搜索。以房產行業為例,如果我們按照google抓取網頁的方式,來建造一個房產行業google的做法,是行不通的。技術壁壘不用解釋,就算我們借助nutch,lucene等搜索技術來做,我們也無法提供差異化的服務,而沒有差異化的產品在互聯網贏家通吃的規則下是無法生存的,就是不要簡單地模仿,而要想辦法形成互補。
垂直搜索和目前的google,baidu等通用搜索從定位,內容,用戶,市場策略等都是不同的。所以垂直搜索不只是簡單的行業google。
用戶使用google,baidu等通用搜索引擎的方式是通過關鍵字的方式實現的,是語義上的搜索,返回的結果傾向于知識成果,比如文章,論文,新聞等;垂直搜索也是提供關鍵字來進行搜索的,但被放到了一個行業知識的上下文中,返回的結果更傾向于信息,消息,條目等。對買房的人講,他希望找的房子供求信息和文章,新聞等不同。這個特性是他們各自的的技術特點決定的。打個比方,如果google搜索引擎是一個正金字塔型,那么垂直搜索引擎就是個倒金字塔型,兩者是互補的。
2、垂直搜索是什么?
我認為:垂直搜索的本質是對垂直門戶信息提供方式的一次簡化性的整合。
搜索領域有句明言:就是用戶無法描述道他要找什么,除非讓他看到想找的東西,這個過程有點像找對象,碰運氣是用戶搜索行為的最大的特征。而垂直搜索引擎就是提高為用戶提供更好的運氣。
垂直搜索是服務于某項功能的,比如:用戶搜索租房,買房信息就是一種垂直搜索。對信息的再加工處理是非常關鍵的,不管是結構化的數據,還是非結構化的數據。
3、垂直搜索的內容來源:
A門戶網站自身的資源
B以開放接口方式讓行業用戶提供的資源
C普通用戶發布的資源
D抓取行業用戶的資源
微軟亞洲研究院負責搜索的一名技術專家說:75%的內容通用搜索引擎搜索不出來。這里面包含2層含義:
(1)網站結構不合理,網頁對搜索引擎不友好;
(2)由于信息在互聯網是海量的,非結構化的信息需要經過結構化的梳理后才能更好的展現。 如果梳理者能提供搜索,那樣會更好。而垂直門戶網站就是行業信息最好的梳理者。
垂直搜索引擎提供的主要內容不應該局限于普通的網頁索引,而且包括商業信息的加工,結構化的信息。
4、進入垂直搜索的門檻在那里?
在互聯網上說門檻,就是比資源。垂直搜索也是這樣,能否提供全面權威的行業信息,能否擁有行業資源是垂直搜索引擎發展的門檻。換句化說,垂直門戶是垂直搜索血統最近的父親。作為房產行業的搜房網就是一個垂直門戶,在房產領域沒有誰比我們更清楚什么是垂直搜索了。
垂直搜索的難點不是技術,而是用戶參與門戶網站行為的創新和垂直門戶網站對產業上下游信息資源的整合。
5、垂直搜索的特點:
(1)、搜索是一個產業商業聯盟的平臺,一個集成產業鏈的上下游公司的搜索門戶。
(2)、垂直搜索的表現方式和google,baidu的表現方式不同,結構化的搜索和非結構化搜索并用。
(3)、從廣告模式上 提供了除 google adsense 和 百度競價排名廣告 之外的另一種可能。
6、垂直搜索引擎的三個特點:
(1)、垂直搜索引擎抓取的數據來源于垂直搜索引擎關注的行業站點:
比如:找工作的搜索引擎 www.deepdo.com 的數據來源于:www.51job.com , www.zhaoping.com
, www.chinahr.com 等等;
股票搜索引擎 www.macd.cn 的數據來源于: www.jrj.com.cn , www.gutx.com
等股票站點;
(2)、垂直搜索引擎抓取的數據傾向于結構化數據和元數據:
比如:我們找工作關注的:
職位信息: 軟件工程師;
公司名稱,行業名稱:軟件公司,外包行業等;
地點:北京,海淀;
(3)、垂直搜索引擎的搜索行為是基于結構化數據和元數據的結構化搜索:
比如: 找:海淀 軟件工程師 的工作等。
7、垂直搜索引擎站點的8條準則:
1、選擇一個好的垂直搜索方向。俗話說男怕選錯行,這一點對于搜索引擎來說也是一樣的,除了選擇的這個行業有垂直搜索的大量需求外,這個行業的數據屬性最好不要和
Yahoo,Google等通用搜索的的抓取方向重疊。
目前熱門的垂直搜索行業有:購物,旅游,汽車,工作,房產,交友等行業。搜索引擎對動態url數據不敏感也是眾所周知的,這些可以作為垂直搜索引擎的切入點;
2、評價所選垂直搜索行業的網站、垂直搜索內容、行業構成等情況:
我們都知道垂直搜索引擎并不提供內容來源,它的數據依賴爬蟲搜集,并做了深度加工而來的。因此考慮垂直搜索引擎的所處的大環境和定位至關重要。
3、深入分析垂直搜索引擎的索引數據特點:
垂直搜索引擎的索引數據過于結構化,那么進入的門檻比較低,行業競爭會形成一窩蜂的局面;如果搜索數據特點是非結構化的,抓取,分析這樣的數據很困難,進入壁壘太高,很可能出師未杰身先死。
4、垂直搜索引擎的索引數據傾向于結構化數據和元數據,這個特點是區別于yahoo,google等通用搜索引擎的,這是垂直搜索引擎的立足點。而垂直搜索引擎是根植于某一個行業
,因此行業知識,行業專家這些也是通用搜索引擎不具備的。也就是說進入垂直搜索是有門檻的。
5、垂直搜索引擎的搜索結果要覆蓋整個行業,搜索相關性要高于通用搜索引擎,貼近用戶搜索意圖,搜索結果要及時。
6、垂直搜索引擎的web 2.0 需求:
垂直搜索引擎的搜索數據由于帶有結構化的天性,相對于通用搜索引擎的全文索引而言,更顯的少而精。因此,設計的時候要提供收集用戶數據的接口,同時提供tag,積分等機制,使搜索結果更加“垂直”。
7、垂直搜索引擎的目標是幫助用戶解決問題,而不只是向通用搜索引擎一樣發現信息:
這一點是垂直搜索引擎的終極目標。在做垂直搜索引擎的時候你需要考慮:什么問題是這個行業內的特殊性問題,什么問題是一般性問題。keso多次提到google的目標是讓用戶盡快離開 google,而垂直搜索引擎應該粘住用戶。一般來說,使用垂直搜索引擎的用戶都是和用戶的利益需求密切相關的。所謂利益需求是我自己獨創的,大意是和用戶工作密切相關,生活中必不可少的需求,而求有持續性。比如:學生找論文,業主找裝修信息等等這樣的需求。因此粘住用戶,讓用戶有反饋的途徑是一個關鍵部分。
8、垂直搜索引擎的社區化特征:
這一條和第9條是相關的。
俗話說物以類聚,人以群分,垂直搜索引擎定位于一個行業,服務于一群特定需求的人群,這個特點決定了垂直搜索的社區化行為。人們利用垂直搜索引擎解決問題,分享回饋。現在做網站都講求社區化,所以垂直搜索引擎本質上還是:對垂直門戶信息提供方式的一次簡化性的整合。
搜索市場細分 Google、百度面臨挑戰
百度上市后,搜索市場一下子熱了起來。越來越多的企業圍繞著搜索市場作起了文章。而且,在搜索大戰的同時,一些企業也拋出了一些驚人言論。近日,記者從專業做人脈交際的聯絡家(www.linkist.com)技術總監冉征處了解到,聯絡家正在加緊研發人脈相關領域的專業垂直
搜索引擎系統,比如工作招聘信息搜索引擎等,預計將在2005年底推出,聯絡家之所以涉足專業垂直搜索引擎領域,是看到未來垂直專業搜索引擎市場的巨大商機,他認為未來搜索市場將進一步細分,象Google、百度等主張大而全的全球式搜索引擎將會面臨垂直專業搜索引擎更大的競爭與挑戰,他們的市場分額將會被逐漸瓜分,專業的行業性垂直搜索將受到網民的青睞。
那么緣何能得出如此結論呢?冉先生解釋,CNNIC第十四次互聯網調查顯示,搜索以71.9%的絕對優勢成為用戶從互聯網上獲得信息的主要方式。幾乎在全球所有的調查中,搜索引擎都是互聯網上使用程度僅次于電子郵箱的服務,搜索引擎服務能成為最受歡迎的服務是因為他解決了用戶在浩瀚的互聯網海量快速定位信息屏頸問題,在海量的網頁里找信息按照傳統方式需要用戶一個網站一個網站一級目錄一級目錄下找,要耗費大量的精力和時間,幾乎是不可能實現的任務。但互聯網的信息量呈爆炸趨勢增長,幾年前全球式搜索引擎收錄的網頁量只有幾千萬頁,而現在已經達到幾十億頁,數量增加帶來的是搜索服務的品質下降,查詢的結果集就是海量的,經常是幾十萬筆的資料,結果里存在大量的重復信息和垃圾信息,用戶越來越難迅速的找到符合的信息,現在經常使用搜索引擎可以感覺到很難在短時間內準確的篩選出需要的內容,而垂直搜索引擎針對專業特定的領域或行業的內容做了專業和深入的分析挖掘,精細分類,過濾篩選等,信息定位更精準,因此在此垂直領域或行業提供的搜索服務勢必更好更強,更為用戶所歡迎。
比如,對于一個網民來說如果有對特定的領域或行業的信息需求的時候,如果一個是專業的垂直搜索能做到精確鎖定內容,但內容量偏小,而另一個是能檢索出大量內容,但搜索到的內容一大部分都是“垃圾”并且很難找到符合的信息,這樣的話,你會選擇哪個呢,就如用戶想購買一個商品,他是會去專門的比價購物搜索引擎上找還是會去Google上找,如果你想找一份工作,是會去專門的工作搜索引擎上找還是會去百度上找?答案很明顯,更多的用戶會舍棄后者,即使前者品牌小名聲小,但結果往往是最令網民看重的。
冉先生還象記者舉了個簡單的例子,聯絡家LINKIST一直做人脈交際圈的拓展,也就是現在炙手可熱的SNS網站,SNS網站的目的就是要建立一個龐大的人脈圈,參與其中的人都能通過站內人脈的搜索引擎找到自己想找的人,可以找工作、搜羅人才、尋找合作商機。聯絡家LINKIST短短幾個月的時間已經聚斂起了近7萬多位高級商務人士。有了一定的用戶基礎做鋪墊,聯絡家LINKIST目前大力開發人脈專業領域的垂直搜索引擎,如工作搜索引擎的人脈搜索引擎,而這比以往的“貼簡歷、翻招聘信息”的機械作法要靈活的多。
而且,能做出這樣的預測顯然并不是空穴來風。據記者了解,現在搜索市場大量的的垂直專業搜索引擎的誕生如雨后春筍般,如比價購物搜索引擎,工作搜索引擎,博客搜索引擎等等,占了百度幾乎一半以上的流量的MP3搜索,其實也可以說是專業的搜索MP3的垂直搜索引擎,許多垂直門戶也紛紛推出了自己的搜索引擎系統。
之前剛從
網易內容總監職位上辭職后創業的李學凌也作起了針對博客內容的搜索引擎,這也表露出,垂直搜索引擎的市場正在孕育過程中,既是機會又存在著挑戰,其贏利模式也已經在Google、百度等身上得到了驗證。而且,很多風險投資(VC)對搜索的概念已經認可并下了賭注。
那么,象Google、百度能會不會通過“補課”擠掉這部分專用搜索市場呢?冉先生對記者表示,Google、百度注定了走的是大而全的粗獷路線,而專用的垂直搜索引擎則不同,需要對做內容的深度挖掘,做精細的分類,構建專業領域的知識庫體系等等,而這些都是Google、百度等無法做到的,他們根本就沒有精力做這些,也不可能針對每個行業領域都能做透,“術業有專攻”就是這個道理。
就象門戶網站與專業垂直的行業性網站可以共存一樣,網民也有不同的胃口,有的僅僅是簡單模糊的信息就已經滿足了,而一些尋找精確內容的網民則更青睞于專業引擎,比如你打算換一份工作,以前去人才招聘網站貼簡歷往往都尿杳無音信,現在,就可以去聯絡家LINKIST試試,還能跟同行的朋友交換下最新的行業信息,探討下行業發展趨勢。而且,以后聯絡家LINKIST推出人脈引擎后,只需輕輕點擊便能收獲頗豐。
有專家預測,未來,專業的垂直搜索將掀起一輪熱潮,而且,垂直搜索引擎不會是一個簡單的文本框、一個按紐就走遍天下了,更需要專業的信息輔助和配套的增值內容的支持,也就是對相關內容的二次“加工”。而這恰恰是Google、百度類所不能提供的。相信,屆時很多VC的眼球會聚焦于此,而Google、百度又將面臨怎樣的挑戰呢?我們只能拭目以待了。
要了解垂直搜索引擎,就要同大家熟知的橫向搜索引擎即通用搜索引擎來做對比。目前互聯網領域主要的搜索引擎服務商如yahoo、百度、google 等,為用戶提供的都是橫向的海量信息搜索。他們可以滿足大量信息的橫向搜索、提供,但很難兼顧搜索的準確度與相關度的質量。通用搜索引擎的價值在于在做大量的信息導航,對于信息需求相對集中、分類更加詳細的行業客戶缺乏導向。垂直搜索引擎的產生正是有效的解決了以上通用搜索引擎無法滿足的市場需求。
垂直搜索指搜索引擎為用戶提供的并不是上百甚至上千萬相關網頁,而是范圍極為縮小、極具針對性的具體信息。換言之,搜索引擎收集的是市場空間中某一“市場利基”的數據,如工作、旅游、高端房地產等。這樣的信息不但更加易于為用戶所消化,而且也更有深度。
Google、雅虎、MSN這幾大搜索引擎巨頭主宰著互聯網搜索市場,全球大多數網民 都是通過這幾大搜索引擎查找自己所需的信息的。但在查找一些具體信息時,這幾大搜索引擎的表現卻并不盡如人意。有時候用戶得到的是往往是和他們的查詢本意
風馬牛不相及的結果。對拉近用戶及其所需信息之間的距離的需求催生并促進了搜索行業的利基發展。垂直搜索引擎瞄準的正是搜索市場中的不同利基市場。
利基是Niche這一英文名詞的譯稱,利基市場指市場中通常為大企業忽略的某些細分市場;而利基市場戰略則指企業通過專業化經營來占領這些市場,從
而最大限度的獲取收益所采取的策略。實施利基戰略的重要意義在于:進行市場利基的公司事實上已經充分了解了目標顧客群,因而能夠比其他公司更好、更完善地
滿足消費者的需求。并且,市場利基者可以依據其所提供的附加價值收取更多的利潤額。總之,市場利基者獲得的是“高邊際收益”,而密集市場營銷者獲得的只是“高總量收益”。
分析家認為:利基搜索市場和強大的在線廣告市場之間有著密切的聯系。管理者可以象Google和雅虎那樣利用搜索結果頁面運作廣告,即在搜索結果頁面上提供一定的定向文本廣告。這種廣告策略已被視作搜索行業的一個盈利渠道。
對于垂直搜索引擎來說,由于數據源得到了詳細劃分,使得對這些數據進行操作,并將其通過簡單易用、消費方便的方式表現出來變成可能。此外,以往的兩種網絡廣告“每千次展示成本”和“每點擊付費(CPC)”這兩種廣告方式上存在著效率低下,廣告費用風險高的問題,這也正是垂直搜索被看好的一個主要原因。垂直搜索能夠提供更為集中的受眾群體,從而提高搜索引擎廣告的宣傳能力。同時,垂直搜索也能夠有效推動新的廣告商機的發展――我們姑且稱之為“每行動成本”。這種廣告方式不限廣告投放量,按照廣告投放的實際效果,即按潛在客戶回應行動計費。
中國有哪些垂直搜索引擎?
各大搜索引擎都有自己的垂直搜索引擎,比如MP3搜索、圖片搜索、新聞搜索、BLog搜索等。獨立的垂直搜索引擎有:旅游類的搜索引擎(比如攜程旅行網等)、商業類的搜索引擎、比價類的搜索引擎都是垂直搜索引擎。
九個非常有特色的垂直搜索引擎
愛看圖標網,中文圖標搜索引擎(http://www.iconpng.com/)
目前收錄了10000多個圖標,功能還不錯,可以按照圖標系列、分類、色系、關鍵字、圖標標題等搜索;你可以查看每一個圖標的作者信息、尺寸大小、圖像文件格式、色系、所屬分類等信息。每一張圖標都提供png格式(png格式是透明背景的哦)下載,大多數圖標同時還提供ico格式下載。這個網站對設計網頁和制作PPT的人非常有用。
查一下 專門查詢各種號碼的搜索引擎(http://www.cha086.com/)
目前支持手機歸屬、IP地址、郵政編號、電話區號、身份證查詢、QQ號碼、車牌查詢,和查一下類似的網站有很多,之所以這里會選擇查一下,是因為這個網站沒有廣告,而且有很多特色的功能:可以查車牌號碼(這個在別的網站還沒發現有類似的),查詢QQ號碼時不僅能看到號碼的主人是否在線,而且還能看到該QQ號碼的QQ秀;手機歸屬查詢有很有趣的投票功能;查詢時,同時還能看到和查詢內容相關的一些運勢、天氣等等。
找字網,中文字體搜索引擎(http://www.zhaozi.cn/)
找字網是一個專注于搜索字體的網站,還支持按字體編碼、字體類型等高級搜索功能,同時還支持字體在線預覽平臺,可大大節約尋找字體的時間。
豆丁網,中文文檔搜索引擎(http://www.docin.com/)
豆丁網號稱收錄了一億多文檔,是最大的中文文檔庫,提供針對文檔標題、簡介、內容的關鍵字檢索功能,并且支持Word、PDF、PPT、Jpg等30多種文件格式。
愛搜書網,中文電子書搜索引擎(http://www.isoshu.com/)
愛搜書網建立于2006年,致力于各種電子書資源的垂直搜索服務,目前擁有包括漫畫、小說、商業、生活、星相命理以及手機等超過千萬冊的電子書搜索資源;
MACD搜索引擎,金融信息實時搜索引擎(www.macd.cn)
MACD搜索引擎股票、基金、債券等信息索引。MACD搜索引擎,提供最即時的金融信息的搜索,信息確實都很新,就是內容少了點。
職友集,中文最大工作搜索引擎(http://www.jobui.com/)職友集,專注于職位搜索領域。隨著網絡招聘市場規模的擴大,行業招聘和地區招聘網站的成熟,招聘信息呈分散的趨勢。職友集更新的即時職位信息最高峰突破70萬條/日,一般更新速度穩定在日均30——40萬條之間。龐大的職位信息支持了職友集的薪酬搜索數據的準確性。
258.com,商業搜索引擎(http://www.isoshu.com/)
258商業搜索號稱是全球第一商業搜索引擎,為全球商務人士全面提供多語言商業信息搜索服務,實時搜索全球超過6000家B2B平臺,包括供求信息、產品信息、公司信息、行業新聞等近10億商業信息;258的商業搜索服務包括:商情搜索、公司搜索、新聞搜索、商業目錄、商情”找到”、個性化服務等,為成功商務人士提供搜索、訂閱、短信服務,使用者將第一時間掌握全球第一商業機會。
番薯網,中文圖書垂直搜索(http://www.fanshu.com/)
番薯網提供中文圖書搜索引擎、電子商務平臺、全媒體發布系統的綜合性云服務。提供60萬冊正版圖書的搜索服務,支持面向全文的搜索,實現通過搜索精準獲取圖書資源。
評論
查看更多