谷歌搜索算法究竟是怎么工作的?谷歌如何調(diào)整和改變其搜索算法,依據(jù)的標(biāo)準(zhǔn)和進(jìn)行的測試是怎樣的?為什么谷歌不做搜索結(jié)果個性化?本文告訴你全部答案。
自特朗普總統(tǒng)指責(zé)谷歌操縱搜索結(jié)果以來,谷歌一直否認(rèn)其搜索系統(tǒng)存在任何政治偏見。
Google一下,凈說我壞話!
盡管谷歌的個別員工在政治領(lǐng)域傾向于自由派,但沒有證據(jù)表明搜索引擎的結(jié)果故意偏向任何特定的意識形態(tài)。
監(jiān)管機(jī)構(gòu)和Yelp等競爭對手批評谷歌通過其他網(wǎng)站的信息增強(qiáng)自己的服務(wù),如地圖,職位發(fā)布,商業(yè)評論和旅游信息等。去年,歐盟對谷歌的購物搜索結(jié)果開出了27億美元的反托拉斯罰單,美國司法部副部長Jeff Sessions則公開調(diào)查包括谷歌在內(nèi)的科技企業(yè)是否正在扼殺競爭。
為了揭開它如何運行其搜索引擎的神秘面紗,谷歌邀請CNBC參加了一個內(nèi)部會議,會上搜索業(yè)務(wù)的主管們討論是否要進(jìn)行一項變動:在某些搜索結(jié)果旁邊放上圖片。
提議的更改很小,而且非常具體,谷歌的這項更改決定是數(shù)據(jù)驅(qū)動的。會議表明了谷歌是如何實現(xiàn)搜索產(chǎn)品的巨大復(fù)雜性和漸進(jìn)式簡潔的統(tǒng)一。
先來點基本知識:谷歌搜索的工作原理究竟是怎樣的?
人們有時會對Google搜索進(jìn)行擬人化,認(rèn)為搜索引擎“理解”了他們的查詢請求,比如用戶輸入“電影 排球島”,Google返回了湯姆·漢克斯的電影《荒島求生》的相關(guān)結(jié)果。
但是,搜索引擎其實并不知道這些詞是什么意思:而只是在搜索那些詞及其同義詞,甚至是常見的拼寫錯誤出現(xiàn)的頁面,以及和這些頁面相關(guān)度最高的頁面。
谷歌的程序(稱為網(wǎng)絡(luò)抓取工具)會搜索互聯(lián)網(wǎng),從數(shù)千億個網(wǎng)頁中收集信息。然后將這些數(shù)據(jù)存儲在一個巨大的、不斷變化的索引中,記錄信息的新鮮度和頁面創(chuàng)建位置等信號。當(dāng)用戶在搜索欄中輸入內(nèi)容時,會通過所謂Google搜索“算法”的一系列規(guī)則和流程提供這些信息和信號。在此過程中,將用戶的查詢請求與索引中的信息進(jìn)行比較,并確定出現(xiàn)在搜索結(jié)果頂部的頁面,這些過程都在幾分之一秒內(nèi)完成。
20年前,谷歌剛剛成立時,其中一個搜索排名指標(biāo)是PageRank,以谷歌聯(lián)合創(chuàng)始人拉里·佩奇的名字命名。PageRank根據(jù)有多少用戶鏈接到某頁面,判斷該頁面的與搜索內(nèi)容相關(guān)性。也就是說,如果網(wǎng)上很多人發(fā)現(xiàn)一個頁面足夠有用,與其建立了鏈接,這個頁面就可能比大家都忽略的頁面的相關(guān)性更高。今天,PageRank仍然是Google算法尚在使用的排名因素之一。
谷歌故意沒有透露排名系統(tǒng)的全部指標(biāo),部分原因是它不希望人們利用這些信息來玩弄搜索系統(tǒng),因為出現(xiàn)在搜索頁面頂部可以帶來大量的流量和經(jīng)濟(jì)利益。
對這些指標(biāo)保密,也有助于谷歌領(lǐng)先潛在的競爭對手。
如何提升谷歌搜索排名?關(guān)注頁面的專業(yè)知識、權(quán)威性和可靠性
當(dāng)谷歌考慮改變搜索的算法時,會組建一個團(tuán)隊對一小部分真實用戶進(jìn)行測試,了解他們的搜索習(xí)慣,也會與名為“搜索質(zhì)量評估者”的承包商團(tuán)隊一起調(diào)查。
Google在全球范圍內(nèi)約有10000名評估者,雖然他們無法直接影響搜索結(jié)果,但他們的意見有助于Google的搜索小組評估是否應(yīng)該實施調(diào)整。評估者通常會同時查看新舊搜索結(jié)果,并確定哪個更好。
“更好”并不是一個純粹主觀的判斷。而是會由過去發(fā)布的搜索質(zhì)量評估指南文檔來定義,該文檔描述評估者應(yīng)如何判斷顯示在其結(jié)果中的頁面的好壞。文檔內(nèi)容特別關(guān)注頁面的專業(yè)知識、權(quán)威性和可信賴性。
“你可以將評估指南中的內(nèi)容視為我們希望搜索算法的發(fā)展方向。”Google搜索、智能助理和新聞副總裁Ben Gomes表示。“他們雖然沒有告訴你算法如何對結(jié)果進(jìn)行排名,但從根本上說明了算法應(yīng)該做什么。”
改不改,怎么改?一切由數(shù)據(jù)驅(qū)動
谷歌在今年7月份對該指南進(jìn)行了一些重大更改,其中包括要求評估者考慮頁面作者的聲譽(yù)。因此,作者不明的頁面現(xiàn)在可能被評為低質(zhì)量頁面。
2017年,谷歌與其評估者共同進(jìn)行了31584次實驗,并推出了2453次搜索規(guī)則更改。雖然這些更改會對任何給定網(wǎng)站的排名產(chǎn)生巨大影響,但普通谷歌搜索用戶通常根本不會注意到這些更改。
在CNBC本次受邀參加的會議中,測試團(tuán)隊測試了一種新的移動搜索格式,在搜索結(jié)果旁邊顯示網(wǎng)頁上的照片及鏈接。他們假定這樣做可以幫助用戶更好地確定要點擊哪個鏈接,找到與搜索內(nèi)容最相關(guān)的頁面。
最終評估數(shù)據(jù)顯示,91%的情況下,評估者發(fā)現(xiàn)展示圖像很有用。在實時實驗中,真實用戶也點擊了圖片。在權(quán)衡了增加圖片導(dǎo)致延遲增加與用戶體驗的正反饋之后,Gomes和Nayak批準(zhǔn)了這次調(diào)整。
這次調(diào)整并沒有激烈的辯論或哲學(xué)上的探索,是數(shù)據(jù)推動了這一決定。
“對此我們有嚴(yán)格的測試過程,” Gomes說。“我們的改動是數(shù)據(jù)指標(biāo)驅(qū)動的,這是我們運營方式的核心。”
谷歌為什么不做個性化搜索?
谷歌會傾聽用戶的反饋意見,包括一些由于結(jié)果錯誤導(dǎo)致的丑聞事件,比如用戶曾發(fā)現(xiàn)谷歌將白人至上主義網(wǎng)站鏈接為“大屠殺是否發(fā)生?”的第一個搜索結(jié)果。如果出現(xiàn)明顯問題,谷歌不僅要去掉糟糕的搜索結(jié)果。更常見的情況是,谷歌要試圖弄清楚如何更改其算法及其評估指南,以避免類似的錯誤。
通過不對搜索結(jié)果進(jìn)行個性化,谷歌擺脫了大部分Facebook和Twitter所遭受的批評——創(chuàng)建“過濾圈”(filter bubbles),也即用戶只看到他們原本就傾向于相信或喜歡的信息。(谷歌的視頻產(chǎn)品YouTube則無法躲開這種批評,尤其是它對于相關(guān)視頻的推薦算法。這兩種算法是完全獨立的,不是由同一個團(tuán)隊創(chuàng)建或維護(hù)。)
個性化也可能導(dǎo)致人們對谷歌失去信任。雖然谷歌沒有對其大部分搜索排名進(jìn)行個性化,但由于其收集的大量數(shù)據(jù)(Google允許用戶關(guān)于其收集的數(shù)據(jù)管理進(jìn)行隱私設(shè)置,但其方法在過去一直存在誤導(dǎo)性),其廣告非常個性化。
對于所有用戶測試,谷歌知道錯誤不可避免,有時是因為有人故意破壞,有時是則是因為算法存在問題,還有的時候是因為結(jié)果反映了社會偏見。
“我們并不認(rèn)為搜索是完美的,”Nayak說:“但我們絕對致力于應(yīng)對我們所面臨的挑戰(zhàn)并繼續(xù)改進(jìn)。這就是人們在這里做的事情。”
其他時候,算法更改的想法來自公司內(nèi)部的廣泛意見。 Nahak表示,一些員工長期以來一直認(rèn)為谷歌搜索結(jié)果應(yīng)該更加個性化。目前,谷歌搜索個性化的內(nèi)容很少,現(xiàn)有的搜索重點是用戶的位置或先前搜索的直接上下文。 (例如,如果你搜索了與棒球有關(guān)的東西,然后是“巨人隊”,那么結(jié)果就不會影響到足球隊。)
-
谷歌
+關(guān)注
關(guān)注
27文章
6142瀏覽量
105100 -
算法
+關(guān)注
關(guān)注
23文章
4599瀏覽量
92643
原文標(biāo)題:谷歌搜索歧視特朗普?全面拆解Google搜索算法及優(yōu)化
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論