設置

第四十章 搜索引擎算法

  臨近下午一點,孟謙到了滬上浦東,這還是他重生后第一次來滬上,這個前世他也經常來的地方。

  滬上作為華夏的金融中心,是一張給世界看的名片。

  不過曾經的孟謙第一次來滬上是在07年的時候,2000年的滬上他還真沒見過。

  此時的浦東,已經開始聳立起高樓大廈,同時又存在大片的廠房和棚戶區,車子一路開過去,可以看到很多地方正在拆遷改造。

  “張總準備把分公司放在浦東么?”到了目的地后,孟謙憑借記憶對比,如果沒看錯的話這里應該是張江高科技園區。

  浦東四大重點開發區域中,世人相對熟知的應該就是金融中心陸家嘴和科技中心張江了。

  2000年的張江,領軍產業是電路、軟件以及生物醫藥。

  張樹新點頭表示肯定,“現在南方最有發展潛力的地方,毫無疑問就是深圳和滬上浦東,而張江高科技園區,則是科技的孵化寶地啊。”

  這個時候大家說到南方城市的發展潛力,尤其是科技發展,還沒人會想到杭城。

  來到張樹新租的地方,有五名男子正等在那邊,其中有兩人一看就是外籍男子。

  張樹新一一做了介紹,這兩名外籍男子一名來自IBM,一名來自谷歌,聽意思要么是已經挖過來了,要么就是打算挖過來的,兩人之前都是搜索引擎項目組的。

  另外三名華夏人,一人是瀛海威自家的技術總監,另外兩人都是從硅谷回來的,一個畢業于斯坦福大學,曾任職于英特爾,一人畢業于哈佛,曾任職于甲骨文,都是人才。

  簡單的打了個招呼,大家就到會議室坐著,接下去是孟謙的表演時間,他今天,要展示他的搜索引擎核心技術。

  搜索引擎這個東西,需要用到網絡爬蟲技術、檢索排序技術、網頁處理技術、大數據處理技術、自然語言處理技術等,當然,2000年這個時候,還用不上自然語言處理技術,大數據處理也更后世的概念不太一樣。

  但說的簡單一點,其實核心就是一個東西,算法。

  因為每一個技術都離不開算法。

  “我不太清楚在座各位在搜索引擎方面的建樹和理解,我只能先按照我的節奏說下去,如果誰有問題可以隨時打斷我。”孟謙走到黑板前直入正題。

  “在我展示我的核心技術之前,我們先來看看當下的三大主流算法,白度的超鏈分析,谷歌的PageRank算法以及IBM的HITS算法。

  幾乎所有人都覺得白度的超鏈分析是三個算法中最落后的,但有些事情我們還是要多角度的看一看,白度的超鏈分析在某種程度上可以算得上是奠定了搜索引擎的發展基礎。

  有一些聲音說谷歌其實是剽竊了白度的超鏈算法,畢竟李彥宏這個專利確實在谷歌之前,我們現在不去猜測真假,但這種說法體現了一個很重要的信號,其實不管是哪一家的算法,算法基礎其實都是一樣的。

  抓取網頁信息,然后用某種機制對這些網頁進行排序,當用戶輸入關鍵詞進行搜索時,根據關鍵詞匹配出按照機制進行排列的網頁。

  那么白度輸在哪呢?關鍵就在于白度現在過于簡單的基于在某次搜索的所有結果中被其他網頁用超鏈接指向的越多的網頁就價值越高這種基礎排序方式。

  相比之下,谷歌的pagerank就多了兩件很重要的事情,第一件事情是,把A頁面到B頁面的鏈接解釋為A給B的投票行為,谷歌在這里會同時考評A和B的等級從而形成新的等級。

  也就是每一個頁面都有PR值,同時你的PR值會成為其他頁面PR值的參考。

  然后不斷的重復計算每個頁面的PR。假設給每個頁面一個隨機PR值,那么經過不斷的重復計算,這些頁面的PR值會趨向于穩定,也就是收斂的狀態。

  至于HITS,其理論基礎依然沒變,它最大的特點或者說改變就在它意識到pagerank算法平均的分布權值不符合鏈接的實際情況。

  所以HITS算法中引入了另外一種網頁,稱為Hub網頁,Hub網頁是提供指向權威網頁鏈接集合的WEB網頁。

  所以使用HITS的搜索結果會比其他兩者都更權威,但這個算法會大大增加計算負擔,對吧?”

  孟謙看了一眼IBM出來的哥們,對方愣了一下有點好像不確定的點了點頭。

  所以現在簡單總結一下,搜索引擎的算法基礎就是超鏈分析,算法的優劣勢就在于如何讓搜索結果更具有參考價值,讓用戶獲得更有效的信息。

  當然如果能直接理解用戶的需求然后幫他搜索他最想要的內容,這是最理想的搜索引擎狀態,但誰都知道這是不可能的。

  因此搜索引擎的好壞決定的就是同樣的關鍵詞下,你是否能讓相對更多的人獲得他們想要的內容。

  10個用戶用谷歌,5個人找到了自己想要的東西,如果用我們的搜索引擎,6個人找到了自己想要的東西,在這里領域目前的技術環境下,我們就是更優秀的。

  那么在這個理解基礎上,我接下來要給大家介紹的,就是我的搜索引擎算法,動態規則超鏈分析算法。

  動態規則超鏈分析算法有以下幾個變化。

  第一,剛才我們提到了,好的搜索引擎是要看在同一關鍵詞下誰的反饋結果更能滿足用戶需求,那么當用戶在搜索某個東西的時候,從大概率來說,他想要看到的結果應該是與這個東西具有更垂直型相關的內容。

  舉個例子,客戶在搜索汽車的時候,不管他是想買車,還是想了解汽車知識,汽車類的專業網頁對他的幫助應該都是更大的。

  所以在我的算法中,對于指向某一個網站的鏈接,我首先會做垂直率評分,比如有現在有10個網站鏈接到了A,這10個網站都是汽車類網站和這10個網站都不是汽車類網站的結果,想必是肯定不一樣的。

  這里還有一個小小的心理問題,那就是同行之間很少會做超鏈接,所以擁有更多垂直類網站鏈接的網站,它的專業性肯定比被亂七八糟網站鏈接的網站要更大概率靠譜。

  第二,建立關鍵詞庫熱度排序機制,現在的幾家搜索引擎企業都對網頁做了排序,而我對關鍵詞也做了排序,而且給關鍵詞做排序非常簡單,那就是看用戶的搜索量。

  就比如今天搜索汽車的用戶最多,那么汽車的評分可能就是10分,這個時候,算法會分配更多的資源到汽車相關的信息上去,去抓取更多的優質網頁。

  這里有四個好處,提升信息反饋速度、增加熱點反饋的時效性、節約計算機資源以及圍繞最終目的,讓更多使用我們搜索引擎的用戶得到有用信息。

  第三,用戶反饋機制,也就是跟蹤用戶的點擊情況和瀏覽情況。

  還是用汽車舉例,有100個用戶搜索汽車后,80個點擊了A網頁,A網頁的評級就會上升,如果有更多的用戶在A網頁的停留時間較長,A網頁的評級也會上升,如果有更多的用戶在A網頁上直接進行鏈接等操作,A網頁的評級也會上升。

  也就是說,在整個網頁評級系統中,加入用戶反饋分。

  第四,規律算法,在用戶的所有行為中尋找大概率行為,并將這些大概率反饋到人工,比如說60%搜索了汽車的用戶下一個搜索詞都是保險。

  這樣的一些規律我們是無法預測的,但我們可以利用算法進行大數據挖掘,回饋的這些結果可以供人工分析部對一定的網頁進行評分,這個就是人工分。

  結合以上四點,在我的算法下,任何一個網頁同樣會有一個分數,我稱其為精度分。

  影響精度分的因子包括自己評分,鏈接的垂直網站評分,用戶反饋分,人工制定分以及外鏈影響等。”

  之后,孟謙淺嘗輒止的展示了各個分支的算法邏輯和算法推演公式。

  然而就在孟謙在說最后一個規律算法的過程中,來自IBM的杰爾夫突然起身驚呼,“OH MY GAD!Artificial Intelligence?!”

  孟謙轉過頭看了一眼對方,皺了皺眉。

  杰爾夫頓了頓,以為孟謙是沒聽懂,用奇怪的發音道,“臥槽!!!”

  ...

  而隨著杰爾夫的打斷,原本都沉浸在孟謙分享中的其他四名技術人員,眼神也都出現了明顯的變化...

大熊貓文學    重寫科技格局