網頁設計 HITS算法在搜索引擎中的定位

發佈者:作者:Web Design香港網頁設計大皇 - 網站設計

Web Design

  HITS算法,網上有比較詳細介紹的文章並不多。從現在搜索引擎算法來看,HITS算法扮演著很重要的位置。是比較權威和使用廣泛的算法之一。HITS算法要比PageRank算法複雜些,但可以用簡單的形式描述其本質,同時也會給出其工作原理的示例。

  HITS算法,首先要做的是判別與主題相關的網頁集合,要分別為每個提交給搜索引擎的用戶查詢判定出一個主題相關網頁集。如果網頁滿足下面的條件,便可判定它們是與主題相關的:

  a)這些網頁屬於一個網頁集合,且網頁集合中含有與用戶查詢最相關的文本。

  b)這些網頁鏈向滿足a條件的網頁,或是滿足a條件的網頁鏈向該網頁。

  這裡有一個重要的鏈接假設是部分基於“鏈接——內容”假設的。也就是說,如果一個網頁與主題相關的網頁有鏈接關係,即使它並不含有與主題相匹配的文本信息(至少從用戶查詢文本來看是這樣的),該網頁也可能是與主題相關的。

  即使是根據文本內容判定出來的相關網頁,有些時候也並不相關,因為在實踐中很難判定主題相關性,尤其是那些本身就有歧義的查詢。一個經典的例子就是“美洲虎”。用戶可能是想要查詢動物,或以該詞命名的汽車的相關信息。結果,返回的與主題相關的網頁卻是不全的,且只是部分相關的。但 Kleinberg的試驗表明,這並不是一個嚴重問題。

  算法的第二部分是為主題相關集合中的每個頁面算出其中心度和權威度。算法使用了與PageRank算法中相似的投票方法,同時也採用了逆向投票機制,使得每個網頁都可以給鏈向它的網頁投票。HITS算法的結果是為每個網頁賦予一個中心度和一個權威度,而不是像前面所說的那樣,只是將它們區分為中心網頁和權威網頁。

  簡化的HITS算法:

  第一階段:找出與查詢相關或主題相關的網頁集合

  1.根據搜索引擎中用戶輸入的文本查詢,找出N個與該查詢最為相關的文本網頁,其中N是預先設定的參數;

  2.向集合中添加所有與匹配網頁存在著鏈接關係(鏈向或者被鏈向)的網頁;

  3.移除所有的站內鏈接;

  第二階段:初始化每個網頁的中心度和權威度

  4.為每個網頁賦予一個權威權重X和中心權重y,如X=y=1;

  第三階段:重複投票過程

  5.統計每個網頁的入鏈網頁的中心度之和,計算出每個網頁的權威權重;

  6.統計每個網頁的出鏈網頁的權威度之和,計算出每個網頁的中心權重;

  7.將所有網頁的中心度都除以最高中心度以將其標準化,將所有網頁的權威度都除以最高權威度以將其標準化;

  8.重複第5步到第7步N次,而Kleinberg在一些言論當中是建議重複20次;

  第四階段:報告結果

  9.返回一張排好序的網頁列表,列表中的網頁有些具有較高的中心度,有些則具有較高的權威度,這樣用戶自己就可以選出他們認為是最好的那種類型的網頁(Kleinberg建議選擇前5—10個中心網頁和前5-10個權威網頁)。

Web Hosting
arrow
arrow
    全站熱搜

    seoweb 發表在 痞客邦 留言(0) 人氣()