2015年3月15日星期日

避免蜘蛛爬行和索引錯誤的技巧:繞開沖突

-避免蜘蛛爬行和索引錯誤的技巧:繞開沖突

避免蜘蛛爬行和索引錯誤的技巧:繞開沖突


  正如你所知道的,你不能總是依賴蜘蛛引擎在訪問或者索引你的網站時能夠十分有效的運作。完全依靠他們自己的端口,蜘蛛會產生許多重復內容,把一些重要頁面當成垃圾,索引本不應該展示給用戶的鏈接入口,還會有其他的問題。有一些工具可以讓我們能夠充分控制蜘蛛在網站內部的活動,如meta robots標簽,robots.txtcanonical標簽等。 

  今天,我講一下機器人控制技術使用的局限。為瞭讓蜘蛛不抓取某一個頁面,站長們有時會使用多個機器人控制技術來禁止搜索引擎訪問某個網頁。不幸的是,這些技術能有時互相抵觸:從另一方面說這樣的限制會把某些死鏈給隱藏掉瞭。 

  那麼,當一個頁面的robots文件中被禁止訪問,或者被使用noindex tag 和 canonical tag時會發生什麼?

  快速復習

  在我們進入主題之前,讓我們看一下那些主流的robots的一些限制技巧吧: 

  元機器人標簽 

  元機器人標簽(Meta Robots Tag)為搜索引擎機器人建立頁面等級說明。元機器人標簽應放在HTML文件的頭部。

  規范標簽(canonical tag) 

  規范標簽(canonical tag)是一個位於網頁HTML頭部的頁面等級的元標簽。它告訴搜索引擎哪一個URL的顯示是規范的。它的目的是不讓搜索引擎抓取重復內容,同時將重復頁面的權重集中在規范的那一個頁面上。 

  代碼是這樣的:

  <link rel="canonical" href="

没有评论:

发表评论