2015年3月8日星期日

搜索引擎判斷網站文章內容是否原創的原理

-搜索引擎判斷網站文章內容是否原創的原理

搜索引擎判斷網站文章內容是否原創的原理


  現在大多數網站訪問者都來自於搜索引擎,要想訪問人數多、被更多的人認知,最主要的是要被各大搜索引擎收錄更多的條目,並且排名盡可能的靠前。那麼要怎麼做才能讓搜索引擎快速收錄網站內容且排名靠前呢?小編之前已經講過企業網站建設完成後如何做好網站的搜索引擎優化及推廣,那麼今天小編將跟大傢探討一下原創內容。

  首先需要明確一個概念:網絡上的搜索引擎判斷的原創可以理解為是第一次在網絡上出現的內容,也就是網絡上沒有出現過的內容即服務器數據庫索引裡沒有的內容。

  那麼搜索引擎對於原創的判斷是如何進行的呢?搜索引擎的蜘蛛索引程序通過超鏈接文本來到網站,並通過站內鏈接來到文章頁。

  搜索引擎判定開始分析:

  首先,標題的分析:搜索引擎一般是先截取前60個字符作為分析內容。判定這個標題是不是獨一,我們都知道引擎分類是通過條目相關搜索詞來索引的。引擎會把截取到的標題按這個相關搜索詞分組與已經收錄的條目數據庫進行匹對。假如數據庫中已經存有瞭這個標題,就會認為此標題不獨一,待匹對文章內容。假如一組詞匹對完畢,再會截取下面的詞,再會以此類推,進行匹對……直到前面60個字符匹配完畢,在對後面的詞進行統一處理,個人認為引擎很可能是把後邊的詞組做一個字符串處理。

  終極標題的匹對結果有兩種:1. 標題數據庫暫無此內容;2. 標題數據庫中已存在此內容。針對該兩種不同情況,引擎會在它的索引服務器裡做一個標識。作為網站權重的一個排名參數。

  其次,內容的分析:基本思路應該和標題的分析類似,但是也有差別。因為內容包含的信息量比標題的信息量大的多,所以需要有更復雜的算法。由於文章內容一般很長,所以不可能對關鍵詞進行分析匹對,隻能對一句話或者一段話進行分析匹對。但是匹對范圍應該仍是針對標題中有相關搜索詞的文章數據庫。內容的分析方法是截取隨機長的字段,然後對此字段前後內容進行分析。假如當前頁與引擎內容數據庫中有相同字段且前後段也相似,就認為這個文章有非原創的嫌疑。

  這個分析過程一般要重復幾回。如果分析十次,有七次在截取字段前後都能在已有內容數據庫中匹對到相同內容,加上標題又相似,該篇文章就會被認定為非原創。

  假如判斷這是一篇原創,那麼引擎會在它的網站權重索引數據庫中對該域名進行加權,顯然,原創文章越多,權重越高,網站排名也就越來越好。

  引擎通過標題、內容關鍵詞與服務器的內容進行匹對,隻要進行足夠次數的匹對,擴展相關數據庫條目匹對范圍,一篇文章是不是原創就能分辨出來瞭。隨著現在服務器性能越來越強大,算法越來越復雜,應該很容易判斷出來是不是原創文章。故抄襲、復制,必死無疑。原文鏈接轉載請保留原文鏈接。個人觀點僅供參考,歡迎大傢指正。

 



没有评论:

发表评论