MENU 服務(wù) 案例
網(wǎng)站建設(shè)-網(wǎng)站設(shè)計(jì)-北京網(wǎng)站建設(shè)-高端網(wǎng)站制作公司-尚品中國(guó)
我們通過(guò)擁抱變化創(chuàng)造
360°的品牌價(jià)值__
簡(jiǎn)體
簡(jiǎn)體中文 English

尚品與山東真諾智能設(shè)備有限公司簽署網(wǎng)站改版合作協(xié)議

類型:尚品動(dòng)態(tài) 了解更多

搜索引擎如何判斷偽原創(chuàng)

來(lái)源:尚品中國(guó)| 類型:網(wǎng)站百科| 時(shí)間:2014-01-21
在這個(gè)“內(nèi)容為王”的時(shí)代,網(wǎng)站建設(shè)公司尚品中國(guó)感觸最深的就是原創(chuàng)文章對(duì)一個(gè)網(wǎng)站的重要性。假如一個(gè)網(wǎng)站在某一段時(shí)間,如果網(wǎng)頁(yè)內(nèi)容質(zhì)量不過(guò)關(guān),那么直接結(jié)果就是網(wǎng)站被降權(quán),網(wǎng)站流量下降。

雖然知道原創(chuàng)文章的重要性,但是大家也都知道,一篇兩篇原創(chuàng)文章沒(méi)有什么大問(wèn)題,如果長(zhǎng)久的保持網(wǎng)站文章的原創(chuàng)那是一件非常艱難的事情,除非那些大型網(wǎng)站站長(zhǎng)的手下有一批專職的寫(xiě)手或者編輯。那么沒(méi)有這種優(yōu)渥條件的站長(zhǎng)們?cè)趺崔k呢?只能是偽原創(chuàng)與抄襲。但是偽原創(chuàng)與抄襲來(lái)的方法真的有用嗎?今天尚品中國(guó)就來(lái)和大家分享一下搜索引擎對(duì)于重復(fù)內(nèi)容判定方面的知識(shí):

問(wèn)題一:搜索引擎如何判斷重復(fù)內(nèi)容?

1、通用的基本判斷原理就是逐個(gè)對(duì)比每個(gè)頁(yè)面的數(shù)字指紋。這種方法雖然能夠找出部分重復(fù)內(nèi)容,但缺點(diǎn)在于需要消耗大量的資源,操作速度慢、效率低。
 
搜索引擎如何判斷重復(fù)內(nèi)容

2、基于全局特征的I-Match

這種算法的原理是,將文本中出現(xiàn)的所有詞先排序再打分,目的在于刪除文本中無(wú)關(guān)的關(guān)鍵詞,保留重要關(guān)鍵詞。這樣的方式去重效果高、效果明顯。比如我們?cè)趥卧瓌?chuàng)時(shí)可能會(huì)把文章詞語(yǔ)、段落互換,這種方式根本欺騙不了I-Match算法,它依然會(huì)判定重復(fù)。
 
基于全局特征的I-Match

3、基于停用詞的Spotsig

文檔中如過(guò)使用大量停用詞,如語(yǔ)氣助詞、副詞、介詞、連詞,這些對(duì)有效信息會(huì)造成干擾效果,搜索引擎在去重處理時(shí)都會(huì)對(duì)這些停用詞進(jìn)行刪除,然后再進(jìn)行文檔匹配。因此,我們?cè)谧鰞?yōu)化時(shí)不妨減少停用詞的使用頻率,增加頁(yè)面關(guān)鍵詞密度,更有利于搜索引擎抓取。
 
基于停用詞的Spotsig

4、基于多重Hash的Simhash

這種算法涉及到幾何原理,講解起來(lái)比較費(fèi)勁,簡(jiǎn)單說(shuō)來(lái)就是,相似的文本具有相似的hash值,如果兩個(gè)文本的simhash越接近,也就是漢明距離越小,文本就越相似。因此海量文本中查重的任務(wù)轉(zhuǎn)換為如何在海量simhash中快速確定是否存在漢明距離小的指紋。我們只需要知道通過(guò)這種算法,搜索引擎能夠在極短的時(shí)間內(nèi)對(duì)大規(guī)模的網(wǎng)頁(yè)進(jìn)行近似查重。目前來(lái)看,這種算法在識(shí)別效果和查重效率上相得益彰。

問(wèn)題二、搜索引擎為何要積極處理重復(fù)內(nèi)容?

1、節(jié)省爬取、索引、分析內(nèi)容的空間和時(shí)間

用一句簡(jiǎn)單的話來(lái)講就是,搜索引擎的資源是有限的,而用戶的需求卻是無(wú)限的。大量重復(fù)內(nèi)容消耗著搜索引擎的寶貴資源,因此從成本的角度考慮必須對(duì)重復(fù)內(nèi)容進(jìn)行處理。

2、有助于避免重復(fù)內(nèi)容的反復(fù)收集

從已經(jīng)識(shí)別和收集到的內(nèi)容中匯總出最符合用戶查詢意圖的信息,這既能提高效率,也能避免重復(fù)內(nèi)容的反復(fù)收集。

3、重復(fù)的頻率可以作為優(yōu)秀內(nèi)容的評(píng)判標(biāo)準(zhǔn)

既然搜索引擎能夠識(shí)別重復(fù)內(nèi)容當(dāng)然也就可以更有效的識(shí)別哪些內(nèi)容是原創(chuàng)的、優(yōu)質(zhì)的,重復(fù)的頻率越低,文章內(nèi)容的原創(chuàng)優(yōu)質(zhì)度就越高。

4、改善用戶體驗(yàn)

其實(shí)這也是搜索引擎最為看重的一點(diǎn),只有處理好重復(fù)內(nèi)容,把更多有用的信息呈遞到用戶面前,用戶才能買賬。

問(wèn)題三、搜索引擎眼中重復(fù)內(nèi)容都有哪些表現(xiàn)形式?

1、格式和內(nèi)容都相似。這種情況在電商網(wǎng)站上比較常見(jiàn),盜圖現(xiàn)象比比皆是。

2、僅格式相似。

3、僅內(nèi)容相似。

4、格式與內(nèi)容各有部分相似。這種情況通常比較常見(jiàn),尤其是企業(yè)類型網(wǎng)站。
來(lái)源聲明:本文章系尚品中國(guó)編輯原創(chuàng)或采編整理,如需轉(zhuǎn)載請(qǐng)注明來(lái)自尚品中國(guó)。以上內(nèi)容部分(包含圖片、文字)來(lái)源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)及時(shí)與本站聯(lián)系(010-60259772)。
TAG標(biāo)簽:

推薦新聞

更多行業(yè)
如果您的網(wǎng)站可以增加轉(zhuǎn)化次數(shù)并提高客戶滿意度,該怎么辦?

預(yù)約專業(yè)咨詢顧問(wèn)溝通!

*尚品專業(yè)顧問(wèn)將盡快與您聯(lián)系

免責(zé)聲明

非常感謝您訪問(wèn)我們的網(wǎng)站。在您使用本網(wǎng)站之前,請(qǐng)您仔細(xì)閱讀本聲明的所有條款。

1、本站部分內(nèi)容來(lái)源自網(wǎng)絡(luò),涉及到的部分文章和圖片版權(quán)屬于原作者,本站轉(zhuǎn)載僅供大家學(xué)習(xí)和交流,切勿用于任何商業(yè)活動(dòng)。

2、本站不承擔(dān)用戶因使用這些資源對(duì)自己和他人造成任何形式的損失或傷害。

3、本聲明未涉及的問(wèn)題參見(jiàn)國(guó)家有關(guān)法律法規(guī),當(dāng)本聲明與國(guó)家法律法規(guī)沖突時(shí),以國(guó)家法律法規(guī)為準(zhǔn)。

4、如果侵害了您的合法權(quán)益,請(qǐng)您及時(shí)與我們,我們會(huì)在第一時(shí)間刪除相關(guān)內(nèi)容!

聯(lián)系方式:010-60259772
電子郵件:394588593@qq.com

現(xiàn)在就與專業(yè)咨詢顧問(wèn)溝通!

  • 全國(guó)服務(wù)熱線

    400-700-4979

  • 北京服務(wù)熱線

    010-60259772

信息保護(hù)中請(qǐng)放心填寫(xiě)
在線咨詢

免責(zé)聲明

非常感謝您訪問(wèn)我們的網(wǎng)站。在您使用本網(wǎng)站之前,請(qǐng)您仔細(xì)閱讀本聲明的所有條款。

1、本站部分內(nèi)容來(lái)源自網(wǎng)絡(luò),涉及到的部分文章和圖片版權(quán)屬于原作者,本站轉(zhuǎn)載僅供大家學(xué)習(xí)和交流,切勿用于任何商業(yè)活動(dòng)。

2、本站不承擔(dān)用戶因使用這些資源對(duì)自己和他人造成任何形式的損失或傷害。

3、本聲明未涉及的問(wèn)題參見(jiàn)國(guó)家有關(guān)法律法規(guī),當(dāng)本聲明與國(guó)家法律法規(guī)沖突時(shí),以國(guó)家法律法規(guī)為準(zhǔn)。

4、如果侵害了您的合法權(quán)益,請(qǐng)您及時(shí)與我們,我們會(huì)在第一時(shí)間刪除相關(guān)內(nèi)容!

聯(lián)系方式:010-60259772
電子郵件:394588593@qq.com