在網(wǎng)絡(luò)如此發(fā)達的今天,同樣的信息會在很多媒體上發(fā)布,同樣的信息會被大多數(shù)媒體平臺報道。此外,小站站長和seo人員在網(wǎng)上孜孜不倦地收集,導致網(wǎng)上大量重復新聞。然而,當客戶搜索某個關(guān)鍵詞時,所有主要的搜索引擎都不想向客戶顯示相同的文本。從某種程度上來說,抓取這些重復的網(wǎng)頁是對各大搜索引擎資源的浪費,因為刪除了重復文本的網(wǎng)站也成為了各大搜索引擎面臨的一大難題。
在常見的主流搜索引擎架構(gòu)中,網(wǎng)頁去重通常存在于蜘蛛爬行部分。在整個主要搜索引擎架構(gòu)中實施“消除重復”步驟越早,就可以為后續(xù)解決方案系統(tǒng)節(jié)省越多的資源。各大搜索引擎通常會對已被抓取的重復頁面進行分類和求解,比如評估一個站點是否包含大量重復頁面,或者該站點是否完整收集了其他站點的文本等。,以便決定將來是對站點進行爬網(wǎng)還是直接阻止爬網(wǎng)。
重復數(shù)據(jù)消除通常在分詞之后和索引之前(或分詞之前)執(zhí)行。各大搜索引擎會從頁面上已經(jīng)分離的關(guān)鍵詞中提取一些有代表性的關(guān)鍵詞,然后計算這些關(guān)鍵詞的“指紋”。每個網(wǎng)頁都會有這樣的特征指紋。當新抓取的網(wǎng)頁的關(guān)鍵詞指紋與被索引的網(wǎng)頁的關(guān)鍵詞指紋重合時,新網(wǎng)頁可能被各大搜索引擎視為重復文本而放棄索引。
在實踐中,各大搜索引擎不僅使用分詞分隔的有意義的關(guān)鍵詞,還使用連續(xù)切割提取關(guān)鍵詞,計算指紋。連續(xù)切割法提取關(guān)鍵詞并進行指紋計算。連切是單個字向后移動的切,或者單個字向后移動的切。比如“百度開始打擊買賣鏈接”會被切割成“百度開放”、“度開始”、“開始打”、“開始打”、“打買”、“打買賣”、“交易鏈”、“賣鏈接”。然后從這些詞中提取一些關(guān)鍵詞進行指紋計算,參與是否重復文字。這只是各大搜索引擎識別重復網(wǎng)頁的基本算法,處理重復網(wǎng)頁的算法還有很多。
因為現(xiàn)在網(wǎng)絡(luò)上流行的偽原創(chuàng)工具大多無法欺騙各大搜索引擎,或者是看不懂正文,所以理論上普通的偽原創(chuàng)工具是無法得到各大搜索引擎的正常收錄和排名的。但百度并沒有直接拋棄所有重復頁面而不做索引,而是根據(jù)重復頁面所在網(wǎng)站的權(quán)重放寬索引標準,使得一些騙子有機會利用網(wǎng)站的高權(quán)重,從其他網(wǎng)站收集大量文本來獲取搜索流量。但自2012年6月以來,百度搜索多次升級算法,多次打擊收集重復新聞和垃圾頁面。因此,搜索引擎優(yōu)化不應(yīng)該從偽原創(chuàng)的角度來構(gòu)建,而應(yīng)該從對客戶有用的角度來構(gòu)建。雖然后者的文本并不都是原創(chuàng),但通常如果網(wǎng)站的權(quán)重沒有大問題,就會健康快速的發(fā)展。關(guān)于原創(chuàng)性的問題,這本書將在第12章詳細討論。
另外,不僅各大搜索引擎需要“復制頁面”,他們自己網(wǎng)站中的頁面也是如此。比如分類新聞、b2b平臺等ugc網(wǎng)站,如果不加限制,客戶發(fā)布的新聞難免會有大量的重復,不僅在seo上表現(xiàn)不好,還會降低網(wǎng)站的客戶體驗。比如基于“聚合”的索引頁、主題頁或目錄頁,是seo人員在設(shè)計流量產(chǎn)品時常見的,而“聚合”必須有核心詞,不經(jīng)過過濾,海量核心詞展開的頁面可能會出現(xiàn)大量重復,導致產(chǎn)品效果不佳,甚至被各大搜索引擎縮小。
重復數(shù)據(jù)消除算法的一般原理通常如上所述。一些有趣的朋友可以了解i-match、帶狀皰疹、simhash和余弦去重復。各大搜索引擎在做“網(wǎng)頁消重”之前,必須先對網(wǎng)頁進行分析,文本周圍的“噪音”會對消重結(jié)果產(chǎn)生影響。做這部分業(yè)務(wù)時,只能操作文字部分,相對簡單很多,同時可以有效輔助生產(chǎn)高質(zhì)量的“seo產(chǎn)品”。作為seo人員,只需要了解實現(xiàn)原理,產(chǎn)品中的具體應(yīng)用需要技術(shù)人員去實現(xiàn)。此外,還涉及效率、資源需求等問題。同時,根據(jù)實際情況,“去重”也可以在很多環(huán)節(jié)進行(比如核心詞的分詞)。seo人員只要稍微了解一下原理就可以給技術(shù)人員建議幾個方向,這是非常好的(技術(shù)人員不是萬能的,有不熟悉不熟悉的行業(yè),也需要別人在特定時刻提供思路)。如果seo人員能在這些方面與技術(shù)人員有深入的交流,技術(shù)人員也會對seo特別尊重,至少不會認為“seo人員只會寫改標題、鏈接、文案等‘無聊’的訴求”。
總結(jié):在感謝了痞子瑞的好書之后,尼子在seo思維中發(fā)現(xiàn)了新的知識、復制和指紋原理。希望兄弟姐妹們能看完這本書,今天和大家分享一些。在未來的日子里,我會繼續(xù)和大家分享好的知識點。
上一篇:[新聞營銷]4個做法教你不使網(wǎng)站長期打不開
下一篇:[新聞營銷]如何正確理解“內(nèi)文為王,外鏈為皇”
標題:[新聞營銷]網(wǎng)頁去重原理是什么?應(yīng)該如何做?
地址:http://m.kuanlang.cn/xinwen/26071.html
免責聲明:文芳閣軟文營銷平臺所轉(zhuǎn)載內(nèi)容均來自于網(wǎng)絡(luò),不為其真實性負責,只為傳播網(wǎng)絡(luò)信息為目的,如有異議請及時聯(lián)系btr2030@163.com,本人將予以刪除。