在互聯(lián)網(wǎng)如此發(fā)展的今天,相同的資料在多個(gè)媒體上發(fā)表,相同的信息在大部分媒體平臺(tái)上報(bào)道。 另外,小站長(zhǎng)和seo工作人員熱心在網(wǎng)上收集,網(wǎng)上有大量的重復(fù)消息。 但是,顧客檢索某個(gè)關(guān)鍵詞時(shí),各大搜索引擎一定不想提示給顧客的搜索展示的結(jié)果是相同的復(fù)印件。 因?yàn)樽プ∵@些重復(fù)的頁(yè)面在某種程度上是各大搜索引擎自身的資源浪費(fèi),刪除重復(fù)副本的網(wǎng)站也成為各大搜索引擎面臨的大問(wèn)題。 在通常的各大搜索引擎架構(gòu)中,網(wǎng)頁(yè)的再利用通常存在于spider捕獲部分,“再利用”步驟在各大搜索引擎架構(gòu)整體越早實(shí)施,越能節(jié)約后續(xù)解決系統(tǒng)的資源采用。 各大搜索引擎決定是否對(duì)已經(jīng)收集的重復(fù)頁(yè)面進(jìn)行分類解決,包括一個(gè)網(wǎng)站是否包含大量重復(fù)頁(yè)面,或者該網(wǎng)站是否完全收集了其他網(wǎng)站的副本,以及是否屏蔽后續(xù)網(wǎng)站的收集情況和直接收集 繁重的工作通常在分詞后和索引前進(jìn)行(也可能在分詞前),各大搜索引擎從從頁(yè)面分離的關(guān)鍵詞中提取出代表性關(guān)鍵詞的一部分,計(jì)算這些關(guān)鍵詞的“指紋”。 每個(gè)頁(yè)面都有特征指紋,如果新捕獲的頁(yè)面的關(guān)鍵字指紋與索引頁(yè)面的關(guān)鍵字指紋一致,則該新頁(yè)面有可能被各搜索引擎視為重復(fù)拷貝,索引被廢棄,實(shí)際業(yè)務(wù)中的各大公司 用連續(xù)切割的方法提取關(guān)鍵詞,進(jìn)行指紋計(jì)算。 連續(xù)剪切用向后移動(dòng)單詞的方法剪切。 例如,“百度打擊買賣鏈接”被切成“百度開”“度開”“打擊開始”“打擊購(gòu)買”“打擊購(gòu)買”。 然后,從這些詞中提取關(guān)鍵詞的一部分進(jìn)行指紋計(jì)算,參與是否重復(fù)復(fù)制的對(duì)應(yīng)。 這是各大搜索引擎識(shí)別重復(fù)頁(yè)面的基本算法,還有很多其他的處理重復(fù)頁(yè)面的算法。 這個(gè)網(wǎng)上流行的大部分偽原始工具不是騙不了各大搜索引擎,而是讀不了文案作者,所以理論上用普通的偽原始工具可以得到各大搜索引擎的正常收錄和排名, 百度不是不直接對(duì)所有重復(fù)頁(yè)面建立索引,而是根據(jù)有重復(fù)頁(yè)面的網(wǎng)站權(quán)重適當(dāng)放寬索引標(biāo)準(zhǔn),從而使部分弊病者有機(jī)可乘,利用網(wǎng)站權(quán)重大量收集其他網(wǎng)站的副本。 百度搜索多次升級(jí)算法,多次反復(fù)打擊重復(fù)新聞、垃圾頁(yè)面的收集。 所以seo對(duì)于網(wǎng)站的復(fù)印件,不應(yīng)該再站在假原創(chuàng)的立場(chǎng)上建設(shè)了,需要站在對(duì)顧客有用的立場(chǎng)上建設(shè)。 后者的文案不一定都是原創(chuàng)的,但通常如果網(wǎng)站權(quán)重沒(méi)有大問(wèn)題,就會(huì)得到健康的迅速發(fā)展。 原始問(wèn)題將在本書后面第12章詳細(xì)討論。 另外,不僅僅是各大搜索引擎,自己做網(wǎng)站還需要再利用車站內(nèi)的網(wǎng)頁(yè)。 比如對(duì)新聞和b2b平臺(tái)等ugc類網(wǎng)站進(jìn)行分類,如果不加以限制,顧客發(fā)表的新聞必然會(huì)有很多重復(fù),不僅seo方面的成績(jī)不好,車站內(nèi)的顧客體驗(yàn)也會(huì)下降很多。 像seo這樣的人,為了設(shè)計(jì)流量產(chǎn)品一般是基于“聚合”的索引頁(yè)、主題頁(yè)或目錄頁(yè),“聚合”需要核心詞,不進(jìn)行過(guò)濾,大容量的核心詞擴(kuò)展的頁(yè)面大量重復(fù),制造。 “除重”算法的大致原理通常如上所述,有趣的朋友可以知道i-match、shingle、simhash和余弦除重的具體算法。 各大搜索引擎在進(jìn)行“網(wǎng)頁(yè)再利用”之前必須先分解網(wǎng)頁(yè)。 復(fù)印周邊的“噪音”多少會(huì)影響再利用結(jié)果,但制作這個(gè)部分只需要操作復(fù)印部分即可,相對(duì)簡(jiǎn)單,同時(shí)可以比較有效地支持高質(zhì)量的“seo產(chǎn)品”的生產(chǎn)。 作為seo員工知道實(shí)現(xiàn)原理即可,但在具體產(chǎn)品中的應(yīng)用需要技術(shù)人員來(lái)實(shí)現(xiàn)。 另外,還有效率、資源訴求等問(wèn)題,也可以根據(jù)現(xiàn)實(shí)情況進(jìn)行“重要”的工作(例如,核心詞的間隔書寫部分)。 seo員工只要能稍微理解原理,給技術(shù)人員一些方向就行了(技術(shù)人員不是萬(wàn)能的,也有不熟悉的行業(yè),在特定的時(shí)刻。 如果seo工作人員能在這些方面與技術(shù)人員進(jìn)行深入的交流,技術(shù)人員也將目光投向seo,至少我不認(rèn)為“seo工作人員只有標(biāo)題變更、鏈接變更、副本變更等“無(wú)聊”的指控”。 總結(jié):接下來(lái)要感謝痞子瑞的哪些好書? 尼子在seo思考中,找到了新的知識(shí),有著沉重的、指紋的原理。 我希望兄弟姐妹們?nèi)タ催@本書。 今天分享一部分吧。 今后的日子,看到好的知識(shí)點(diǎn),繼續(xù)和大家分享。
上一篇:營(yíng)銷:怎么處理站點(diǎn)打開疲軟現(xiàn)象
下一篇:營(yíng)銷:怎么正確理解“文案為王,外鏈為皇”
標(biāo)題:營(yíng)銷:什么是網(wǎng)頁(yè)去重原理
地址:http:///xinwen/37156.html
免責(zé)聲明:文芳閣軟文營(yíng)銷平臺(tái)所轉(zhuǎn)載內(nèi)容均來(lái)自于網(wǎng)絡(luò),不為其真實(shí)性負(fù)責(zé),只為傳播網(wǎng)絡(luò)信息為目的,如有異議請(qǐng)及時(shí)聯(lián)系btr2030@163.com,本人將予以刪除。