2018/06

來自百度官方的說明：重復(fù)頁面的處理

發(fā)布時(shí)間：2018-06-10 09:22:00

發(fā)布者：xueye

瀏覽量:

問：網(wǎng)站最近遇上個(gè)全站克隆+實(shí)時(shí)采集的小偷站，搞我的沒辦法。百度會(huì)懲罰克隆網(wǎng)站嗎?

百度答：百度有專門的算法識(shí)別克隆網(wǎng)站?？茨阏f的這種情況，更象是對(duì)方將域名直接指向到你的服務(wù)器上了，可以直接在服務(wù)器端拒絕所有非正常域名的訪問。

問：自己的原創(chuàng)內(nèi)容排名常常比不過轉(zhuǎn)載或抄襲的，站長能做些什么預(yù)防或改進(jìn)?

百度答：這個(gè)，只能說百度的策略還不是很完善，我們也一直在改進(jìn)。另外，從用戶體驗(yàn)角度，有些轉(zhuǎn)載未必比原創(chuàng)差。比方一篇科技原創(chuàng)博文，被知名門戶網(wǎng)站的科技頻道轉(zhuǎn)載。如果這種轉(zhuǎn)載保留原創(chuàng)者姓名和出處鏈接，實(shí)際上對(duì)原創(chuàng)者是有利的，因?yàn)槠鸬搅烁玫膫鞑バЧ?。只是國?nèi)的轉(zhuǎn)載，很多是掐頭去尾，使原創(chuàng)者比較受傷。

問：百度如何面對(duì)很難處理的重復(fù)頁面，比如列表頁有分頁，文章頁也有分頁，他們的meta都是相同的，這樣會(huì)不會(huì)當(dāng)重復(fù)頁面處理。同時(shí)比如一個(gè) 論壇有兩篇相同的帖子都收錄，會(huì)影響先收錄的排名嗎?

百度答：1，判定頁面重復(fù)的算法很復(fù)雜?？梢钥隙ǖ氖?，僅meta相同，是不會(huì)被判為重復(fù)的。

2，相同兩個(gè)帖子被收錄(url可能不同)，低權(quán)重的頁面會(huì)不被建索引，或者被高權(quán)重頁面類聚掉。

問：百度對(duì)重復(fù)內(nèi)容是如何處理的?

百度答：這的確是個(gè)顯著的問題。這表明我們?cè)谶@方面的策略上有極大改進(jìn)空間。這類積重的問題，非一朝一夕能搞定，需要傷筋動(dòng)骨的動(dòng)動(dòng)手術(shù)才行。所以請(qǐng)大家耐心。

另外需要說明的是，搜索引擎的排序出發(fā)點(diǎn)，是用戶的搜索體驗(yàn)。雖然說，很多時(shí)候尊重原創(chuàng)和用戶體驗(yàn)是一致的。但是，畢竟也有一些case，轉(zhuǎn)載的體驗(yàn)會(huì)比原創(chuàng)更好。這時(shí)候原創(chuàng)者的排序未必會(huì)高于轉(zhuǎn)載者。但無論如何，原創(chuàng)者的應(yīng)該以另外一種方式被肯定，而不是簡單的被聚合掉。

問：百度如何看待偽原創(chuàng)?

百度答：“偽原創(chuàng)”就是“非原創(chuàng)”。對(duì)非原創(chuàng)的策略，同樣適用于偽原創(chuàng)。歸根結(jié)底，這是一個(gè)技術(shù)實(shí)現(xiàn)程度問題，而不是策略思路問題。

問：如何處理百度從別的站抓取帶有廣告參數(shù)的url?

百度答：沒有什么壞的影響。另外，我們也計(jì)劃推出一個(gè)簡單的工具，方便大家處理這樣的無效參數(shù)，屆時(shí)會(huì)知會(huì)大家。

問：被小偷程序高度采集怎么辦?百度有什么識(shí)別的方法沒?

百度答：對(duì)于惡劣的小偷采集站，我們?cè)O(shè)有專門的識(shí)別并在逐步完善。

上一篇：如何利用好QQ空間的流量？

下一篇：藍(lán)翔營銷如何霸占互聯(lián)網(wǎng)新聞?lì)^條？

關(guān)鍵詞:

返回列表

相關(guān)文章

2023-05-27