當我們的網站上線之后,一定會有一些不想讓百度抓取的頁面、文件,針對這種問題,我們就要使用協議去屏蔽。那么這個協議是什么?究竟怎么寫這個協議呢?
一、什么是搜索引擎協議: 搜索引擎協議也就是我們常說的robots.txt。這是我們網站和搜索引擎之間的協議。當搜索引擎來到我們網站的時候,會先看一看有沒有這個文件,在進行下一步的抓取。但是需要注意的是,這個協議只是我們單方面的,搜索引擎遵守與否,我們管不了。但是正常情況下搜索引擎會遵守這個協議。
robots.txt語法: 1.基本語法: User-agent 定義協議的搜索引擎。 Disallow 不允許抓取 Allow 允許抓取 * 通配符,代表所有 $ 結束符 2.詳情講解: User-agent: * 所有的搜索引擎都要遵守 PS:1.英文的首字母一定要大寫。下同。2.問號一定是英文狀態下的。下同。3.問號之后一定要有一個空格。下同。 User-agent: Baiduspider 針對百度的協議 Disallow: / 屏蔽全站 Disallow: /can/ 屏蔽can文件下的所有文件 Allow: /can/123 屏蔽can文件下的所有文件,但是允許收錄123 Disallow: /*.jpg$ 屏蔽所有的圖片文件。 PS:使用通配符,一定要有結束符。不然可能導致正常的路徑被屏蔽。
二、那些情況需要使用robots
1.統一路徑 在我們的網站中,指向頁面的路徑一定是有且只有一個。一旦多途徑指向一個頁面,會導致百度不知道收錄那個頁面。所以我們只要屏蔽了一個,讓百度收錄我們想讓收錄的。 2.搜索路徑 如果我們網站中有搜索框,那么我們就要把搜索結果頁面給屏蔽掉。目的就是為了防止有人使用這個搜索框搗亂。 3.標簽路徑 如果我們網站有標簽頁面,這個標簽頁面就是中文的鏈接,中文鏈接百度不認識,所以要屏蔽。 4.js文件 對于js文件或者其他無意義的文件,我們都可以屏蔽掉。
注意事項: 1.基礎語法中PS的點。 2.生效時間 robots是我們和搜索引擎之間的一個單方面的協議,不是我們今天寫上,明天百度就會遵守。想讓百度遵守是需要一個過程的,一般情況下是兩個月。但是也不排除當天寫,當天生效。所以在更改robots的時候,一定要小心小心再小心。一旦你的robots錯了,對整個網站的影響是巨大的。 3.不要隨便的屏蔽整站 一些新手在做網站的時候,沒有規劃,隨搭隨建,網站不能一下子做好,經常做個半截,所以很多新手就會將我們的網站全部屏蔽掉。如果你真的這么做了,那么我要恭喜你,蜘蛛可能在未來的兩個月中不來訪問你的網站。即便是你去請蜘蛛也不會來。所以這里給新手的建議就是一定要對網站規劃好,一次性搭建完成。等待收錄。
文章來源:懶貓seo博客
來源地址:http://www.lanmaoseo.com/seowzyh/6995.html
本文來源:徐州酷優網絡科技有限公司
本文網址:https:///fengxian/1940.html
聲明,本站文章均為酷優網絡原創或轉載,歡迎分享,轉載時請注明文章作者和“來源:徐州網站建設”并附本文鏈接
覆蓋全江蘇省的服務網絡
全國7×24小時客服熱線
病毒殺出率高于99%
網站可用性高于99.9%
最快網站3天內上線