2012-11-30

使用robots.txt教學、防止目錄內資料被登錄

現今的搜尋引擎(如:Google、Bing、百度等等)不會只是登錄網頁,透過網頁內部的連結,會深入每一個目錄內搜尋資料,常常我們會在網路上搜尋到pdf、doc、ppt檔案,如果要避免這些檔案被搜尋到,就必須使用robots.txt檔來阻擋,值得注意一下,檔名必須為小寫,且必須是為txt檔案。



參考為大明小站的robots.txt

網址:http://www.dami.tw/robots.txt

以下為blogger預設的robots.txt


User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://www.dami.tw/feeds/posts/default?orderby=UPDATED


User-agent:代表搜尋引擎的名稱 
Disallow:代表網站目錄下的所有檔案接拒絕被搜尋
Allow:僅開放此目錄開放搜尋


相關說明:

User-agent: *          (針對所有搜尋引擎設定)
User-agent: Googlebot  (針對google搜尋引擎設定)
User-agent: Slurp      (針對Yahoo!奇摩搜尋引擎設定)
User-agent: Baiduspider(針對百度搜尋引擎設定)



範例一:拒絕全部的搜尋引擎登錄資料。

User-agent: *
Disallow: /


範例二:拒絕百度搜尋引擎收集資料,但是其他搜尋引擎可以。

User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow: 


範例三:拒絕所有搜尋引擎抓取pdf檔案、doc檔案。

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$

(補充*代表萬用字元、$代表結尾符號)

範例四:開放所有搜尋引擎(一)。

User-agent: *
Allow: /

範例五:開放所有搜尋引擎(二)。

User-agent: *
Disallow: 


範例四與五意思是一樣的,代表開放全部搜尋引擎。
簡單來說,如果Disallow為空白,就代表沒有拒絕任何。

Related Posts Plugin for WordPress, Blogger...
无觅相关文章插件,快速提升流量
友荐云推荐




沒有留言:

張貼留言