現今的搜尋引擎(如:Google、Bing、百度等等)不會只是登錄網頁,透過網頁內部的連結,會深入每一個目錄內搜尋資料,常常我們會在網路上搜尋到pdf、doc、ppt檔案,如果要避免這些檔案被搜尋到,就必須使用robots.txt檔來阻擋,值得注意一下,檔名必須為小寫,且必須是為txt檔案。
參考為大明小站的robots.txt
網址:http://www.dami.tw/robots.txt
以下為blogger預設的robots.txt
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://www.dami.tw/feeds/posts/default?orderby=UPDATED
User-agent:代表搜尋引擎的名稱
Disallow:代表網站目錄下的所有檔案接拒絕被搜尋
Allow:僅開放此目錄開放搜尋
相關說明:
User-agent: * (針對所有搜尋引擎設定)
User-agent: Googlebot (針對google搜尋引擎設定)
User-agent: Slurp (針對Yahoo!奇摩搜尋引擎設定)
User-agent: Baiduspider(針對百度搜尋引擎設定)
範例一:拒絕全部的搜尋引擎登錄資料。
User-agent: *
Disallow: /
範例二:拒絕百度搜尋引擎收集資料,但是其他搜尋引擎可以。
User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow:
範例三:拒絕所有搜尋引擎抓取pdf檔案、doc檔案。
User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$
(補充*代表萬用字元、$代表結尾符號)
範例四:開放所有搜尋引擎(一)。
User-agent: *
Allow: /
範例五:開放所有搜尋引擎(二)。
User-agent: *
Disallow:
範例四與五意思是一樣的,代表開放全部搜尋引擎。
簡單來說,如果Disallow為空白,就代表沒有拒絕任何。