asp.net: 使用robots.txt教學、防止目錄內資料被登錄

現今的搜尋引擎(如：Google、Bing、百度等等）不會只是登錄網頁，透過網頁內部的連結，會深入每一個目錄內搜尋資料，常常我們會在網路上搜尋到pdf、doc、ppt檔案，如果要避免這些檔案被搜尋到，就必須使用robots.txt檔來阻擋，值得注意一下，檔名必須為小寫，且必須是為txt檔案。

參考為大明小站的robots.txt

網址：http://www.dami.tw/robots.txt

以下為blogger預設的robots.txt

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://www.dami.tw/feeds/posts/default?orderby=UPDATED

User-agent：代表搜尋引擎的名稱
Disallow:代表網站目錄下的所有檔案接拒絕被搜尋
Allow:僅開放此目錄開放搜尋

相關說明：

User-agent: * (針對所有搜尋引擎設定)
User-agent: Googlebot (針對google搜尋引擎設定)
User-agent: Slurp (針對Yahoo!奇摩搜尋引擎設定)
User-agent: Baiduspider(針對百度搜尋引擎設定)

範例一：拒絕全部的搜尋引擎登錄資料。

User-agent: *
Disallow: /

範例二：拒絕百度搜尋引擎收集資料，但是其他搜尋引擎可以。

User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow:

範例三：拒絕所有搜尋引擎抓取pdf檔案、doc檔案。

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$

（補充*代表萬用字元、$代表結尾符號）

範例四：開放所有搜尋引擎（一）。

User-agent: *
Allow: /

範例五：開放所有搜尋引擎（二）。

User-agent: *
Disallow:

範例四與五意思是一樣的，代表開放全部搜尋引擎。
簡單來說，如果Disallow為空白，就代表沒有拒絕任何。

Google Code Prettify

使用robots.txt教學、防止目錄內資料被登錄