robots.txt 設定
僅作為個人紀錄使用
架設網站時時常需要建置一個測試站來測試,但我們又希望測試站上的資料不要被搜尋引擎搜尋到,這時可以利用設置 robots.txt 檔案來阻擋搜尋引擎爬取!
設置流程
創建一個 robots.txt 的檔案,命名方式必須為小寫字母 (命名不正確則無效)
設置 robots.txt 檔案內容
將 robots.txt 檔案,放置在網站根目錄裡,直接到 http://yourdomain.com/robots.txt 看看是否正確上傳檔案
基本語法介紹
- User-agent: 定義搜尋引擎
- Disallow: 指定不想被檢索的目錄或檔案
- Allow : 指定可被檢索的目錄或檔案
常用設定
以下介紹幾種常用的設定方法
允許搜尋引擎爬取所有網站內容
1 | User-agent: * |
禁止搜尋引擎爬取所有網站內容
1 | User-agent: * |
禁止搜尋引擎爬取指定檔案
1 | User-agent: * |
最後,如果想要確認自己的 robots.txt 語法是否正確的話,可使用 Google Search Console 工具來做測試,
參考: https://support.google.com/webmasters/answer/6062598?hl=zh-Hant