robots.txt 設定

僅作為個人紀錄使用

架設網站時時常需要建置一個測試站來測試,但我們又希望測試站上的資料不要被搜尋引擎搜尋到,這時可以利用設置 robots.txt 檔案來阻擋搜尋引擎爬取!

設置流程

  1. 創建一個 robots.txt 的檔案,命名方式必須為小寫字母 (命名不正確則無效)

  2. 設置 robots.txt 檔案內容

  3. 將 robots.txt 檔案,放置在網站根目錄裡,直接到 http://yourdomain.com/robots.txt 看看是否正確上傳檔案

基本語法介紹

  • User-agent: 定義搜尋引擎
  • Disallow: 指定不想被檢索的目錄或檔案
  • Allow : 指定可被檢索的目錄或檔案

常用設定

以下介紹幾種常用的設定方法

允許搜尋引擎爬取所有網站內容

1
2
3
User-agent: *
Disallow:

禁止搜尋引擎爬取所有網站內容

1
2
3
User-agent: *
Disallow: /

禁止搜尋引擎爬取指定檔案

1
2
3
4
User-agent: *
Disallow: /test.php
Disallow: /contact.php

最後,如果想要確認自己的 robots.txt 語法是否正確的話,可使用 Google Search Console 工具來做測試,


參考: https://support.google.com/webmasters/answer/6062598?hl=zh-Hant