robots.txt(檢索排除協定檔)
別稱 Robots Exclusion Protocol · REP
位於網站根目錄的純文字檔,用來告訴檢索器哪些路徑可以或不可以請求。
這是什麼
robots.txt 是放在網域根目錄(例如 example.com/robots.txt)的檔案,透過 User-agent 與 Disallow/Allow 指令,在路徑層級控制檢索器的存取權。它也能以 Sitemap: 一行宣告 XML Sitemap 的位置。
為什麼重要
一行誤植的 Disallow: / 可能讓整個網站對 Google、Bing 以及 GPTBot、PerplexityBot、Google-Extended 等 AI 檢索器隱形,使內容無法出現在搜尋結果與 AI 生成答案中。反之,正確的 robots.txt 能有效引導檢索器,並將其導向你的 Sitemap。
如何檢查
在瀏覽器開啟 yourdomain.com/robots.txt,確認回傳 200 狀態,且 User-agent: * 之下沒有全站的 Disallow: /。可使用 Search Console 的 robots.txt 報表或抓取工具,確認重要 URL 為允許狀態。
如何修正
發布一份允許檢索正式環境路徑的 robots.txt,移除任何從測試環境殘留的全站 Disallow: /,並加入含絕對 Sitemap URL 的 Sitemap: 行。對於想允許或封鎖的 AI 檢索器,請使用個別明確的規則,而非預設封鎖所有檢索器。
相關詞彙
- XML Sitemap(XML 網站地圖)列出網站正規(canonical)URL 的 XML 檔案,協助搜尋引擎發現頁面並決定檢索優先順序。
- noindex 標籤透過 meta 標籤或 HTTP 標頭設定的指令,告訴搜尋引擎不要將該頁面納入索引。
- AI 爬蟲政策(AI-crawler policy)在 robots.txt 中針對 AI 使用者代理(GPTBot、ClaudeBot、PerplexityBot、Google-Extended)設定明確允許或封鎖的規則。
- llms.txt放在 /llms.txt 的 Markdown 檔案,為 LLM 提供精選的純文字網站地圖,並連結到最重要的內容。
官方參考資料
外部連結,將於新分頁開啟。
把知識化為行動。
親手逐項完成每一項檢查,並轉成可分享的 GEO Score 報告——或在數秒內自動掃描你的網站。