如何在 WordPress Robots.txt 文件中創(chuàng)建和添加規(guī)則

如果你想控制搜索引擎對網(wǎng)站的訪問,創(chuàng)建 robots.txt 文件是第一步。這是一個 ASCII 文本文件,用于告訴搜索引擎哪些頁面可以被索引,哪些頁面不應(yīng)被索引。

正確編輯 robots.txt 文件可以顯著影響網(wǎng)站的 SEO,有助于提升網(wǎng)站的可見性,還能保護敏感文件的安全。

圖片[1]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

什么是 robots.txt 文件?

robots.txt 文件是一種用于搜索引擎爬蟲的規(guī)則文件,它定義了網(wǎng)站的哪些部分對爬蟲開放,哪些部分禁止訪問。通過合理設(shè)置,可以更好地管理網(wǎng)站的內(nèi)容索引策略。

如何創(chuàng)建和定制 robots.txt 文件?

1. 了解 robots.txt 文件的基本語法規(guī)則。
2. 根據(jù)網(wǎng)站的需求,添加允許或禁止的規(guī)則。
3.將文件上傳到網(wǎng)站的根目錄,確保搜索引擎可以正確讀取。

什么是robots.txt 文件

robots.txt 是一個簡單的文本文件,用于向網(wǎng)絡(luò)爬蟲(例如搜索引擎的機器人)指示網(wǎng)站的哪些部分可以抓取,哪些部分需要隱藏。它可以確保搜索引擎不會索引那些不應(yīng)該公開的頁面或文件,從而保護網(wǎng)站的隱私和內(nèi)容安全。

在默認情況下,WordPress 會自動生成一個虛擬的 robots.txt 文件,其路徑為:www.yourdomain.com/robots.txt。通過創(chuàng)建一個自定義的 robots.txt 文件,你可以替代默認文件,從而更精準地控制哪些文件或頁面不被搜索引擎索引。

圖片[2]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

WordPress 的 robots.txt 文件位置

robots.txt 文件通常位于網(wǎng)站的根目錄下。WordPress 會自動生成一個虛擬版本的 robots.txt 文件,但如果您未手動創(chuàng)建,服務(wù)器上并不會實際保存該文件。

如何查看網(wǎng)站的 robots.txt 文件?

1. 打開你的瀏覽器。

2. 在地址欄輸入 https://您的域名/robots.txt 并訪問。

  • 如果文件存在,瀏覽器會顯示 robots.txt 文件的內(nèi)容。
圖片[3]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南
  • 如果沒有顯示內(nèi)容,則說明網(wǎng)站尚未創(chuàng)建 robots.txt 文件。

可以通過創(chuàng)建一個自定義的 robots.txt 文件來精準管理搜索引擎對網(wǎng)站內(nèi)容的訪問權(quán)限。

了解 robots.txt 文件中的規(guī)則

robots.txt 文件中的指令定義了網(wǎng)絡(luò)爬蟲(例如搜索引擎機器人)的行為。指令主要由兩部分組成:

1. User-agent:指定規(guī)則適用于哪個爬蟲(如 Googlebot)。

2. Disallow:指定哪些頁面或目錄不允許被爬取。

例如:

User-agent: *
Disallow: /wp-admin/

這段代碼指示所有爬蟲禁止爬取 /wp-admin/ 目錄,但其他區(qū)域可以正常訪問。

正確理解并使用 robots.txt 文件中的規(guī)則至關(guān)重要。不正確的配置可能導(dǎo)致意外后果,例如阻止搜索引擎訪問網(wǎng)站的重要頁面。

以下是一些常見 robots.txt 規(guī)則及其用途的簡要說明:

規(guī)則說明
User-agent: *指定以下規(guī)則適用于所有爬蟲。
Disallow: /禁止所有爬蟲訪問網(wǎng)站的任何頁面。
Disallow: /private/禁止所有爬蟲訪問 /private/ 目錄下的所有頁面。
Allow: /public/允許所有爬蟲訪問 /public/ 目錄下的所有頁面。
Sitemap: https://www.example.com/sitemap.xml指定網(wǎng)站的 Sitemap 文件位置,方便爬蟲更好地索引內(nèi)容。

通過合理配置這些規(guī)則,可以更好地管理爬蟲行為,提升 SEO 效果,同時保護敏感內(nèi)容的隱私。

如何創(chuàng)建 WordPress robots.txt 文件

創(chuàng)建 robots.txt 文件可以通過幾種方法完成,但在本篇文章中,介紹 2 種簡單方法:

方法 1:使用插件編輯 robots.txt 文件

WPCodeVirtual Robots.txt 這樣的插件可以無需直接編寫代碼就能輕松管理 robots.txt 文件。只需安裝插件,進入其設(shè)置界面,添加自定義規(guī)則即可。這種方法操作簡單,非常適合新手。

用 WPCode 編輯 robots.txt 文件

1. 在 WordPress 儀表盤的 插件 > 安裝插件 頁面,搜索并安裝 WPCode 插件。

圖片[4]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

2. 安裝完成后,進入 Code Snippets 選項,然后點擊 文件編輯器(File Editor)。

圖片[5]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

3. 在 文件編輯器 中,找到 robots.txt 文件選項。

4. 根據(jù)需求修改文件內(nèi)容,保存更改并進行測試。

用 Virtual Robots.txt 編輯 robots.txt 文件

1. 在 插件 > 安裝插件 頁面,搜索并安裝 Virtual Robots.txt 插件。

圖片[6]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

2. 安裝完成后,進入插件的 設(shè)置 頁面。

圖片[7]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

3. 查看插件提供的默認規(guī)則,或者根據(jù)需要添加自定義規(guī)則。

4. 保存更改,確保 robots.txt 文件符合你的需求。

圖片[8]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

使用這些插件,可以更輕松地管理 robots.txt 文件,適應(yīng)不同網(wǎng)站的需求,同時確保搜索引擎爬蟲行為受到正確的控制。

    方法 2:通過 FTP 創(chuàng)建并上傳 WordPress 的 robots.txt 文件

    如果想更直接地控制 robots.txt 文件的內(nèi)容,可以通過文本編輯器創(chuàng)建一個物理文件并使用 FTP 上傳。下面是具體步驟:

    創(chuàng)建 robots.txt 文件

    1. 打開一個文本編輯器(例如 Notepad 或其他熟悉的工具)。

    2. 編寫需要的規(guī)則。例如:

    圖片[9]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

    3. 將文件保存為 robots.txt

      上傳到網(wǎng)站的根目錄

      1. 用 FTP 工具(例如 FileZilla)或者控制面板(例如寶塔等)連接到網(wǎng)站服務(wù)器。

      2. 導(dǎo)航到網(wǎng)站的根目錄(通常是 public_htmlwww 文件夾)。

      圖片[10]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

      3. 將剛剛創(chuàng)建的 robots.txt 文件上傳到根目錄。

      完成后, robots.txt 文件將生效,可以通過訪問 https://您的域名/robots.txt 來驗證文件內(nèi)容是否正確顯示。通過這種方法,可以完全控制文件的內(nèi)容和規(guī)則。

        為 WordPress 的 robots.txt 添加規(guī)則

        創(chuàng)建好 robots.txt 文件后,可以根據(jù)需求添加各種規(guī)則,以實現(xiàn)特定的目標。以下是一些常見的用法和代碼示例:

        1. 阻止整個網(wǎng)站被爬取

        robots.txt 文件中添加以下代碼,可以阻止搜索引擎爬取整個網(wǎng)站:

        User-agent: *
        Disallow: /

        2. 阻止特定爬蟲訪問網(wǎng)站

        添加以下代碼,可以阻止某個特定爬蟲(例如 Dotbot)訪問網(wǎng)站:

        User-agent: Dotbot
        Disallow: /

        3. 阻止特定文件夾或文件被爬取

        以下代碼可以阻止搜索引擎爬取某個特定文件夾或文件:

        User-agent: *
        Disallow: /private-folder/

        4. 允許所有爬蟲訪問網(wǎng)站

        以下代碼允許所有爬蟲訪問網(wǎng)站的所有內(nèi)容:

        User-agent: *
        Disallow:

        5. 允許訪問被禁止文件夾中的特定文件

        以下代碼允許爬蟲訪問被禁止文件夾中的特定文件:

        User-agent: *
        Disallow: /private-folder/
        Allow: /private-folder/public-file.html

        6. 阻止爬取 WordPress 搜索結(jié)果頁面

        以下代碼可以阻止爬蟲爬取 WordPress 搜索結(jié)果頁面:

        User-agent: *
        Disallow: /?s=

        7. 為不同爬蟲設(shè)置不同規(guī)則

        以下代碼為不同的爬蟲設(shè)置了不同的規(guī)則:

        User-agent: Googlebot
        Disallow: /no-google/
        
        User-agent: Bingbot
        Disallow: /no-bing/

        8. 阻止 GPTBot 爬取網(wǎng)站內(nèi)容

        以下代碼可以阻止 GPTBot 爬取您的網(wǎng)站內(nèi)容:

        User-agent: GPTBot
        Disallow: /

        這些示例展示了 robots.txt 的規(guī)則可以根據(jù)網(wǎng)站的 SEO 策略靈活調(diào)整,從而更好地管理搜索引擎的行為,保護網(wǎng)站內(nèi)容并優(yōu)化搜索排名。

        圖片[11]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

        在 robots.txt 文件中指定用戶代理

        通過在規(guī)則中指定用戶代理,可以針對特定爬蟲設(shè)置規(guī)則。此外,使用通配符可以幫助更靈活地管理爬蟲對網(wǎng)站不同部分的訪問。

        1. 在 robots.txt 文件中使用通配符

        通配符可以根據(jù)模式設(shè)置廣泛或特定的規(guī)則。

        2. 使用星號(*)通配符

        星號(*)表示任何用戶代理,適用于所有爬蟲:

        User-agent: *
        Disallow: /private/

        3. 使用美元符號($)通配符

        美元符號($)表示 URL 的結(jié)尾,用于匹配特定 URL 模式:

        User-agent: *
        Disallow: /*?*

        如何測試 robots.txt 文件

        在創(chuàng)建或編輯 robots.txt 文件后,立即驗證文件的正確性非常重要??梢允褂靡韵鹿ぞ哌M行驗證:

        1. Google Search Console
        提交 robots.txt 文件并檢查是否符合預(yù)期規(guī)則。

        2. 專用驗證工具
        使用像 technicalseo.com 這樣的在線工具進行驗證。

        驗證步驟:

          1. 輸入網(wǎng)站的 URL(如 https://yourdomain.com/robots.txt)。

          2. 從下拉菜單中選擇您關(guān)注的爬蟲或用戶代理。

          3. 點擊 提交 按鈕開始驗證。

          完成這些步驟后,可以輕松確認 robots.txt 文件的配置是否正確,從而確保爬蟲按設(shè)置的規(guī)則運行。

            圖片[12]-如何管理和優(yōu)化WordPress網(wǎng)站的robots.txt文件:完整指南

            總結(jié)

              管理好 robots.txt 文件是優(yōu)化 WordPress 網(wǎng)站 SEO 的重要環(huán)節(jié)。通過遵循以上指南,可以創(chuàng)建一個定制化的 robots.txt 文件,既能提升網(wǎng)站的可見性,又能保護網(wǎng)站的敏感區(qū)域不被爬取。


              聯(lián)系我們
              教程看不懂?聯(lián)系我們?yōu)槟赓M解答!免費助力個人,小企站點!
              客服微信
              客服微信
              電話:020-2206-9892
              QQ咨詢:1025174874
              郵件:info@361sale.com
              工作時間:周一至周五,9:30-18:30,節(jié)假日休息
              ? 轉(zhuǎn)載聲明
              本文作者:Banner1
              THE END
              喜歡就支持一下吧
              點贊29 分享
              評論 搶沙發(fā)

              請登錄后發(fā)表評論

                暫無評論內(nèi)容