如何彻底阻止搜索引擎抓取你的 WordPress 站点(2025 版)

一、什么情况下需要屏蔽爬虫

对绝大多数站点而言,搜索流量是生命线;但在以下场景,你反而要把门关上:

  1. 在线开发:先在正式域名上搭页面,再做细节调试,不想把半成品被 Google 收录。
  2. 私人博客/相册:只允许亲友阅览,拒绝任何公开检索。
  3. 内部项目管理:公司知识库、项目 Wiki,内容敏感,不希望外部可见。
  4. 域名前身有记录:旧持有人留下的外链、域名列表站仍可能把新站点“拖”进索引 。

二、常见误区

“只要没人给我做外链,搜索引擎就找不到我。”
错误。域名历史、DNS 变动记录、IDC 的默认展示页、甚至 Whois 变动快照都可能让爬虫首次发现你的地址。

三、WordPress 自带的“劝退”开关

后台 → 设置 → 阅读 → 勾选「建议搜索引擎不索引本站点」。
作用:

  1. <head> 插入
<meta name='robots' content='noindex,follow' />
  1. 自动写入 robots.txt
User-agent: *
Disallow: /

效果: polite bot(Google、Bing、百度正规爬虫)会放弃抓取;但恶意或失控爬虫可完全无视 。
结论:Wordpress后台勾选勾选是最简单方案,但不是 100% 有效。

四、让指定页面单独隐身

若只想屏蔽个别文章/页面,用 SEO 插件最方便:

  • 安装 All in One SEO(免费版即可)→ 编辑文章 → AIOSEO 设置「高级」→ 勾选 noindex 。
  • 同理可用 Rank Math、Yoast 等,原理一致。

五、服务器级“硬隔离”——密码保护整站

要真正做到「搜索引擎 0 收录」,唯一通用办法:在 HTTP 层加 Basic Auth,爬虫拿不到 200 OK,自然无法建索引。

1.cPanel 虚拟主机

“目录隐私”→ 选择网站根目录 → 启用密码 → 创建用户。生成后,系统会自动写入 /home/用户/.htpasswd,并在根目录 .htaccess 加入:

AuthType Basic
AuthName "Private Site"
AuthUserFile /home/xxx/.htpasswd
Require valid-user

全体访客(含爬虫)必须先过弹窗认证,否则返回 401 。

2.插件方案(适用于无 cPanel 的托管型 WordPress)

  • SeedProd Coming Soon / Maintenance Mode:一键全站维护+访问控制 。
  • Password Protect WordPress:单密码整站,不创建 WordPress 账户即可进入。

3.Nginx 手动配置(云服务器/VPS)

location / {
    auth_basic "Private";
    auth_basic_user_file /etc/nginx/.htpasswd;
}

重载 Nginx 后生效;Let’s Encrypt 续期脚本需额外配置白名单,以免证书更新失败。

六、补充:限制抓取频率与 LLM 爬虫

若只是怕“爬得太狠”而非完全屏蔽,可在 robots.txt 增加 Crawl-delay:

User-agent: *
Crawl-delay: 5

对 Bing、百度、Yandex 有效;Google 无视此指令,需去 Search Console → 设置 → 抓取速度手动调低
此外,ChatGPT、Gemini 等 LLM 爬虫目前多数会遵守 robots.txt,但无强制力;如内容敏感,建议直接上密码或防火墙封 IP

七、流程图小结(按安全等级从低到高)

  1. 仅 WP 后台勾选“不索引” → 劝退正规爬虫,免费,最简。
  2. 对敏感页单独 noindex → 站点其余部分正常收录。
  3. robots.txt 全站 Disallow + Crawl-delay → 减轻服务器压力,但仍可被抓。
  4. 整站 Basic Auth / 维护模式插件 → 搜索引擎 0 收录,真正私密。

根据你的业务场景,选择对应级别即可。祝建站顺利,收放自如!

原创文章,作者:主机酷,如若转载,请注明出处:https://zhuji.cool/jishujiaocheng/48.html

(0)
上一篇 2025年11月18日 上午11:25
下一篇 2025年11月24日 下午3:38

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注