一、什么情况下需要屏蔽爬虫
对绝大多数站点而言,搜索流量是生命线;但在以下场景,你反而要把门关上:
- 在线开发:先在正式域名上搭页面,再做细节调试,不想把半成品被 Google 收录。
- 私人博客/相册:只允许亲友阅览,拒绝任何公开检索。
- 内部项目管理:公司知识库、项目 Wiki,内容敏感,不希望外部可见。
- 域名前身有记录:旧持有人留下的外链、域名列表站仍可能把新站点“拖”进索引 。
二、常见误区
“只要没人给我做外链,搜索引擎就找不到我。”
错误。域名历史、DNS 变动记录、IDC 的默认展示页、甚至 Whois 变动快照都可能让爬虫首次发现你的地址。
三、WordPress 自带的“劝退”开关
后台 → 设置 → 阅读 → 勾选「建议搜索引擎不索引本站点」。
作用:
- 在
<head>插入
<meta name='robots' content='noindex,follow' />- 自动写入 robots.txt
User-agent: *
Disallow: /效果: polite bot(Google、Bing、百度正规爬虫)会放弃抓取;但恶意或失控爬虫可完全无视 。
结论:Wordpress后台勾选勾选是最简单方案,但不是 100% 有效。
四、让指定页面单独隐身
若只想屏蔽个别文章/页面,用 SEO 插件最方便:
- 安装 All in One SEO(免费版即可)→ 编辑文章 → AIOSEO 设置「高级」→ 勾选 noindex 。
- 同理可用 Rank Math、Yoast 等,原理一致。
五、服务器级“硬隔离”——密码保护整站
要真正做到「搜索引擎 0 收录」,唯一通用办法:在 HTTP 层加 Basic Auth,爬虫拿不到 200 OK,自然无法建索引。
1.cPanel 虚拟主机
“目录隐私”→ 选择网站根目录 → 启用密码 → 创建用户。生成后,系统会自动写入 /home/用户/.htpasswd,并在根目录 .htaccess 加入:
AuthType Basic
AuthName "Private Site"
AuthUserFile /home/xxx/.htpasswd
Require valid-user全体访客(含爬虫)必须先过弹窗认证,否则返回 401 。
2.插件方案(适用于无 cPanel 的托管型 WordPress)
- SeedProd Coming Soon / Maintenance Mode:一键全站维护+访问控制 。
- Password Protect WordPress:单密码整站,不创建 WordPress 账户即可进入。
3.Nginx 手动配置(云服务器/VPS)
location / {
auth_basic "Private";
auth_basic_user_file /etc/nginx/.htpasswd;
}重载 Nginx 后生效;Let’s Encrypt 续期脚本需额外配置白名单,以免证书更新失败。
六、补充:限制抓取频率与 LLM 爬虫
若只是怕“爬得太狠”而非完全屏蔽,可在 robots.txt 增加 Crawl-delay:
User-agent: *
Crawl-delay: 5对 Bing、百度、Yandex 有效;Google 无视此指令,需去 Search Console → 设置 → 抓取速度手动调低 。
此外,ChatGPT、Gemini 等 LLM 爬虫目前多数会遵守 robots.txt,但无强制力;如内容敏感,建议直接上密码或防火墙封 IP 。
七、流程图小结(按安全等级从低到高)
- 仅 WP 后台勾选“不索引” → 劝退正规爬虫,免费,最简。
- 对敏感页单独 noindex → 站点其余部分正常收录。
- robots.txt 全站 Disallow + Crawl-delay → 减轻服务器压力,但仍可被抓。
- 整站 Basic Auth / 维护模式插件 → 搜索引擎 0 收录,真正私密。
根据你的业务场景,选择对应级别即可。祝建站顺利,收放自如!
原创文章,作者:主机酷,如若转载,请注明出处:https://zhuji.cool/jishujiaocheng/48.html