防采集

限制访客访问频率,智能识别蜘蛛并阻止恶意爬虫行为,实现有效防采集,防止网站内容被非法抓取。
标识visitguard
版本号1.0
文件大小285.3KB
发布时间2025-06-10
PHP兼容
作者 1CMS
获取
¥ 80.00 ¥ 64
请在您的网站后台-应用商店内购买此应用.

插件安装完成后请按需设置访问限制

如需更严格限制采集,需将蜘蛛与爬虫一分钟限制改成-1(禁止访问),去除不支持识别的蜘蛛,开启真实蜘蛛"无限制"选项,开启访客与用户首次验证码与总量限制.

建议安装 "文字点击验证码" 插件,优化验证码输入体验

基础设置

受限网址:一行一个,如填写/test/ 则访问/test/前缀的网址都将由程序判断是否允许访问

不限网址:允许不受限访问的网址前缀,如后台网址 /admin/ ,验证码网址,计划任务等网址需设置成不限网址

黑名单IP:黑名单内的ip将无法访问站点,如:114.114.114.114 或114.114.114.0/24

白名单ip:白名单内的ip可无限制访问站点内容,如:127.0.0.1或192.168.0.1/24,白名单IP优于黑名单IP

访客与用户限制

首次验证码: 首次访问时是否需要填写验证码,可以有效屏蔽采集器,但用户体验不佳

访客识别:识别到采集器伪装的访客时,需要输入验证码

1/5/15分钟限制:限定时间内允许访问的次数限制,填0则不限制

总量限制:访问量超过设定的总量限制时,需先完成验证码验证方可继续访问,完成验证后,如该IP的访问量再次超过限制,则仍需重新进行验证码验证

蜘蛛限制

蜘蛛:不在名单内的蜘蛛将归类为爬虫,按"爬虫限制"设定规则

常见蜘蛛useragent: baiduspider,googlebot,bingbot,360spider,bytespider,sogou web spider,yandexbot,yisouspider

蜘蛛识别:通过IP反查与自带蜘蛛IP数据库查询是否为真实蜘蛛,伪装的蜘蛛,将按"爬虫限制"设定规则限制

当前支持反查的蜘蛛:baiduspider,googlebot,bingbot,yandexbot,yisouspider

无限制:当识别蜘蛛IP为真实蜘蛛后,不限制爬行速率,不受1,5,15分钟限制

1/5/15分钟限制:限定时间内蜘蛛允许访问的次数限制,填0则不限制,填-1则禁止访问

重试:开启后,当蜘蛛被限制速率时,将发送Retry-After响应头,告知蜘蛛应该在多久之后重试请求.

爬虫限制

黑名单:禁止的useragent关键词,一行一个,如:AhrefsBot,不区分大小写

白名单:useragent中包含白名单词的爬虫将不受爬行速率限制,未在黑白名单内的爬虫受1,5,15分钟速率限制

1/5/15分钟限制:限定时间内爬虫允许访问的次数限制,填0则不限制,填-1则禁止访问

其他限制

拒绝国内访问:禁止国内IP访问受限页面(真实蜘蛛IP除外)

拒绝国外访问:禁止国外IP访问受限页面(真实蜘蛛IP除外)

拒绝机房IP:拒绝机房IP访问受限页面(真实蜘蛛IP除外)

受限于IP库地址判断,机房IP识别不一定准确

拒绝代理访问:拒绝携带X_FORWARDED_FOR等代理特征的访问

拒绝省份访问:勾选的省份无法访问网站(真实蜘蛛IP除外)

受限返回

返回页面:当访问被拒绝时,返回的页面状态码

自定义:由模板代码自行决定输出内容

//代码示例:
<?php
if(C('visitguard:limited')){
    echo('已被限制');//显示已受限
}else{
    echo($content);//不受限则输出文章内容
}
?>

返回提示:返回页面上的文字,如:404 Not Found

由于服务器设置(如nginx自定义了错误页面),提示文字将无法显示

验证码:访客与用户被限制访问时,是否允许输入验证码进行再次访问,开启验证码后,自定义返回页面将失效