问题分类

官网新闻
域名注册问题
虚拟主机问题
VPS主机问题
服务器相关问题
400电话问题
网络营销推广问题
代理系统问题
业界资讯
动态拔号VPS问题

当前栏目点击排行

热门点击

如何控制爬虫的采集速度以防被封?

[来源:云立方] [作者:云立方] [日期:2019-02-28]

我们都知道,如果爬虫一直快速的访问一个网站,会给网站服务器带来比较大的压力,这么明显的异常访问,网站人员肯定会检测到问题的。因此,为了能够持续的采集数据,这速度肯定是要控制的,那么爬虫的采集速度要控制在什么范围之内?

要避免爬虫采集过快被对方发现,那么首先要知道什么样的采集速度是快。网站的用户是人,访问的速度自然是根据用户来设置的,超出人的范围速度就过快了。

每个网站限制的访问频率可能不一样,我们最好先测试下网站的访问阈值,设置合理的访问时间阈值。另外还要注意,不是设置固定的访问时间间隔,需要设置随机的时间间隔,因为大批量一样的时间间隔,肯定是不是人,不是机器刷的还是爬虫代码爬取的,所以要注意这一点。

1.设置随机访问时间间隔方法:

很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent,可以设置访问的时间间间隔长一点,比如没抓取一个页面休眠一个随机时间:

import time,random

time.sleep(random.random()*3)

对于一个crawler来说,这是一个比较responsible的做法。

2.爬虫有时候会因为爬去某些网页速度极慢,影响性能。所有可以设置超时时间。

timeout单位秒

设置超时时间为0,使用try语句。

爬虫的采集速度要控制在什么范围之内?

输出异常:a

timeout设置为一之后就能正常返回获取的html代码了。

以上是介绍了关于“爬虫的采集速度要控制在什么范围之内”这个问题的一些分析,可供参考。合理的控制访问速度,可以降低服务器负载,还能起到防封的效果。不然即使使用了代理IP或者动态拨号vps来更换IP,这过快的速度还是出卖了你。

爬虫代理IP就用云立方拨号VPS:https://www.yunlifang.cn/

云立方网产品导航:  动态拨号vps  混合拨号VPS  服务器租用 动态ip  动态ip代理  拨号服务器 挂机宝 香港VPS PPTP 

相关文章