在做爬虫的过程中,我们经常会遇到这样的情况:一开始爬虫运行正常,抓取数据正常,但是一杯茶的功夫可能会出现错误,比如403禁;这时网页上可能会出现“你的IP访问频率太高”的消息,时间长了可能会解封,但过一会儿又会出现这种情况。
因此,我们采用某种方式来伪装原生IP,使服务器无法识别本地计算机发起的请求,从而成功防止IP被阻塞。这就是代理ip派上用场的原因。
爬虫的一般思路
1.确定用于爬网的url路径,标头参数2.发送请求-请求模拟浏览器发送请求并获取响应数据
3.解析数据——解析器被转换成选择器对象,选择器对象有xpath方法,可以处理转换后的数据
4.保存数据
[环境介绍]:
python 3.6路径
要求
parsel(xpath)
代码如下:
调用ip
效果如下:
多年开发老码农民福利礼物:Python爬虫,网站开发,从基础最低的基础语法开始到项目实战【视频工具电子书系统路线图】,需要的伙伴可以关注一下,私信我。发完“材料”后,他们就可以拿到收货地址,发给每一个对编程感兴趣的小伙伴。