1 功能说明
爬网代理的IP地址、端口和类型信息。
2 开发环境
开发环境:Python3和PyCharm;
3 网站介绍及分析
,以西祠代理网站(https://www.xicidaili.com/nn)为例,在该网站上抓取代理IP信息。分析抓取网页的源代码,IP信息在标签tr中,td标签包含IP地址、端口、类型等信息。
4 编码思路
1)抓取代理IP页面信息;2)提取页面中的IP地址、端口和类型信息;
3)根据提取的信息组合IP地址,并将IP地址存储在列表中;
5 代码实现

完整的代码如下:
#爬行代理IP导入请求来自bs4 import beauty soupur=' https://www.xicidaili.com/nn' headers={ ' user-agent ' : ' Mozilla/5.0(windows nt 6.1;WOW64)applebwebkit/537.36(Khtml,像Gecko)Chrome/58 . 0 . 3029 . 110 Safari/537.36 SE 2。X MetaSr 1.0 ',' Accept': '文本/html,应用程序/xhtml xml,应用程序/XML;q=0.9,image/webp,*/*;q=0.8 ',' Accept-Encoding': 'gzip,deflate,sdch ',' Accept-Language': 'zh-CN,zh;q=0.8 ',' Cache-Control': 'max-age=0 ',' Connection ' : ' keep-alive ' } IP _ list=[]r=requests . get(URL,headers=headers)shoot=beautulsoup(r . text,Html.parser')# Extract ip相关标记TR=soup。在TR : TD=I中为I查找_ all ('tr') TR=TR [1:],查找_ all ('TD') TD _ 2=TD [1]。Text TD _ 3=TD [。正文TD _ 6=TD [5]。text IP=TD _ 6 ' ://' TD _ 2 ' : ' TD _ 3 IP _ list。附加打印代码运行如下:
6 代码问题汇总
无
7 相关学习知识点
1)在PyCharm中设置放大和缩小代码的快捷键放大代码快捷键:在设置中输入增加,选择增加字体大小,右键选择添加鼠标快捷键;在弹出的对话框中,按住Ctrl键并向上滚动鼠标滚轮(根据个人习惯)。
8 结束语
这段代码实现了代理IP的抓取,并保存在列表中,供其他爬虫选择代理IP。我想和大家分享一下编码过程,供大家参考。我希望你能指出一些错误。谢谢你。