好了,我又来到了大家最喜欢的全作品环节。爬小姐姐的视频,以前是爬正经的视频,但是想了想,还是想整点小时都实用,所以一定要改成小姐姐,直接做整个工作!
使用Python3.6和pycharm,需要安装浏览器驱动(谷歌或者火狐都可以,只要和浏览器版本差不多就行)。
本次要用到的模块
#总体思路
#一、数据来源分析
1.确定要求(我们要爬什么?)抖音视频内容。
2.通过开发人员工具捕获并分析包。一、(F12/右键检查打开)选择网络,选择媒体找到广播地址。二.找到广播地址来源,爬一段视频。
二. 代码实现过程
1.发送请求发送视频请求详细信息页面。
2.获取数据,获取网页的源代码数据。
3.分析数据提取视频播放地址和视频标题。
4.下载并保存。
各个模块的作用
自动判断是否有文件夹,并自动创建。文件夹名称可以随便命名。在这里,我们创建名称视频,或者我们可以自己创建一个同名的文件夹,并将其放在代码旁边。
很多文件下载后名字里有特殊符号。此时,我们必须替换这些特殊符号,否则我们无法保存它们。
这一步需要安装浏览器驱动程序selenium。
它可以模拟人类的行为来操作浏览器,模拟滑动操作。如果你自己转,那就麻烦了。验证码没有写进去,需要自己手动检查验证码。
实例化浏览器的对象。
访问网址。
把括号里的内容换成你想爬的博主,我就不放链接了,免得考试不及格。剪张照片。以他为例。知道的人都知道。
e03d1' alt='2021最新版Python爬取抖音小姐姐短视频,无水印,超级详细' />不,我不懂~
怎么找地址呢,在当前页面链接中把?之前的都复制下来放进括号里面替换掉… 这几个点。
返回的列表 里面元素是对象
调用 find_element_by_css_selector() 方法
headers 请求头 伪装作用,user-agent: 浏览器的基本信息。
获取数据 response.text 获取响应体的文本数据 print(response.text) 解析数据 通过 re 正则表达式
正则表达式匹配出来的内容是列表 贪婪模式[我全都要] 非贪婪模式(?)
返回是列表没问题, [1] 索引取值 第一个元素索引位置是0 第二个元素索引位置 1。
解码
print(video_url)保存数据,response.content
(获取响应体的二进制数据),为什么我要获取二进制数据呢,如果要保存图片/视频/音频/特定格式的文件,都是二进制数据保存的。
mode 保存方式, w 是写入, b 二进制模式 ,wb 以二进制方式保存, mode 默认是, r 读取,as 重命名 f。 然后看一下效果
兄弟们,冲冲冲!还是新鲜的,只要你去试了,必然是成功的,如果你连试都没试,那当我没说。