以服务于中国广大创业者为己任,立志于做最好的创业网站。

标签云创业博客联系我们

导航菜单

怎样提取网易云音乐中的视频,网易云音乐视频提取

  

  从头开始写爬虫,初学者快速指南!   

  

  你需要免费获取本文解释的视频源代码,注意转发这篇文章后再私底下回复“音乐”获取信息。也欢迎大家和我一起交流学习Python,共同成长。   

  

  封面:   

  

     

  

  封面   

  

  大家好,《手把手教你写网络爬虫》连载开始了!在我的职业生涯中,我几乎没有发现任何像网络爬虫这样的编程实践能够同时吸引程序员和外行的注意力。本文从简单到深入讲述了爬虫技术的整个故事,为初学者提供了一个简单的入门途径。爬行动物学习中请跟随我们一起走怪物战斗升级之路!   

  

  介绍   

  

  什么是爬虫?   

  

  先看百度百科:的定义。   

  

     

  

  网络爬虫   

  

  简单来说,网络爬虫也叫刮网器、蜘蛛(Web   

  

  Spider),其行为一般是先“爬”到对应的网页,然后“铲”出需要的信息。   

  

  为什么学习爬虫?   

  

  看到这,有人会问:谷歌、百度等搜索引擎帮助我们捕捉了互联网上的大部分信息。为什么一定要自己写爬虫?这是因为需求是多样化的。例如,在企业中,已爬网数据可以用作数据挖掘的数据源。有些人甚至抓取股票信息进行股票交易。我见过有人为了分析房价,爬绿中介的数据自学编程。   

  

  在大数据深入人心的时代,网络爬虫作为网络、存储和机器学习的交汇点,已经成为满足个性化网络数据需求的最佳实践。你在犹豫什么?我们开始学习吧!   

  

  语言环境   

  

  语言:生命短暂。我用Python。让蟒蛇带我们飞吧!   

  

     

  

  计算机编程语言   

  

  urllib.request:   

  

  这是Python自带的库,不需要单独安装。它的功能是打开url让我们获取html内容。Python官方文档的介绍   

  

  模块定义了帮助打开网址的函数和类(主要是HTTP)   

  

  在一个复杂的世界里――基本的和摘要式的认证、重定向、cookies   

  

  以及更多。   

  

  BeautifulSoup:   

  

  是一个Python库,可以从HTML或XML文件中提取数据。它可以通过你喜欢的转换器实现常用的文档导航、搜索和修改方式。美丽的   

  

  喝汤可以帮你节省几个小时甚至几天的工作时间。简单安装:   

  

  $pip安装美观套件4   

  

  验证方法,输入Python,直接导入。如果没有异常,那么安装成功!   

  

     

  

  美丽的组合   

  

  “美味的汤,绿色的浓汤,   

  

  在热气腾腾的盖碗里装!   

  

  谁不愿意尝一尝,这样的好汤?   

  

  晚餐用的汤,美味的汤!”   

  

  美丽组库以《爱丽丝梦游仙境》中的同名诗命名。   

  

  爬取数据   

  

  接下来,我们使用urllib.request获取html内容,然后使用BeautifulSoup提取数据,从而完成一个简单的抓取。   

  

     

  

  urllib.request   

  

  将此代码保存为get_h   

tml.py,然后运行,看看输出了什么:

  

  

get_html.py

  

果然,输出了http://jr.jd.com 这个网页的全部HTML代码。

  

输出的代码简直无法直视,如何方便的找到我们想抓取数据呢?用Chrome打开url,然后按F12,再按Ctrl + Shift +

  

C。如果我们要抓导航栏,就用鼠标点击任意一个导航栏的项目,浏览器就在html中找到了它的位置。效果如下:

  

  

HTML代码

  

定位到的html代码:

  

  

html代码

  

有了这些信息,就可以用BeautifulSoup提取数据了。升级一下代码:

  

  

BeautifulSoup

  

把这段代码保存为get_data.py,然后运行,看看输出了什么:

  

  

get_data.py

  

没错,得到了我们想要的数据!

  

BeautifulSoup提供一些简单的、Python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。怎么样,是不是觉得只要复制粘贴就可以写爬虫了?简单的爬虫确实是可以的!

  

一个迷你爬虫

  

我们先定一个小目标:爬取网易云音乐播放数大于500万的歌单。

  

打开歌单的url: http://music.163.com/#/discover/playlist,然后用BeautifulSoup提取播放数   

class="nb">3715。结果表明,我们什么也没提取到。难道我们打开了一个假的网页?

  

动态网页

  

:所谓的动态网页,是指跟静态网页相对的一种网页编程技术。静态网页,随着html代码的生成,页面的内容和显示效果就基本上不会发生变化了――除非你修改页面代码。而动态网页则不然,页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。

  

值得强调的是,不要将动态网页和页面内容是否有动感混为一谈。这里说的动态网页,与网页上的各种动画、滚动字幕等视觉上的动态效果没有直接关系,动态网页也可以是纯文字内容的,也可以是包含各种动画的内容,这些只是网页具体内容的表现形式,无论网页是否具有动态效果,只要是采用了动态网站技术生成的网页都可以称为动态网页

  

现在我们明白了,这是一个动态网页,我们得到它的时候,歌单还没请求到呢,当然什么都提取不出来!

  

我们之前的技术不能执行那些让页面产生各种神奇效果的JavaScript

  

代码。如果网站的HTML页面没有运行JavaScript,就可能和你在浏览器里看到的样子完全不同,因为浏览器可以正确地执行JavaScript。用Python

  

解决这个问题只有两种途径:直接从JavaScript 代码里采集内容,或者用Python

  

的第三方库运行JavaScript,直接采集你在浏览器里看到的页面。我们当然选择后者。今天第一课,不深究原理,先简单粗暴的实现我们的小目标。

  

  

Selenium

  

:是一个强大的网络数据采集工具,其最初是为网站自动化测试而开发的。近几年,它还被广泛用于获取精确的网站快照,因为它们可以直接运行在浏览器上。Selenium

  

库是一个在WebDriver 上调用的API。WebDriver

  

有点儿像可以加载网站的浏览器,但是它也可以像BeautifulSoup对象一样用来查找页面元素,与页面上的元素进行交互(发送文本、点击等),以及执行其他动作来运行网络爬虫。安装方式与其他Python第三方库一样。

  

$pip install Selenium

  

验证一下:

  

  

Selenium

  

Selenium 自己不带浏览器,它需要与第三方浏览器结合在一起使用。例如,如果你在Firefox 上运行Selenium,可以直接看到一个Firefox

  

窗口被打开,进入网站,然后执行你在代码中设置的动作。虽然这样可以看得更清楚,但不适用于我们的爬虫程序,爬一页就打开一页效率太低,所以我们用一个叫PhantomJS的工具代替真实的浏览器。

  

PhantomJS

  

:是一个“无头”(headless)浏览器。它会把网站加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。把SeleniumPhantomJS

  

结合在一起,就可以运行一个非常强大的网络爬虫了,可以处理cookie、JavaScript、header,以及任何你需要做的事情。

  

PhantomJS并不是Python的第三方库,不能用pip安装。它是一个完善的浏览器,所以你需要去它的官方网站下载,然后把可执行文件拷贝到Python安装目录的Scripts文件夹,像这样:

  

  

Scripts文件夹

  

开始干活!

  

打开歌单的第一页:

  

http://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0

  

用Chrome的“开发者工具”F12先分析一下,很容易就看穿了一切。

  

  

html代码

  

播放数nb (number broadcast):29915

  

封面 msk (mask):有标题和url

  

同理,可以找到“下一页”的url,最后一页的url是“javascript:void(0)”。

  

最后,用18行代码即可完成我们的工作。

  

  

代码

  

把这段代码保存为get_data.py,然后运行。运行结束后,在程序的目录里生成了一个playlist.csv文件。

  

  

playlist.csv文件

  

看到成果后是不是很有成就感?如果你感兴趣,还可以按照这个思路,找找评论数最多的单曲,再也不用担心没歌听了!

  

需要免费获取本文章讲解的视频+源码,关注+转发此文然后私信我回复“音乐”即可领取资料,也欢迎大家和我一起交流学习Python,共同成长

  

今天的内容比较浅显,希望对你有用。就先介绍到这里,我们下期再见!