网页爬虫
由于想免费看漫画,网页上看又不太方便,于是打算写个爬虫爬到本地,于是有了这篇blog
爬虫入门简介
为了入门,先介绍一下网络爬虫的基本流程,整体思路如下:
- 首先使用requests库打开url或者向目标网站发送相应的请求得到html文档或者数据。
- 然后使用浏览器去审计网页源码分析文档结构和各个元素节点。
- 使用解析html文档的工具去提取想要的内容,这里推荐使用Beautiful Soup库(或使用正则表达式去匹配)。
- 将所需要的数据以期望的形式存到本地磁盘或者数据库。
静态网页爬取
需要的库:requests、Beautiful Soup
目标网站:某盗版漫画网站
运行环境:Win10, python 3.7.4
首先用浏览器先去审计目标网页:
按F12进入开发者模式,可以看到我们需要的内容存在于这个class为showtxt的div标签:
我们使用如下代码自动化上述访问操作:
1 | import requests |