网页爬虫

由于想免费看漫画,网页上看又不太方便,于是打算写个爬虫爬到本地,于是有了这篇blog

爬虫入门简介

为了入门,先介绍一下网络爬虫的基本流程,整体思路如下:

  • 首先使用requests库打开url或者向目标网站发送相应的请求得到html文档或者数据。
  • 然后使用浏览器去审计网页源码分析文档结构和各个元素节点。
  • 使用解析html文档的工具去提取想要的内容,这里推荐使用Beautiful Soup库(或使用正则表达式去匹配)。
  • 将所需要的数据以期望的形式存到本地磁盘或者数据库。

静态网页爬取

需要的库:requests、Beautiful Soup
目标网站:某盗版漫画网站
运行环境:Win10, python 3.7.4

首先用浏览器先去审计目标网页:

按F12进入开发者模式,可以看到我们需要的内容存在于这个class为showtxt的div标签:

我们使用如下代码自动化上述访问操作:

1
2
3
4
5
6
7
8
import requests

if __name__ == '__main__':
target = 'http://www.biqukan.com/1_1094/5403177.html'
req = requests.get(url=target)
# print(req.text)
bf = BeautifulSoup(html)
texts = bf.find_all('div', class_ = 'showtxt') print(texts)