简单的爬虫 | BB's blog

网页爬虫

由于想免费看漫画，网页上看又不太方便，于是打算写个爬虫爬到本地，于是有了这篇blog

爬虫入门简介

为了入门，先介绍一下网络爬虫的基本流程，整体思路如下：

首先使用requests库打开url或者向目标网站发送相应的请求得到html文档或者数据。
然后使用浏览器去审计网页源码分析文档结构和各个元素节点。
使用解析html文档的工具去提取想要的内容，这里推荐使用Beautiful Soup库（或使用正则表达式去匹配）。
将所需要的数据以期望的形式存到本地磁盘或者数据库。

静态网页爬取

需要的库：requests、Beautiful Soup
目标网站：某盗版漫画网站
运行环境：Win10, python 3.7.4

首先用浏览器先去审计目标网页:

按F12进入开发者模式，可以看到我们需要的内容存在于这个class为showtxt的div标签：

我们使用如下代码自动化上述访问操作：

import requests

if __name__ == '__main__':
    target = 'http://www.biqukan.com/1_1094/5403177.html'
    req = requests.get(url=target)
    # print(req.text)
    bf = BeautifulSoup(html)
    texts = bf.find_all('div', class_ = 'showtxt') print(texts)