一节课教你用 python 搞定图片爬虫

—— 网站上看到了大量好看的图片再也不用右键另存为了

针对人群：

对python感兴趣的零基础的童靴
有一定基础想深入了解python的童靴

涉及知识：

网络爬虫的本质
http 协议
requests库

收获：
认识网络爬虫的本质，掌握爬虫的基本开发流程，了解互联网数据传输的基本原理。

理论知识

理论指导实践，知其然要知其所以然，我们先来学习必备的理论知识。

什么是爬虫

网络爬虫也叫网络蜘蛛，它特指一类自动批量下载网络资源的程序，这是一个比较口语化的定义。更加专业和全面的定义是：网络爬虫是伪装成客户端与服务端进行数据交互的程序。

口语化的定义相信大家都能理解，不能理解的童靴请自觉面壁！

但是后面的客户端，服务端肯定有童靴不理解了，这就涉及下一个概念了。

应用架构

商业应用推动了互联网的飞速发展，目前几乎所有的商业应用都是基于互联网的，它们一般采用c/s架构，b/s架构或m/s架构。

c/s 即 client server 客户端服务端
b/s 即 browser server 浏览器服务端
m/s 即 mobile server 移动端服务端

安装在用户电脑中的程序叫客户端，例如LOL，例如QQ，例如腾讯课堂等。

为客户端提供服务支持的，运行在服务厂商服务器中的程序叫服务端。

A用户在QQ中给B用户发送一条信息的过程是：

A发送的信息首先发送到服务器，服务器再将这个信息发送给B接收。

特别的，当客户端是浏览器时，我们单独作为一种架构叫做b/s架构，例如各种网站；

当客户端是移动端上的APP时，我们单独作为一种架构叫做m/s架构，例如各种手机APP。

所以:本质上b/s,m/s也是c/s的一种！

那客户端和服务端是如何进行通信的呢？(网络通信涉及物理层和应用层，我们这里讨论应用层！)

不同的客户端和不同服务端进行数据交互，为了统一大家制定了各种传输协议。

最开始每个团队设计的客户端和服务端之间的数据方式都不一样，为了提高开发效率和资源利用大家统一制定了各种应用传输协议。

例如：

http 超文本传输协议
ftp 文件传输协议
smtp 电子邮件传输协议

因为大多数爬虫都是爬取的网页中的信息，所以我们今天主要了解HTTP协议。

HTTP协议

http协议有厚厚一本书，今天我们讲主要流程，感兴趣的童靴听完课后就可以去收集资料钻研啦。

一个基于http协议的数据传输分为2个部分，请求和响应。

客户端向服务端发送一个http请求，服务端收到这个请求后根据请求进行处理，然后将结果以http响应的形式返回给客户端。

http请求

一个完整的HTTP请求报文包含：请求行，请求头，空行和请求数据。

下图给出了请求报文的一般格式。

# 例如请求百度首页的请求报文
b'GET / HTTP/1.0\r\nHost:www.baidu.com\r\n\r\n'

请求方法

根据http标准，http请求可以使用多种请求方法。

1.0定义了三种请求方法：GET，POST和HEAD方法

1.1新增了五种请求方法：OPTIONS，PUT，DELETE，TRACE和CONNECT方法。

最常用的请求方法是get和post。

简单来说，GET方法一般用来获取数据，或者将一些简短的数据放到URL参数中传递到服务器。比POST更加高效和方便。

post

由于GET方法最多在url中携带1024字节数据，且将数据放到URL中传递太不安全，数据量大时URL也会变得冗长。所以传递数据量大或者安全性要求高的数据的时候，最好使用POST方法来传递数据。

请求头

请求行下方则是请求报头，每个报头的形式如下：

报头名 + : + 值

常见请求头和作用如下：

名称	作用
Host	指定的请求资源的域名（主机和端口号）。HTTP请求必须包含HOST，否则系统会以400状态码返回。
User-Agant	简称UA，内容包含发出请求的用户信息，通常UA包含浏览者的信息，主要是浏览器的名称版本和所用的操作系统。这个UA头不仅仅是使用浏览器才存在，只要使用了基于HTTP协议的客户端软件都会发送，无论是手机端还是PDA等，这个UA头是辨别客户端所用设备的重要依据。
Accept	告诉服务器客户端可以接受那些类型的信息。
Cookie	Cookie信息。
Cache-Control	指定请求和响应遵循的缓存机制。在请求消息或响应消息中设置Cache-Control并不会修改另一个消息消息处理过程中的缓存处理过程。请求时的缓存指令包括no-cache、no-store、man-age、max-stake、min-fresh、only-if-cached；响应消息中的指令包括 public、privete、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age。
Referer	页面跳转处，表明产生请求的网页来自于哪个URL，用户是从该 Referer页面访问到当前请求的页面。这个属性可以用来跟踪Web请求来自哪个页面，是从什么网站来的。
Content-Type	来表示具体请求中的媒体类型信息,例如 text/html 代表 HTML 格式，image/gif 代表 GIF 图片，application/json 代表 Json 类型
Content-Length	内容长度。
Content-Range	响应的资源范围。可以在每次请求中标记请求的资源范围，在连接断开重连时，客户端只请求该资源未下载的部分，而不是重新请求整个资源，实现断点续传。迅雷就是基于这个原，使用多线程分段读取网络上的资源，最后再合并。
Accept-Encoding	指定所能接收的编码方式，通常服务器会对页面进行GZIP压缩后再输出以减少流量，一般浏览器均支持对这种压缩后的数据进行处理，但对于我们来说，如果不想接收到这些看似乱码的数据，可以指定不接收任何服务器端压缩处理，要求其原样返回。
Accept-Language	指浏览器可以接受的语言种类 en、en-us指英语 zh、zh-cn指中文。
Connection	客户端与服务器链接类型，keep-alive:保持链接，close:关闭链接。

请求数据

请求数据通常是使用POST方法进行发送的，GET方法是没有请求数据的。

请求数据跟上面的消息报头由一个空行隔开。

讲到这里，我们可以看出所谓的协议就是数据的统一组织格式。

http响应

一个完整的HTTP响应报文也由四个部分组成，分别是：状态行，消息报头，空行和响应正文。

响应状态码

当客户端向服务端发起一次请求后，服务端在返回的响应头中会包含一个HTTP状态码。

HTTP的状态码是由三位数字来表示的，由第一位数字来表示状态码的类型，一般来说有五种类型：

分类	分类描述
1**	信息，服务器收到请求，需要请求者继续执行操作
2**	成功，操作被成功接收并处理
3**	重定向，需要进一步的操作以完成请求
4**	客户端错误，请求包含语法错误或无法完成请求
5**	服务器错误，服务器在处理请求的过程中发生了错误

响应报头

状态行下方的就是响应报头。常见响应报头如下：

报头	功能描述
Allow	服务器支持哪些请求方法（如GET、POST等）。
Date	表示消息发送的时间，时间的描述格式由rfc822定义。例如，Date:Mon,31Dec200104:25:57GMT。Date描述的时间表示世界标准时，换算成本地时间，需要知道用户所在的时区。
Set-Cookie	非常重要的header, 用于把cookie发送到客户端浏览器，每一个写入cookie都会生成一个Set-Cookie。
Expires	指定 Response 的过期时间，从而不再缓存它，重新从服务器获取，会更新缓存。过期之前使用本地缓存。降低服务器负载，缩短加载时间。
Content-Type	WEB服务器告诉客户端自己响应的对象的类型和字符集。
Content-Encoding	文档的编码（Encode）方法。只有在解码之后才可以得到Content-Type头指定的内容类型。利用gzip压缩文档能够显著地减少HTML文档的下载时间。
Content-Length	指明实体正文的长度，以字节方式存储的十进制数字来表示。
Location	用于重定向一个新的位置，包含新的URL地址。表示客户应当到哪里去提取文档。
Refresh	表示浏览器应该在多少时间之后刷新文档，以秒计。

可以把一个http事务比作通过暗号打电话，客户端向服务端打电话接通后客户端先说话，服务端根据客户端的暗号选择回复内容。

http协议有一些特点：

HTTP是无连接的：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。
HTTP是媒体独立的：这意味着，只要客户端和服务器知道如何处理的数据内容，任何类型的数据都可以通过HTTP发送。客户端以及服务器指定使用适合的MIME-type内容类型。
HTTP是无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。

浏览器的工作原理

讲完HTTP协议之后，我们首先来简单了解一下浏览器的工作原理。

浏览器访问一个页面的流程如下：

在地址栏中键入网页的网址
浏览器会向这个网址所指向的服务器发起一个http请求
浏览器接受服务器返回的http响应
浏览器从上往下解析渲染响应回来的html文档
在解析渲染的过程中碰到其他资源浏览器继续向服务器发送请求
直到当前页面的所有资源全部下载回来

为了便于零基础的童靴理解，我简化了部分步骤

从这些流程中我们可以总结如下几点：

浏览器打开一个页面时所有的数据都是从服务下载回来的
浏览器打开一个页面第一个http请求下载的是网页的html文档
浏览器打开一个页面一般会发送多个http请求

网络资源

能够通过互联获取的网页，图片，视频，音频，其他文件等信息的集合。

爬虫的目标就是网络资源。网络那么大，怎么定位网络资源呢？如何用浏览器打开淘宝首页，下载某个文件？

url

URL（Uniform Resource Locator），中文叫统一资源定位符。是用来标识某一处网络资源的地址。

也即是我们常说的网址。以下面这个URL为例，介绍下普通URL的各部分组成：

现在基础知识我们已经学完了，可以开始进行实践了。

爬虫实践

开发流程

网络爬虫的本质就是模拟客户端发送请求，一个爬虫的基本开发流程包含五步：

明确目标数据
分析数据的请求流程
模拟发送请求
解析数据
数据持久化

1. 明确目标数据

我们要下载的是百度图片首页中的图片

网页中的图片是浏览器通过http请求下载回来的。

浏览器会先下载图片的url，再通过url下载图片。

所以我们只要找到图片url的http请求即可。

一般情况下，页面中的图片url就包含在页面的html文档中，使用谷歌浏览器开发者调试工具获取图片的url

然后右键查看网页源文件可以查看当前页面的html文档

ctrl+f调出搜索框，把前面找到的图片的url粘贴进来，果然发现了url就在html中

为了稳妥可以多找几张图片的url测试。发现页面中的前30张图片的url都在html文档中。

2.分析数据请求流程

分析请求流程的目的找到目标资源的http请求，根据前面学习的HTTP协议知识，分析请求流程的具体信息是：

请求方法
url
请求头
请求数据

1.1 工具

在HTTP协议中信息以二进制的形式进行传输的，我们需要借助工具来分析HTTP请求。常用工具有，谷歌浏览器和fiddler。

1.1.1 fiddler

fiddler的使用和安装相对复杂，谷歌浏览器可以满足大部分的请求流程分析，这里主要介绍谷歌浏览器。

1.1.2 谷歌浏览器

谷歌浏览器提供了开发者调试工具，能够对浏览器的HTTP请求进行监控，按功能键F12即可打开工具界面，功能窗口如下：

点击某个具体的请求后

我们这个案例中的请求就是网页的请求

请求方法： get
url：https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=000000
请求头：当前可以忽略
请求数据：无

3. 发送请求

分析清楚目标资源的请求过程后，就需要通过代码模拟发送请求。

通过socket发送HTTP请求

from socket import socket
# 创建客户端
client = socket()
# 连接百度服务器 域名 端口
client.connect(('www.baidu.com', 80))
# 构造http请求报文
data = b'GET / HTTP/1.0\r\nHost: www.baidu.com\r\n\r\n'
# 发送报文
client.send(data)

res = b''
# 接收响应数据
temp = client.recv(1024)
print('*' * 100)
while temp:
    res += temp
    temp = client.recv(1024)
print(res)

工具库

上面我们通过使用socket实现了一个非常简单的请求的发送，可以看到代码比较复杂，如果需要传递更多信息，处理起来会更繁琐，费时费力。python提供了很多的库，将发送HTTP请求的细节进行了封装，只需要进行简单的调用就可以实现各种http请求的发送，常用的库有：

urllib urllib 是一个用来处理网络请求的python标准库
urllib3 urllib3 是一个基于python3的功能强大，友好的http客户端。越来越多的python应用开始采用urllib3.它提供了很多python标准库里没有的重要功能。
requests 牛逼

使用requests发送请求

import requests
res = requests.get('http://www.baidu.com')  # 发送请求，并接收响应
print(res.content)  # 输出响应数据

4.解析数据

响应正文及响应数据一般分为两大类，文本数据和二进制数据。

其中文本数据又分为html和json（注：主要指爬虫目标数据，js，css等也属于文本数据）。

二进制数据主要指各种音频，视频，其他文件等。

对于二进制数据一般不需要特殊处理。

html解析

今天的案例数据包含在html文档中，所以需要解析html

解析html的常用方法有两种：

正则表达式
html解析库

5.数据持久化

爬虫爬取到的数据需要存储起来，对于少量的数据，生成相应的文件，例如excel，cvs等。

对于图片，视频等二进制文件也是以文件的形式保存。

如果要保存大量的文本信息，例如商品信息，订单信息等，就需要存储到数据库中。

代码

import re
import requests
# 1. 明确目标数据
'''
浏览器先下载图片的url再下载图片
有30张图片在百度图片搜索页面的html文档中
'''
# 2. 分析目标http请求
'''
浏览器打开一个网页时第一次请求回来的数据就是网页的html，一般是get请求
浏览器地址栏中的url就是这个html的url
url = https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&\
ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=111111
'''
# 3. 模拟发送http请求,下载html
url = 'https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&\
ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=111111'
response = requests.get(url)
# 4. 解析数据,解析页面中的图片urls
html = response.text
img_urls = re.findall('"thumbURL":"(.*?)"', html)

# 5. 数据持久化，下载图片并保存

for index, img_url in enumerate(img_urls):
    img_res = requests.get(img_url)
    with open('{}.jpg'.format(index), 'wb') as f:
        f.write(img_res.content)
    print(index, img_url)

测试派 Give testers a home.