细说小白学python爬虫过程中常见的反爬措施及解决思路（干货）（python爬虫的原理以及步骤）-APISpace

细说小白学python爬虫过程中常见的反爬措施及解决思路（干货）（python爬虫的原理以及步骤）

最近有很多朋友和我讨论python爬虫遇到的反爬措施及解决办法，今天我就给大家分享一下自己在爬虫过程中遇到的坑及解决思路，希望对大家有所帮助。

看不见的反爬措施

一是加header头部信息：

什么是header头？以火狐浏览器为例，右键—查看元素—进入网络界面，然后输入https://baidu.com进入百度主页：

红框内的部分就是该次请求的header头，服务器可以根据header头判断该次请求是由哪种浏览器（User-Agent）发起、访问的目标链接是从哪个网页跳转过来的（Referer）以及服务器地址（Host）。

1.加User-Agent值：

如果不加header头，部分网站服务器判断不到用户的访问来源，所以会返回一个404错误来告知你是一个爬虫，拒绝访问，解决办法如下：

这样服务器就会把用户当做浏览器了。建议每次爬虫都把User-Agnet头加上，起码是对人家网站的尊重

2.加Referer值

这类反爬网站也很常见，例如美团，仅仅加User-Agnet还是返回错误信息，这时就要把Referer值也加到头部信息中：

这样就会返回正常网页了。

3.加Host值

根据同源地址判断用户是否为爬虫，解决办法为：

4.加Accept值

之前遇到过这种网站，我加了一圈header头部信息才成功，最后发现是需要加Accept值，这类反爬措施的解决办法为：

关于header头的反爬，建议在加上User-Agent失败之后，就把所有头部信息加上，最后用排除法选出到底是哪个值。

二是限制IP的请求数量：

这种就更常见了，大部分网站都有此类反爬措施，也就是说网站服务器会根据某个ip在特定时间内的访问频率来判断是否为爬虫，然后把你把你拉进“黑名单”，素质好的给你返回403或者出来个验证码，素质不好的会给你返回两句脏话。此种情况有两种解决办法：

①降低爬虫请求速率，但是会降低效率；

②添加代理ip，代理ip又分为付费的和不要钱的，前者比较稳定，后者经常断线。

添加格式为：

三是Ajax动态请求加载：

这类一般是动态网页，无法直接找到数据接口，以某易新闻网站为例：

我想爬取该网页内的新闻图片，发现它的网页url一直不变，但是下拉网页的时候会一直加载图片，那么我们该怎么办呢？

首先按照开头方式打开流量分析工具

点击左上角“垃圾桶”图标清空缓存，然后下拉新闻网页：

会出现一大堆东西，但是不用慌，我们可以根据类型去寻找，一般图片信息肯定实在html、js或json格式的文件中，一个一个点进去看看，很快就找到了结果：

结果中把callback去掉之后就是个json文件，它的url为：

红线处为变量，02代表第2页，这样就找到图片接口啦。

看的见的反扒措施

一是登录才有数据，比如某查查：

这种一般有三种解决办法，一是requests模拟登录，但是会有参数加密的问题和验证码的问题，有点难；二是selenium模拟登录，要解决验证码的问题；三是手动登录后获取cookie，在requests中加入cookie，这种方法比较简单，但是受cookie有效期的限制，要经常更换cookie。

关于验证码的问题，我很头大，因为验证码实在是种类太多了，而且还很变态，例如下图:

我用眼都很难瞅出来，程序就更难说了，索性直接用打码网站，价格不贵，准确率又低。

二是限制网页返回数据条数：

例如微博评论，最多只能返回50页的评论数据，这种反扒措施暂时没有好的解决办法，除非能找到特殊接口。

三是多次验证：

例如12306网站，用requests实现自动抢票时，浏览器会和服务器进行多次交互验证，有的验证虽然不返回任何数据，但是还必须要有，否则下一个url的请求就会出错。

四是网站数据加密：

也就是说网站服务器返回的数据经过某种加密算法进行加密，这个时候你就要学习前端知识了，因为加密方式一般都隐藏在JavaScript代码中，如果你学会这一技能，基本可以应聘爬虫工程师的岗位了。

五是APP数据：

没有网页数据，例如二手交易平台某鱼

爬这类数据一般有两种方法：一是边爬边处理，即用appium模拟点击滑动手机界面，然后用mitmdump在后端监测并保存数据，这种方法比较简单；二是做逆向分析，这个过程是很难的，目前这部分知识小编也正在学习中，希望有机会能和大家一起交流。

以上都是我在爬虫实践中遇到的一些反爬措施，希望能对大家的爬虫学习之路起到抛砖引玉的作用。

看不见的反爬措施

一是加header头部信息：

什么是header头？

以火狐浏览器为例，右键—查看元素—进入网络界面，然后输入https://baidu.com进入百度主页：

红框内的部分就是该次请求的header头，服务器可以根据header头判断该次请求是由哪种浏览器（User-Agent）发起、访问的目标链接是从哪个网页跳转过来的（Referer）以及服务器地址（Host）。1.加User-Agent值：

如果不加header头，部分网站服务器判断不到用户的访问来源，所以会返回一个404错误来告知你是一个爬虫，拒绝访问，解决办法如下：

这样就会返回正常网页了。3.加Host值

根据同源地址判断用户是否为爬虫，解决办法为：

4.加Accept值

之前遇到过这种网站，我加了一圈header头部信息才成功，最后发现是需要加Accept值，这类反爬措施的解决办法为：

关于header头的反爬，建议在加上User-Agent失败之后，就把所有头部信息加上，最后用排除法选出到底是哪个值。二是限制IP的请求数量：这种就更常见了，大部分网站都有此类反爬措施，也就是说网站服务器会根据某个ip在特定时间内的访问频率来判断是否为爬虫，然后把你把你拉进“黑名单”，素质好的给你返回403或者出来个验证码，素质不好的会给你返回两句脏话。此种情况有两种解决办法：

①降低爬虫请求速率，但是会降低效率；②添加代理ip，代理ip又分为付费的和不要钱的，前者比较稳定，后者经常断线。

添加格式为：

三是Ajax动态请求加载：

这类一般是动态网页，无法直接找到数据接口，以某易新闻网站为例：

我想爬取该网页内的新闻图片，发现它的网页url一直不变，但是下拉网页的时候会一直加载图片，那么我们该怎么办呢？首先按照开头方式打开流量分析工具

点击左上角“垃圾桶”图标清空缓存，然后下拉新闻网页：

结果中把callback去掉之后就是个json文件，它的url为：

红线处为变量，02代表第2页，这样就找到图片接口啦。看的见的反扒措施一是登录才有数据，比如某查查：

这种一般有三种解决办法，一是requests模拟登录，但是会有参数加密的问题和验证码的问题，有点难；二是selenium模拟登录，要解决验证码的问题；三是手动登录后获取cookie，在requests中加入cookie，这种方法比较简单，但是受cookie有效期的限制，要经常更换cookie。关于验证码的问题，我很头大，因为验证码实在是种类太多了，而且还很变态，例如下图:

我用眼都很难瞅出来，程序就更难说了，索性直接用打码网站，价格不贵，准确率又低。二是限制网页返回数据条数：

例如微博评论，最多只能返回50页的评论数据，这种反扒措施暂时没有好的解决办法，除非能找到特殊接口。

三是多次验证：

四是网站数据加密：

也就是说网站服务器返回的数据经过某种加密算法进行加密，这个时候你就要学习前端知识了，因为加密方式一般都隐藏在JavaScript代码中，如果你学会这一技能，基本可以应聘爬虫工程师的岗位了。五是APP数据：

没有网页数据，例如二手交易平台某鱼

爬这类数据一般有两种方法：一是边爬边处理，即用appium模拟点击滑动手机界面，然后用mitmdump在后端监测并保存数据，这种方法比较简单；二是做逆向分析，这个过程是很难的，目前这部分知识小编也正在学习中，希望有机会能和大家一起交流。以上都是我在爬虫实践中遇到的一些反爬措施，希望能对大家的爬虫学习之路起到抛砖引玉的作用。

c语言sscanf函数的用法是什么

384 2022-08-18

细说小白学python爬虫过程中常见的反爬措施及解决思路（干货）（python爬虫的原理以及步骤）

c语言sscanf函数的用法是什么

php怎么获取input输入的值

r语言怎么删除数据表某一个数据

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）