python爬虫--图片懒加载（图片懒加载代码）-APISpace

python爬虫--图片懒加载（图片懒加载代码）

图片懒加载

是一种反爬机制,图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求数的技术就被称为“图片懒加载”。

如何实现图片懒加载技术

在网页源码中，在img标签中首先会使用一个“伪属性”（通常使用src2，original…）去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载。

案例

爬取站长之家的图片素材

import scrapy

import requests

headers={

'USER_AGENT':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'

}

class ImgzzSpider(scrapy.Spider):

name = 'imgzz'

start_urls = ['http://sc.chinaz.com/tupian/']

def parse(self, response):

src = response.xpath('//*[@id="container"]/div/div[1]/a/img/@src').extract()

print(src) # 打印结果为空,这里的图片属性就应用的图片懒加载技术,其实图片的真正的src不是图片真正的属性

for url in src:

name = url.split('/')[-1]

img = requests.get(url=url,headers=headers).content

with open(name,'wb') as f:

f.write(img)

分析:

正常访问时:

这样直接写xpath表达式定位标签的话获取的值为空

当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载。通过js来完成对图片属性的替换

import scrapy

import requests

headers={

'USER_AGENT':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'

}

class ImgzzSpider(scrapy.Spider):

name = 'imgzz'

start_urls = ['http://sc.chinaz.com/tupian/']

def parse(self, response):

src = response.xpath('//*[@id="container"]/div/div[1]/a/img/@src2').extract() #改为图片的真正属性

print(src)

for url in src:

name = url.split('/')[-1]

img = requests.get(url=url,headers=headers).content

with open(name,'wb') as f:

f.write(img)

pyqt怎么给button设置背景图片

483 2022-07-30

python爬虫--图片懒加载（图片懒加载代码）

qt怎么将按钮设为图片

pyqt怎么给button设置背景图片

python怎么提取图片文字

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）