Python爬虫（学习准备）（爬虫python入门教程）-APISpace

Python爬虫（学习准备）（爬虫python入门教程）

编码格式的认识：

字符：各种文字和符号的统称

字符集：多个字符的集合

字符集包括：ASCII字符集，GB2312字符集，GB18030，Unicode字符集等

1个字符ASCII编码占1个字节，用Unicode编码占2个字节

UTF-8是Unicode的实习方式之一，是一种变长的编码方式，可以是1,2,3个字节等

在Python中字符串分为两种类型：

bytes：二进制，互联网上数据都是以二进制传输

str：unicode的呈现方式

str与bytes的转换：

encode（）　　#str->bytes

decode（）　　#bytes->str

a = '华南理工大学广州学院'

print(type(a))　　#

b = a.encode()　　#参数不填默认utf-8编码

print(b)　　

print(type(b))　　#

a = b.decode('utf-8')

print(a)　　#华南理工大学广州学院

cookie和session区别：

cookie数据存放在客户的浏览器上，session数据放在服务器上。

cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗

session会在一定时间内保存在服务器。当访问增多，会比较占服务器性能

单个cookie保存的数据不能超过4k，很多浏览器都限制一个站点最多保存20个cookie

Http和Https：

Http

超文本传输协议

默认端口号：80

Https

Http + ssl（安全套接字层）

默认端口号：443

Https比http更安全，但是性能更低（耗时更长）

Url的形式：

http请求格式：

http常见请求头：

常见响应状态码：

200：成功

302：转移至新的url

307：转移至新的url

404：not found

500：服务器内部错误

爬虫的分类：

通用爬虫：通常指搜索引擎的爬虫

聚焦爬虫：针对特定网站的爬虫

通用爬虫与聚焦爬虫的流程：

Robots协议：

网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取

浏览器发送Http请求的过程：

浏览器渲染出来的页面与爬虫请求的页面不一样

一、Python爬虫-认识爬虫（爬虫python是啥）

302 2022-08-07

Python爬虫（学习准备）（爬虫python入门教程）

爬虫基本原理（昆虫爬行原理）

来自一位资深Python大佬对爬虫的总结（Python爬虫笔记）

一、Python爬虫-认识爬虫（爬虫python是啥）

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）