一、Python爬虫-认识爬虫（爬虫python是啥）-APISpace

一、Python爬虫-认识爬虫（爬虫python是啥）

爬虫是什么：

爬取互联网上的信息

数据挖掘->数据清洗（得到有效的信息）

爬虫分类：

通用爬虫：是搜索引擎抓取系统（百度，谷歌）的重要组成，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份

抓取网页 -> 数据存储 -> 预处理 -> 提供检索，网站排名

聚焦爬虫：是"面向特定主体需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息

1|1请求和响应

前端：网页展现

中间层：数据处理

数据库：数据存储

服务器（响应）客户端（请求）

1|2URL

（Uniform/Universal Resource Locator）：统一资源定位符，是用于完整地描述Internet上网页和其他资源的地址的一种标识方法

基本格式：scheme://host[:port#]/path/.../[?query-string][#anchor]

scheme：协议

host：服务器的IP地址或者域名

port#：服务器的端口（如果是走协议默认端口，缺省端口80）

query-string：参数，发送给http服务器的数据

anchor：锚（跳转到网页的指定锚点位置）

1|3GET请求和POST请求

Get是从服务器上获取数据，Post是向服务器传输数据，Post更加安全

Get请求：参数显示都显示在浏览器网址上，HTTP服务器根据该请求所包含的URL中的参数来产生响应内容，即"Get"请求的参数是URL的一部分

Post请求：参数在请求体当中，消息长度没有限制而且以隐式的方式进行发送，通常用来向HTTP服务器提交量比较大的数据，请求参数包含在"Content-Type"消息头里，指明该消息体的媒体类型和编码

1|4浏览器开发者工具

按下F12，进入开发者模式；

__EOF__

C# 实现向指定邮箱发送信息功能（曹海涛）

361 2022-08-21

一、Python爬虫-认识爬虫（爬虫python是啥）

爬虫基本原理（昆虫爬行原理）

来自一位资深Python大佬对爬虫的总结（Python爬虫笔记）

C# 实现向指定邮箱发送信息功能（曹海涛）

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）