01-大规模异步新闻爬虫：简单的新闻爬虫-APISpace

01-大规模异步新闻爬虫：简单的新闻爬虫

你好，我是悦创。

因为 CSDN 的限制：

这个实战例子是构建一个大规模的异步新闻爬虫，但要分几步走，从简单到复杂，循序渐进的来构建这个 Python 爬虫。

要抓取新闻，首先得有新闻源，也就是抓取的目标网站。国内的新闻网站，从中央到地方，从综合到垂直行业，大大小小有几千家新闻网站。百度新闻（news.baidu.com）收录的大约两千多家。那么我们先从百度新闻入手。

打开百度新闻的网站首页：news.baidu.com

我们可以看到这就是一个新闻聚合网页，里面列举了很多新闻的标题及其原始链接。如图所示：

我们的目标就是从这里提取那些新闻的链接并下载。流程比较简单：

根据这个简单流程，我们先实现下面的简单代码：

#!/usr/bin/env python3# Author: veelion

332 2022-11-19

01-大规模异步新闻爬虫：简单的新闻爬虫