Python 抓取网页的库和工具

网友投稿 252 2022-08-31

Python 抓取网页的库和工具

Twisted

抓网页，它有优秀的非同步事件驱动的架构，常见的协定都已经有实做，包括HTTP、SMTP等等

getPage("getNextPageLink(self, tree):

"""Get next page link

@param tree: tree to get link

@return: Return url of next page, if there is no next page, return None

"""

paging = tree.xpath("//span[@class='paging']")

if paging:

links = paging[0].xpath("./a[(text(), '%s')]" % self.localText['next'])

if links:

return str(links[0].get('href'))

return None

listPrice = tree.xpath("//*[@class='priceBlockLabel']/following-sibling::*")

if listPrice:

detail['listPrice'] = self.stripMoney(listPrice[0].text)

使用的工具

FireFox的插件，XPath checker等xpath的工具，可以先用它来确定抓到的元素是正确的，然后FireBug在检视网页结构

标签：工具

linux cpu占用率如何看

252 2022-08-31

宝塔数据库如何清理缓存

252 2022-08-31

oracle怎么创建存储过程

252 2022-08-31

发表评论

暂时没有评论，来抢沙发吧~

Python 抓取网页的库和工具

linux cpu占用率如何看

宝塔数据库如何清理缓存

oracle怎么创建存储过程

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）