Python 抓取网页的库和工具

网友投稿 209 2022-08-31

Python 抓取网页的库和工具

Twisted

抓网页,它有优秀的非同步事件驱动的架构,常见的协定都已经有实做,包括HTTP、SMTP等等

getPage("getNextPageLink(self, tree):

"""Get next page link

@param tree: tree to get link

@return: Return url of next page, if there is no next page, return None

"""

paging = tree.xpath("//span[@class='paging']")

if paging:

links = paging[0].xpath("./a[(text(), '%s')]" % self.localText['next'])

if links:

return str(links[0].get('href'))

return None

listPrice = tree.xpath("//*[@class='priceBlockLabel']/following-sibling::*")

if listPrice:

detail['listPrice'] = self.stripMoney(listPrice[0].text)

使用的工具

FireFox的插件,XPath checker等xpath的工具,可以先用它来确定抓到的元素是正确的,然后FireBug在检视网页结构

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:D语言排名持续升上升
下一篇:马龙全程不败山东鲁能仍丢冠,梁靖崑直通休斯敦!(马龙转会鲁能)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~