通过Python抓取天猫评论数据

网友投稿 287 2022-09-01

通过Python抓取天猫评论数据

天气逐渐寒冷,觉得应该给自己添加几件保暖的衣服了,于是想到了天猫,搜寻了一番,觉得南极人的保暖内衣还是不错的。到低怎么选择这么多的衣服呢?我一般选择按销量排序,毕竟销量也能侧面反映商品的受欢迎度和口碑状况,所以我来到了这个页面= re.I);

上菜:

# 导入所需的开发模块

import requests

import re

# 创建循环链接

urls = []

for i in list(range(1,100)):

urls.append('%i)

# 构建字段容器

nickname = []

ratedate = []

color = []

size = []

ratecontent = []

# 循环抓取数据

for url in urls:

content = requests.get(url).text

# 借助正则表达式使用findall进行匹配查询

nickname.extend(re.findall('"displayUserNick":"(.*?)"',content))

color.extend(re.findall(re.compile('颜色分类:(.*?);'),content))

size.extend(re.findall(re.compile('尺码:(.*?);'),content))

ratecontent.extend(re.findall(re.compile('"rateContent":"(.*?)","rateDate"'),content))

ratedate.extend(re.findall(re.compile('"rateDate":"(.*?)","reply"'),content))

print(nickname,color)

# 写入数据

file = open('南极人天猫评价.csv','w')

for i in list(range(0,len(nickname))):

file.write(','.join((nickname[i],ratedate[i],color[i],size[i],ratecontent[i]))+'\n')

file.close()

最终呈现的爬虫结果如下:

今天的爬虫部分就介绍到这里,本次的分享目的是如何解决网页信息的异步存储。在之后的分享中我将针对这次爬取的评论数据进行文本分析,涉及到切词、情感分析、词云等。

每天进步一点点2015

学习与分享,取长补短,关注小号!

长按识别二维码 马上关注

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Python数据分析之pandas学习(二)
下一篇:从零开始学Python【4】--pandas(序列部分)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~