c语言sscanf函数的用法是什么
287
2022-09-01
通过Python抓取天猫评论数据
天气逐渐寒冷,觉得应该给自己添加几件保暖的衣服了,于是想到了天猫,搜寻了一番,觉得南极人的保暖内衣还是不错的。到低怎么选择这么多的衣服呢?我一般选择按销量排序,毕竟销量也能侧面反映商品的受欢迎度和口碑状况,所以我来到了这个页面= re.I);
上菜:
# 导入所需的开发模块
import requests
import re
# 创建循环链接
urls = []
for i in list(range(1,100)):
urls.append('%i)
# 构建字段容器
nickname = []
ratedate = []
color = []
size = []
ratecontent = []
# 循环抓取数据
for url in urls:
content = requests.get(url).text
# 借助正则表达式使用findall进行匹配查询
nickname.extend(re.findall('"displayUserNick":"(.*?)"',content))
color.extend(re.findall(re.compile('颜色分类:(.*?);'),content))
size.extend(re.findall(re.compile('尺码:(.*?);'),content))
ratecontent.extend(re.findall(re.compile('"rateContent":"(.*?)","rateDate"'),content))
ratedate.extend(re.findall(re.compile('"rateDate":"(.*?)","reply"'),content))
print(nickname,color)
# 写入数据
file = open('南极人天猫评价.csv','w')
for i in list(range(0,len(nickname))):
file.write(','.join((nickname[i],ratedate[i],color[i],size[i],ratecontent[i]))+'\n')
file.close()
最终呈现的爬虫结果如下:
今天的爬虫部分就介绍到这里,本次的分享目的是如何解决网页信息的异步存储。在之后的分享中我将针对这次爬取的评论数据进行文本分析,涉及到切词、情感分析、词云等。
每天进步一点点2015
学习与分享,取长补短,关注小号!
长按识别二维码 马上关注
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~