寻找海量数据集用于大数据开发实战(维基百科网站统计数据)

网友投稿 260 2022-11-27

寻找海量数据集用于大数据开发实战(维基百科网站统计数据)

欢迎访问我的GitHub

使用迅雷的批量下载功能

数据格式简介

经过漫长等待终于将数据下载下来了,打开看看里面内容,如下所示:

aa.b User_talk:Sevela.p 1 5786 aa.b Wikidata 1 4654 aa.b Wikiquote 1 4658 aa.b Wikiversity 1 4655 aa.d Main_Page 1 5449 aa.d Special:Log/Rschen7754 1 5589 aa.d Special:WhatLinksHere/User:Rschen7754 1 5168 aa.d User:14.99.4.25 1 4761 aa.d User:88.5.75.89 1 4760 aa.d User:95.27.0.82 1 4762

以第一行aa.b User_talk:Sevela.p 1 5786为例,这一行由空格字符分割成了四个字段:

内容 意义
aa.b 项目名称,".b"表示wikibooks
User_talk:Sevela.p 网页的三级目录
1 一小时内的访问次数
5786 一小时内被请求的字节总数

欢迎关注51CTO博客:程序员欣宸

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:微机EPP工作方式下的远距离并行数据采集
下一篇:深度剖析SGI STL二级空间配置器内存池源码
相关文章

 发表评论

暂时没有评论,来抢沙发吧~