使用Hive的正则解析器RegexSerDe分析nginx日志-APISpace

使用Hive的正则解析器RegexSerDe分析nginx日志

1、环境： hadoop-2.6.0 + apache-hive-1.2.0-bin 2、使用Hive分析nginx日志，站点的訪问日志部分内容为： cat /home/hadoop/hivetestdata/nginx.txt192.168.1.128 - - [09/Jan/2015:12:38:08 +0800] "GET /avatar/helloworld.png HTTP/1.1" 200 1521 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"183.60.212.153 - - [19/Feb/2015:10:23:29 +0800] "GET /o2o/media.html?menu=3 HTTP/1.1" 200 16691 "-" "Mozilla/5.0 (compatible; EasouSpider; +]*) ([^ ]*) ([^ ]*) (\[.*\]) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")于此同一时候我们能够在Hive中指定解析文件的序列化和反序列化解析器(SerDe)，而且在Hive中内置了一个org.apache.hadoop.hive.serde2.RegexSerDe正则解析器，我们能够直接使用它。3、建表语句 CREATE TABLE logs(host STRING,identity STRING,username STRING,time STRING,request STRING,status STRING,size STRING,referer STRING,agent STRING)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'WITH SERDEPROPERTIES ("input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\".*? \") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*? \")","output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s")STORED AS TEXTFILE;4、载入数据： load data local inpath '/home/hadoop/hivetestdata/nginx.txt' into table logs; 查询每小时的訪问量超过100的IP地址： select substring(time, 2, 14) datetime ,host, count(*) as count from logs group by substring(time, 2, 14), host having count > 100 sort by datetime, count;

c语言sscanf函数的用法是什么

251 2022-11-23

使用Hive的正则解析器RegexSerDe分析nginx日志

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

php怎么获取input输入的值

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）