白话空间统计番外四:轨迹特征分析实例 2016年9月9日 12:44

网友投稿 256 2022-09-23

白话空间统计番外四:轨迹特征分析实例 2016年9月9日 12:44

前面的话:

本文是近期对空间聚类和特征分析研究的总结性文档之一,有对这些算法有兴趣的同学,可以与我联系,另外如果有同学做毕业论文想做相关思路的,也可以与我联系,我可以以企业导师的身份进行指导,具体的要求,联系时候会详述。

—————————————————我是分割线———————————————————

车辆的的轨迹数据是车辆行驶的客观记录,轨迹中虽然仅仅包含了最基础的位置以及时间信息,但是通过这些信息,可以发掘大量有关车辆以及驾驶员的特征,这篇文章就通过一个简单的分析,来简单说明一下通过车辆轨迹数据进行数据挖掘的实例。

首先,先看看车辆的轨迹数据是什么样子的,下面是一份北京市某公司的旅游大巴车辆一天24小时的轨迹数据(当然,真实的GPS数据还会有一些其他的信息,但是这里仅保留最简单的空间和时间数据),如下:

其中,cid是车辆的编号,time是记录的时间,x和y分别是经度和纬度,一共抽取了三辆汽车的数据进行测试。

一般说来,车辆轨迹位置特征可以对应于点数据的分析模式来看,但是车辆的行驶特征,挂上了行驶二字,单独一个点就没有啥意义了,就变成了点与点之间连线成若干个连续线段的轨迹线数据了。而线的特征,主要就是长度和方向,所以行驶特征类推出来,无非就是行车的速度和行车的方向,速度这个问题好理解,但是如何来对速度数据进行特征化,这一直是一个问题。

对于统计学家来说,经常用的无非就是最高、最低、平均这样的描述信息,但是这种对全部信息总体性描述,虽然能够反映部分特征,但是未免有些简单粗暴。所以这次我们使用一个比综合性统计数据更为效果好一些的分布性描述数据来进行分析挖掘。

如下面是三辆不同的车的轨迹数据,我们将它绘制地图上:分别标记为b1、b2和b3。

从上面的轨迹可以看出,b2中间有一大段数据丢失了,因为轨迹数据是连续的,所以很容易通过内插等方法进行补全。但是就算补全了,里面还留下了一个问题:每一辆车每天行驶的里程数是不同的,所以所留下来的数据也是不同的。

如何通过这样的一份数据对车辆行驶的特征进行识别呢?

首先,自然就是速度了,速度的计算非常容易,无非就是两个点之间的距离间隔除以时间间隔,虽然轨迹数据肯定会出现间断或者丢失,就算经过处理之后,还是会有一定的精度丢失……那么用什么方法让这种精度丢失的影响在我们的计算中最小呢?

很简单,分成若干类别就好。分类之后,没一个点的具体数值就变成了一个区间值,所受的影响就降低很多了。

但是分类需要有先验条件,要有具体的分类标准才行,如何去找这些是条件是比较麻烦,所以这里就采用更优化的一种方式:聚类分析。

关于聚类分析的算法这里就不表述了,网络上各种文献里面汗牛充栋。大家有兴趣的自己去查,算法牛人们也可以自己去实现,我这里就偷个懒,直接用R语言提供的k-means算法直接进行聚类了。

利用聚类算法,把整个轨迹数据分为5类,结果如下:

通过行车速度进行聚类之后,明显可以看出,b1和b3(b3的大部分区域)的颜色混杂比较严重,这样就说明了他们的速度变化得比较明显(也就是不够均衡),而b2点之间的颜色变化相对比较少,就说明了b2的车速相对比较均衡。

这样仅仅是定睛一看的话,有些主观因素在里面(当然,经验也是很重要的判断依据),不够对于统计来说,少了量化结果,多多少少就给人不专业的感觉。

所以,下面我们来进行量化对比。

速度如何进行量化对比?他们的区域不一样,留下的点数也不一样……为了让它们能够在一个尺度上进行比较,最简单方式,就是利用不同速度的密度分布情况进行对比。

那么我们把三辆车的速度密度分布先计算出来,结果如下:

主要密度带宽为0.5的时候,结果如上,可以看见,0附件的数据最多,因为旅游车辆的特征与出租车不一样,出租车一天大部分时间都在路上运行,而旅游包车大部分时间都在停车。这样看起来,整个分布好像差不多,我们放大一个细节部分看看,比如10-20这个区间。

结果也可以看出,b1和b3的分布波动比较大,而b2的分布波动相对均衡。

这样还是定睛一看,下面我们通过perrson相似度系数来对这三个数据进行计算如下:

b1与b3的速度密度分布相似系数高达0.79,而他们两个与b2的相关系数都小于0.01。

下面我们对行车的方向进行密度分布分析,结果如下:

从行车角度上来看,三辆车的高峰,都在0度附件,有所不同的是b2与b3在0度位置的分布要远高与b1,而b3在-90度(北向南)方向,和-45度(东南方向)有明显的聚集。

然后同样对密度分布进行相似性计算,如下:

可以看出,b2与b3的相似性高于他们与b1的相似性。

最后得出来的结果,就是b1和b2所运行的区域交通特征大致相似(速度分布差不多),而b1和b3的行驶方向大致相似。

总结一下,以上两种方法,主要是通过对速度和行车角度的密度分布进行对比,将密度分布作为行驶特征来进行提取。

当然,还有更多的行驶特征可以提取,以后会逐一说明。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:DoMarketing-营销智库:陈奕迅入驻抖音,完成了一场“二次出道”!
下一篇:又见thrift异常之TApplicationException: Internal error processing..
相关文章

 发表评论

暂时没有评论,来抢沙发吧~