2024年4月20日发(作者:)
2015年3月
March, 2015
第17卷 第4期
第56页
Land & Resources Herald
国 土 资 源 导 刊
Land & Resources Herald
第12卷 第1期
第56页
2020年12月
Dec.,
2020
文章编号:1672-5603(2020)04-56-9
基于个人轨迹的出行模式识别
*
陈建军
1*
,黄啟抒
2,3
,陈子晗
2,3
,万义良
2,3
(1.湖南工程职业技术学院,湖南 长沙 410151; 2.湖南师范大学资源与环境科学学院,湖南 长沙 410081;
3.地理空间大数据挖掘与应用湖南省重点实验室,湖南 长沙 410081)
摘 要
本文在大量GPS轨迹数据基础之上,分别运用C4.5决策树、支持向量机和随机森林三种机器
学习算法识别了交通出行方式(包括步行、自行车、公交车、小汽车和地铁),实现基于轨迹数据的出行
模式识别。首先,对轨迹数据预处理,利用时空聚类算法从离散的GPS点数据中获取停驻信息,进而提
取出行段数据。其次,利用时间和坐标数据计算出行段的特征参数,包括距离、时长、平均速度、速度的
95分位数、速度方差、平均加速度和最大加速度。最后,通过机器学习识别出行方式,并对三种不同算
法的识别精度进行了评估。结果表明:基于速度的特征参数的区分效果显著,总时长和总距离有助于非机
动车与机动车的区分以及步行与自行车的区分;C4.5决策树算法的精度为73%,支持向量机算法的精度
为78%,随机森林算法的分类效果最优,准确率达到了80%以上。
关
键词
GPS数据;轨迹数据;出行模式识别;机器学习
中图分类号:TP311 文献标识码:A
Travel Mode Recognition Based on Personal Trajectory Data
Chen Jianjun
1
, Huang Qishu
2,3
, Chen Zihan
2,3
, Wan Yiliang
2,3
(1. Hunan Vocational College of Engineering, Changsha Hunan 410151; 2. College of Resources and
Environmental Sciences, Hunan Normal University, Changsha Hunan 410081; 3. Key Laboratory of Geospatial
Big Data Mining and Application, Hunan, Changsha Hunan 410081)
Abstract: In order to identify travel modes (walk, bike, bus, car and subway) and extract travel
information from trajectory data, three machine learning algorithms including C4.5 decision tree,
support vector machine and random forest are adopted to analysis massive trajectory data. Firstly, the
trajectory data are preprocessed and the space-time cluster method is applied to detect the travelers’
residence information based on the discrete GPS point data. Based on the information the travel
segments are extracted. Secondly, based on temporal information and coordinate data, the characteristic
parameters of the travel segment are calculated, including distance, time interval, average speed, 95th
quantile of speed, speed variance, average acceleration and maximum acceleration. At last, travel
modes are detected by three machine learning algorithms and the accuracies of the recognition results
are evaluated. The result shows that it is significant of the recognition based on the feature of speed,
and the total time and distance can help to distinguish between non-motorized and motor vehicles and
between walking and bicycles. Besides, the precision of the C4.5 decision tree algorithm is 73%, and
the precision of the support vector machine algorithm is 78%. The result of random forest algorithm
has the highest precision which was up to 80%.
Keywords: GPS data; trajectory data; travel mode recognition; machine learning
*科研项目:自然资源管理知识更新及能力提升工程课程设计及研究(2020-26)、三调数据成果深度应用及拓展研究、自然
资源调查监测的省市县一体化高效协同机制研究 。
*第一作者简介:陈建军,男,1975年生,测绘工程专业,主要从事测绘地理信息数据获取、处理及应用工作。
Email:*****************。
收稿日期:2020-09-12; 改回日期:2020-11-13。
2015年3月
March, 2015
2020年12月
Dec
2
.,
0
20
Land & Resources Herald
第12卷 第1期
第57页
第17卷 第4期
第57页
国 土 资 源 导 刊
Land & Resources Herald
近年来,居民出行调查正
逐渐向数据化、人工智能化转
变。基于GPS轨迹数据的交通
出行方式识别开始展现优势,
定位技术的提高与移动通信的
普及,使获取出行者数据变得
海量、方便、快捷、准确、及
时性高和可信度高。从居民智
能手机等移动GPS采集设备获
取海量轨迹数据,从中提取出
行信息,就可据此对出行目的、出行方式偏好、
出行分布进行分析
[1]
。
如图1所示,基于GPS数据的出行模式识
别主要利用GPS轨迹点的时间特征与空间聚集
程度识别轨迹端点,从而提取出行段,并计算
其特征参数,然后算法实现对出行段采用的出
行方式进行识别。基于GPS的出行模式识别关
键在于出行轨迹特征的选取及出行模式识别算
法两个方面。在出行轨迹特征方面,主要包括
以下几方面的特征:(1)距离特征,包括出行
距离、相邻点间距等;(2)时间特征,如时长
等;(3)速度特征,包括平均速度、分位点速
度、加速度、加加速度、低速点比例等;(4)
方位特征,如方位角、方位变化角等
[2,3]
。在算
法方面,目前主要采用的出行模式识别算法可
分为基于规则的识别方法与基于机器学习的算
法。基于规则的识别算法通常采用速度、加速
度、减速度等特征构建出行模式识别规则,然
后通过规则对出行方式进行分类
[4]
。该方法可以
区分大部分步行出行和小汽车出行,却难以区
分公交车和小汽车等特征较为相似的出行方式。
机器学习算法可以通过综合轨迹的各种时空特
征,构建轨迹聚类模型,从而达到出行模式识
别的目的。Muhammad等利用随机森林算法分析
手机获取的轨迹数据对出行模式进行分类
[5]
。李
喆利用基于粒子群的支持向量机模型进行交通
出行方式识别研究,得出该模型识别正确率为
95.1%
[6]
。
本文利用GPS数据以及数据点采集的时间
信息,构建多种轨迹数据时空特征,利用C4.5
图1 出行模式识别示意图
Fig.1 Diagram of travel mode recognition
决策树、支持向量机与随机森林三种机器学习
算法进行时空聚类分析,探讨不同轨迹模式识
别算法对GPS轨迹数据特征的敏感性及其识别
效果。
1 研究技术路线
本文的技术路线如图2所示,具体包括:
(1)对数据进行数据筛选、数据匹配、基本特
征计算等预处理;(2)依据GPS点数据的时空
信息,进行数据缺失段识别和时空聚类分析,
从而得到轨迹端点,将数据划分为连续的轨
迹;(3)基于短暂停留点和步行段将轨迹进一
步划分为出行段,并计算和分析出行段特征参
数;(4)基于机器学习的出行方式识别,将选
取的特征参数输入到C4.5决策树、支持向量机和
随机森林三种模型中,识别出行方式,进行精
度评价并对比试验结果。
2 数据与预处理
2.1 研究数据
本文采用的数据集来自微软亚洲研究院的
Geolife项目
[7]
。该数据集是由182名用户在六年
间(2007年4月-2012年8月)采集的GPS轨
迹数据集,其中大部分数据是在北京市采集的,
仅有极少数在其他地区分布。这些轨迹是由不
同的GPS记录器和GPS电话记录的,并具有多
种采样率,如1-5秒或5-10米。
数据集是由轨迹数据(plt文件)和出行方
式标记数据(txt文件)两部分构成的。其中每
个人的轨迹数据的示例数据如表1所示,是由
2015年3月
March, 2015
第17卷 第4期
第58页
Land & Resources Herald
国 土 资 源 导 刊
Land & Resources Herald
第12卷 第1期
第58页
2020年12月
Dec.,
2020
2.2 数据预处理
(1) GPS轨迹点数据筛选
由于数据集中包含的数据量
巨大,在开始提取信息之前必须
要先从中获取符合研究需求的数
据集。此外,由于出行方式标记
数据是由人为记录的,很难避免
出错。采集GPS数据时周围复杂
的环境因素也容易对数据质量产
生影响。因此必须对数据进行过
滤筛选处理,从而提高数据质量,
减小实验误差。本文的数据筛选
处理主要包括:①数据格式转换:
将多个plt文件存储的GPS轨迹数
据导入MySQL数据库。②剔除无
效数据:实现出行方式的识别的
图2 技术路线图
Fig.2 Technical Roadmap
过程必须获取轨迹点数据的经纬
度坐标、时间信息和出行方式标
记。③剔除冗余数据:轨迹数据
点是按时间先后顺序排列,若轨迹中在相同时
间点记录了两条数据,则这两点间的时间间隔
为零,会导致后续特征参数计算等操作出现问
题。④按条件筛选:本文选取的出行方式为步行、
自行车、公交车、小汽车、地铁这五种,不在
条件范围内的标记数据应被剔除。
(2) GPS轨迹点基本特征计算
根据点数据的经纬度坐标和采集时间,可
以计算出距离、时间间隔、速度、加速度的绝
对值这四种轨迹点的基本特征。
按时间先后顺序排列的GPS坐标点组成的,每
个点都包含纬度LAT、经度LON、海拔ASL、
获取日期DATE和TIME等信息。
GPS轨迹数据中有一部分带有对应时间段
的出行方式标记数据。如表2所示,出行方式
标记数据由某时间段的起止时间和该时间段内
采用的出行方式标记构成的。经过本文统计,
该数据集包含24,802,510个有效数据点,其中共
有5,268,992个数据点带有出行方式标记,最终
提取出15,209条带标记的出行段。
表1 原始GPS轨迹数据示例数据
Table 1 Example of the GPS trajectory data
LAT
39.870296
39.87036
39.870409
39.870444
39.870478
39.870495
39.870498
39.870511
39.870516
39.870525
LON
116.378866
116.378953
116.379018
116.379108
116.379206
116.379305
116.379405
116.379606
116.379713
116.379826
ZERO
0
0
0
0
0
0
0
0
0
0
ASL
131
135
141
144
151
154
154
157
157
161
DAYS
39707.00000
39707.00001
39707.00002
39707.00003
39707.00005
39707.00006
39707.00007
39707.00009
39707.00010
39707.00012
DATE
2008/9/16
2008/9/16
2008/9/16
2008/9/16
2008/9/16
2008/9/16
2008/9/16
2008/9/16
2008/9/16
2008/9/16
TIME
0:00:00
0:00:01
0:00:02
0:00:03
0:00:04
0:00:05
0:00:06
0:00:08
0:00:09
0:00:10
2015年3月
March, 2015
2020年12月
Dec
2
.,
0
20
Land & Resources Herald
第12卷 第1期
第59页
第17卷 第4期
第59页
国 土 资 源 导 刊
Land & Resources Herald
表2 出行方式标记数据示例数据
Table 2 Example of the travel modes
式中,vb表示b点速度;db表示a点与b
点的距离;Δt表示a点与b点的时间差。
Mode
bus
walk
walk
walk
walk
subway
subway
car
subway
car
Start Time
2007/6/26 11:32
2008/3/28 14:52
2008/3/28 16:00
2008/3/29 1:27
2008/3/29 16:00
2008/3/30 16:00
2008/3/31 4:17
2008/3/31 16:00
2008/3/31 17:26
2008/4/1 0:48
End Time
2007/6/26 11:40
2008/3/28 15:59
2008/3/28 22:02
2008/3/29 15:59
2008/3/30 15:59
2008/3/31 3:13
2008/3/31 15:31
2008/3/31 16:09
2008/4/1 0:35
2008/4/1 0:59
加速度的绝对值计算公式如下:
a
b
=
|
∆
v /
∆
t|
(5)
式中,a
b
表示b点加速度的绝对值;Δv表
示a点与b点的速度差;Δt表示a点与b点的
时间差。
(3) 出行方式标记数据匹配
由于标记数据和轨迹数据是分开存储的,
在完成数据筛选之后,需要将出行方式标记数
据匹配到对应时间的轨迹点上。经过基本特征
参数计算与数据匹配等预处理后的示例数据如
表3所示,Time(s)表示时间间隔,Distance
本文中两相邻GPS点间的距离采用Haversine
(m)表示两点间距离,V(m/s)表示速度,A(m/
公式计算,此公式可计算地球表面上任意两点
间的最短距离且不考虑高程数据
[8]
。a、b为轨
迹上相邻两点,具体的距离计算公式如下:
s
2
)表示加速度的绝对值,Mode表示在该点采
用的出行方式。
d
b
=R×haver
sin
−
1
(
h
)
=
2
R×
arcsin(
h
)
(1)
haver
sin(
θ
)
=
sin
2
(
θ
/2)
=
(1
−
cos
θ
)/2
(2)
h=haver
sin(
ϕ
b
−
ϕ
a
)
+
cos
ϕ
b
cos
ϕ
a
×haver
sin(
∆
λ
/2)
(3)
3 出行段划分
3.1 轨迹端点识别
从离散的GPS点数据提取出连续的轨迹数
据的原理是识别出轨迹中的停留点,从中判断
出轨迹端点,并以此作为划分轨迹的标志。如
图5.1所示,首先应依据时间间隔判断数据的连
续性,将轨迹数据划分为缺失片段和连续片段;
其次依据距离阈值从连续段中提取停留点集合。
式中,d
b
表示a点与b点的距离;R表示地
球半径;φ
a
表示a点纬度;φ
b
表示b点纬度;
Δλ表示a点与b点的经度差。
速度计算公式如下:
v
b
=
d
b
/∆
t
(4)
表3 数据预处理后的数据示例
Table 3 Example of preprocessed data
Latitud
39.869126
39.869134
39.869133
39.869138
39.869145
39.869146
39.869143
39.869049
39.869048
39.869044
39.869044
39.869044
39.869069
39.869083
Longitude
116.375498
116.375474
116.375469
116.375426
116.37541
116.375391
116.375368
116.374715
116.37473
116.374764
116.374789
116.374831
116.374948
116.375016
Date
2008/09/16 00:07:24
2008/09/16 00:07:25
2008/09/16 00:07:26
2008/09/16 00:07:28
2008/09/16 00:07:29
2008/09/16 00:07:30
2008/09/16 00:07:31
2008/09/16 00:10:22
2008/09/16 00:10:23
2008/09/16 00:10:24
2008/09/16 00:10:25
2008/09/16 00:10:26
2008/09/16 00:10:28
2008/09/16 00:10:29
Time
1
1
1
2
1
1
1
171
1
1
1
1
2
1
Distance
1.79
2.23
0.44
3.71
1.57
1.63
1.99
56.70
1.28
2.94
2.13
3.58
10.36
6.01
V
1.79
2.23
0.44
1.86
1.57
1.63
1.99
0.33
1.28
2.94
2.13
3.58
5.18
6.01
A
0.85
0.44
1.79
0.71
0.28
0.05
0.37
0.01
0.95
1.65
0.80
1.45
0.80
0.83
Mode
walk
walk
walk
walk
walk
walk
walk
bus
bus
bus
bus
bus
bus
bus
2015年3月
March, 2015
第17卷 第4期
第60页
Land & Resources Herald
国 土 资 源 导 刊
Land & Resources Herald
第12卷 第1期
第60页
2020年12月
Dec.,
2020
在现实生活的出行活动中,停留行为可以分为
长期停留点和暂时停留点两种。例如从家到超
市后停留一小时进行购物,则超市这个长期停
留点即可视为这段轨迹的终止端点;驾驶汽车
等待交通信号灯时停止两分钟则视为暂时停留
点,不能作为划分依据。利用时空聚类分析即
可在连续段中获取长期停留点。
如图3为本文轨迹端点识别的流程图。先
依据相邻点的时间间隔区分缺失片段与连续片
段,本文设定的时间间隔阈值Tp为150s。对于
轨迹缺失片段的处理,获取缺失片段的首尾点,
缺失片段的首点为轨迹终止端点,尾点为轨迹
起始点。
本文对于轨迹连续片段的处理利用了
DBSCAN密度聚类的算法原理。首先以相邻点
[9]
1
n
Y
i
=
∑
y
j
n
j
=
1
(8)
式中,X
i
表示B(i)集合中心点的经度,Y
i
表示B(i)集合中心点的纬度,x
j
表示B(i)集合第
j点的经度,y
j
表示B(i)集合第j点的纬度,n表
示B(i)集合中数据点总数。
将Δd和Δt均在阈值范围内的集合合并,
最终获得的长期停留点,即可作为轨迹端点去
划分轨迹的连续片段。
3.2 出行方式转换点识别
在一条连续完整的轨迹中,出行者可能采
用多种出行方式,例如从家到超市先乘地铁后
换成步行。因此需要识别出行方式转换点,将
轨迹划分成只有一种交通方式的出行段。出行
方式转换时会出现短暂的停留,因此将速
度为零的点作为出行段的划分依据。图5
为010号人员在2008年3-5月一部分出
行轨迹的出行方式识别结果。
3.3 出行段特征参数提取
计算每个出行段的特征参数,为出行
方式识别提供依据。通过对相关文献的调
图3 轨迹数据划分示意图
Fig.3 Schematic diagram of trajectory division
的距离为依据,将符合距离阈值条件Dp的点组
成集合A(i)。其次根据时间间隔来筛选符合聚类
条件的集合,最长时间间隔T表示轨迹中第一
个数据点与最后一个数据点之间的时间间隔,
最短时间间隔Tmin表示轨迹中相邻数据点间最
短的时间间隔。当集合最长时间间隔T和最小
时间间隔Tmin符合T/2 > Tmin时A(i)为参加聚
类的集合B(i)。
计算相邻集合之间的距离Δd和时间间隔
Δt。集合间的时间间隔Δt表示集合B(i)中末
尾的点与B(i+1)中第一个点的时间间隔。集合
间的距离Δd表示两集合中心点间的距离:
∆d=
(
X
i
+
1
−X
i
)
2
+
(
Y
i
+
1
−Y
i
)
2
(6)
1
n
X
i
=
∑
x
j
n
j
=
1
(7)
图4 轨迹数据划分示意图
Fig.4 Schematic diagram of trajectory division
2015年3月
March, 2015
2020年12月
Dec
2
.,
0
20
Land & Resources Herald
第12卷 第1期
第61页
第17卷 第4期
第61页
国 土 资 源 导 刊
Land & Resources Herald
研,特征参数可总结为如表4所示的几类:
本文计算的特征参数为出行段总距离、总时
长、平均速度、速度的95分位数、速度方差、
平均加速度的绝对值、最大加速度。出行段划分
和特征参数计算完成后的数据示例如表5所示。
特征参数的核密度曲线如图6所示。显然
非机动出行方式与机动出行方式的区分较为容
汽车与公交车。速度的95分位数、总距离Sum_
d和最大加速度Max_a能更好地区分五种出行方
式,特别是公交车与小汽车、地铁的区分。平
均加速度Ave_a的区分效果不太理想。总时长
Sum_t可以区分地铁和其他机动出行方式。
4 试验及精度分析
本文此次共从GPS轨迹数据集中提取出带
标记出行段15,210条,其中包含步行6898条、
自行车2173、公交车2880、小汽车2344、地铁
机选取70%的出行段作为训练集,输入分类器
中,剩余30%的出行段作为测试集,对识别效
果做出评价。
易。依据平均速度Ave_v可以区分步行与自行车、
915条。按照各个出行方式所占的比例,分别随
图5 出行段划分结果示例
Fig.5 Example of travel segment
表4 特征参数归纳
Table 4 Induction of features
类型
分类速度
平均速度
速度方差、极差
最大速度
速度分位数
GPS数据
加速度
平均加速度
加速度方差
最大加速度
加速度分位数
时空特征
距离、时长
停止率
低速点比例
最大距离
GIS数据
交通设施
道路数据
路口数据
交通线路数据
交通站点数据
特征
参数
2015年3月
March, 2015
第17卷 第4期
第62页
Land & Resources Herald
国 土 资 源 导 刊
Land & Resources Herald
第12卷 第1期
第62页
2020年12月
Dec.,
2020
表5 出行段特征参数数据示例
Table 5 Example of features
Id
1
2
3
4
5
6
7
8
9
Sum_d(m)
828.49
394.49
133.96
1927.58
520.97
1039.79
30.37
157.86
51.65
Sum_t(s)
164
274
13
345
142
196
9
115
38
Ave_v
5.13
1.43
11.81
5.51
3.68
5.34
3.86
1.40
1.42
Per95_v
10.39
2.69
17.56
10.90
7.85
10.94
4.64
2.35
2.11
Var_v
9.50
0.50
12.77
13.68
8.56
13.26
0.21
0.31
0.28
Ave_a
0.80
0.59
3.66
0.87
0.63
0.83
0.93
0.47
0.42
Max_a
5.82
4.01
9.04
14.72
3.83
4.58
3.85
2.12
1.18
Mode
car
subway
bus
subway
bus
car
bus
walk
walk
4.1 评价指标
为比较评价不同机器学习算法的识别效果,
本文选择以下指标评价分类的结果。
(1)精确率(P)表示的是所有被识别为
该类的样本中,判断正确的样本所占的比例:
TP
P
=
TP
+
FP
(9)
FP表示负类预测为正类的样本个数。
(2)召回率(R)表示的是所有该类的实
际样本中,被正确识别的样本所占的比例:
TP
R
=
TP
+
FN
(10)
其中,FN表示正类预测为负类的样本个数。
(3)F-Score表示的是精确值P和召回率
其中,TP表示正类预测为正类的样本个数,
R的调和平均数:
(a)速度特征
(b)加速度特征
2015年3月
March, 2015
2020年12月
Dec
2
.,
0
20
Land & Resources Herald
第12卷 第1期
第63页
第17卷 第4期
第63页
国 土 资 源 导 刊
Land & Resources Herald
(c)距离和时间特征
图6 出行段特征参数密度分析图
Fig.6 Density analysis chart of travel parameter
F-Score=
4.2 结果分析
2
∗
P
∗
R
P
+
R
(11)
数据会产生影响而造成的出行段不完整,使特
征参数失去该分类应有特点。
从特征参数的角度来看,各出行方式在基
于速度的特征参数中区分效果最好,尤其是平
均速度特征中各类区分明显。利用速度的95分
位数能很好地区分出公交车类别。总时长和距
离对非机动车与机动车的区分有帮助。平均加
速度绝对值的各类区分效果不够显著。
表6~8依次展示了C4.5决策树、支持向量
机和随机森林算法的识别结果与评价指标。
从机器学习算法比较的角度来看,从识
别结果可以分析出三总算法精度均超过70%,
其中随机森林算法的识别效果最优,最高可达
80%。
从出行方式的角度看,非机动出行(步行
和自行车)与机动出行(汽车、公交和地铁)
的区分非常容易,原因是二者的出行速度与出
行距离都有极大的差别;步行与自行车的识别
效果普遍比较好,机动出行之间的区分较为困
难,尤其是汽车与公交车的区分,因为在三种
算法中这两类的精度都是最低的,原因可能是
公交车和小汽车出行的速度和各方面特征都比
较相似,难以区分。此外三种算法的地铁分类
召回率都偏低,本文分析有原因可能是由于地
铁出行段样本偏少,且地铁因建筑遮挡对GPS
5 结论
本文利用GPS点的坐标与时间数据进行时
空聚类分析,识别停留点;将离散点数据,划
分成有逻辑关系的出行段数据;提取出行段的
距离、时长、平均速度、速度的95分位数、速
度方差、平均加速度和最大加速度这七种特征
参数。其中,基于速度的特征参数的区分效果
显著,平均速度为最优的特征参数,总时长和
总距离有助于非机动车与机动车的区分以及步
行与自行车的区分。运用C4.5决策树、支持向
表6 C4.5决策树算法识别结果
Table 6 Recognition result of C4.5 DT algorithm
出行方式
步行
自行车
公交车
小汽车
地铁
步行
1957
182
282
119
118
自行车
38
395
21
17
2
公交车
42
32
465
85
11
小汽车
31
27
118
453
108
地铁
3
0
5
3
49
精确率
0.75
0.84
0.73
0.61
0.82
召回率
0.94
0.62
0.52
0.67
0.17
F1值
0.83
0.71
0.61
0.64
0.28
2015年3月
March, 2015
第17卷 第4期
第64页
Land & Resources Herald
国 土 资 源 导 刊
Land & Resources Herald
第12卷 第1期
第64页
2020年12月
Dec.,
2020
表7 支持向量机算法识别结果
Table 7 Recognition result of support vector machine algorithm
出行方式
步行
自行车
公交车
小汽车
地铁
步行
1929
148
191
82
86
自行车
26
484
19
14
1
公交车
67
34
527
107
17
小汽车
20
17
114
474
27
地铁
9
0
5
15
150
精确率
0.79
0.89
0.70
0.73
0.84
召回率
0.94
0.71
0.62
0.68
0.53
F1值
0.86
0.79
0.66
0.71
0.65
表8 随机森林算法识别结果
Table 8 Recognition result of random forest algorithm
出行方式
步行
自行车
公交车
小汽车
地铁
步行
1954
132
178
87
95
自行车
31
485
30
10
1
公交车
55
36
559
114
15
小汽车
18
18
98
453
20
地铁
15
0
8
13
138
精确率
0.80
0.87
0.72
0.75
0.80
召回率
0.94
0.72
0.64
0.67
0.51
F1值
0.86
0.79
0.68
0.71
0.62
量机和随机森林三种机器学习算法识别出行段
的出行方式,比较识别效果得出随机森林的识
别效果最优,准确率最高可达80%。
参考文献/References
[1] MONTINI L, RIESER-SCH
Ü
SSLER N, HORNI A,
等. Trip purpose identification from GPS tracks[J].
Transportation Research Record, 2014, 2405(1): 16–23.
[2] 肖光年. 基于GPS轨迹数据的居民活动-出行特征识
别方法[D]. 上海交通大学, 2016.
[3] 郭茂祖, 王鹏跃, 赵玲玲. 基于深度学习的出行模式
识别方法[J]. 哈尔滨工业大学学报, 2019, 51(11): 1–7.
[4] STOPHER P, FITZGERALD C, ZHANG J. Search for
a global positioning system device to measure person
travel[J]. Transportation Research Part C: Emerging
Technologies, Elsevier Limited, 2008, 16(3): 350–369.
[5] SHAFIQUE M A, HATO E. Travel Mode Detection with
Varying Smartphone Data Collection Frequencies[J].
Sensors, Multidisciplinary Digital Publishing Institute,
2016, 16(5): 716.
[6] 李喆, 孙健, 倪训友. 基于智能手机大数据的交通出
行方式识别研究[J]. 计算机应用研究, 2016, 33(12):
3527-3529+3558.
[7] ZHENG V W, ZHENG Y, XIE X, 等. Towards mobile
intelligence: Learning from GPS history data for
collaborative recommendation[J]. Artificial Intelligence,
2012, 184–185: 17–37.
[8] 樊东卫, 何勃亮, 李长华, 等. 球面距离计算方法及精
度比较[J]. 天文研究与技术, 2019, 16(01): 69–76.
[9] 万豫, 黄妙华, 王思楚. 基于改进DBSCAN算法的驾
驶风格识别方法研究[J]. 合肥工业大学学报(自然科
学版), 2020, 43(10): 1313–1320.
发布评论