2024年4月20日发(作者:)

2015年3月

March, 2015

第17卷 第4期

第56页

Land & Resources Herald

国 土 资 源 导 刊

Land & Resources Herald

第12卷 第1期

第56页

2020年12月

Dec.,

2020

文章编号:1672-5603(2020)04-56-9

基于个人轨迹的出行模式识别

*

陈建军

1*

,黄啟抒

2,3

,陈子晗

2,3

,万义良

2,3

(1.湖南工程职业技术学院,湖南 长沙 410151; 2.湖南师范大学资源与环境科学学院,湖南 长沙 410081;

3.地理空间大数据挖掘与应用湖南省重点实验室,湖南 长沙 410081)

摘 要

本文在大量GPS轨迹数据基础之上,分别运用C4.5决策树、支持向量机和随机森林三种机器

学习算法识别了交通出行方式(包括步行、自行车、公交车、小汽车和地铁),实现基于轨迹数据的出行

模式识别。首先,对轨迹数据预处理,利用时空聚类算法从离散的GPS点数据中获取停驻信息,进而提

取出行段数据。其次,利用时间和坐标数据计算出行段的特征参数,包括距离、时长、平均速度、速度的

95分位数、速度方差、平均加速度和最大加速度。最后,通过机器学习识别出行方式,并对三种不同算

法的识别精度进行了评估。结果表明:基于速度的特征参数的区分效果显著,总时长和总距离有助于非机

动车与机动车的区分以及步行与自行车的区分;C4.5决策树算法的精度为73%,支持向量机算法的精度

为78%,随机森林算法的分类效果最优,准确率达到了80%以上。

键词

GPS数据;轨迹数据;出行模式识别;机器学习

中图分类号:TP311 文献标识码:A

Travel Mode Recognition Based on Personal Trajectory Data

Chen Jianjun

1

, Huang Qishu

2,3

, Chen Zihan

2,3

, Wan Yiliang

2,3

(1. Hunan Vocational College of Engineering, Changsha Hunan 410151; 2. College of Resources and

Environmental Sciences, Hunan Normal University, Changsha Hunan 410081; 3. Key Laboratory of Geospatial

Big Data Mining and Application, Hunan, Changsha Hunan 410081)

Abstract: In order to identify travel modes (walk, bike, bus, car and subway) and extract travel

information from trajectory data, three machine learning algorithms including C4.5 decision tree,

support vector machine and random forest are adopted to analysis massive trajectory data. Firstly, the

trajectory data are preprocessed and the space-time cluster method is applied to detect the travelers’

residence information based on the discrete GPS point data. Based on the information the travel

segments are extracted. Secondly, based on temporal information and coordinate data, the characteristic

parameters of the travel segment are calculated, including distance, time interval, average speed, 95th

quantile of speed, speed variance, average acceleration and maximum acceleration. At last, travel

modes are detected by three machine learning algorithms and the accuracies of the recognition results

are evaluated. The result shows that it is significant of the recognition based on the feature of speed,

and the total time and distance can help to distinguish between non-motorized and motor vehicles and

between walking and bicycles. Besides, the precision of the C4.5 decision tree algorithm is 73%, and

the precision of the support vector machine algorithm is 78%. The result of random forest algorithm

has the highest precision which was up to 80%.

Keywords: GPS data; trajectory data; travel mode recognition; machine learning

*科研项目:自然资源管理知识更新及能力提升工程课程设计及研究(2020-26)、三调数据成果深度应用及拓展研究、自然

资源调查监测的省市县一体化高效协同机制研究 。

*第一作者简介:陈建军,男,1975年生,测绘工程专业,主要从事测绘地理信息数据获取、处理及应用工作。

Email:*****************。

收稿日期:2020-09-12;     改回日期:2020-11-13。

2015年3月

March, 2015

2020年12月

Dec

2

.,

0

20

Land & Resources Herald

第12卷 第1期

第57页

第17卷 第4期

第57页

国 土 资 源 导 刊

Land & Resources Herald

近年来,居民出行调查正

逐渐向数据化、人工智能化转

变。基于GPS轨迹数据的交通

出行方式识别开始展现优势,

定位技术的提高与移动通信的

普及,使获取出行者数据变得

海量、方便、快捷、准确、及

时性高和可信度高。从居民智

能手机等移动GPS采集设备获

取海量轨迹数据,从中提取出

行信息,就可据此对出行目的、出行方式偏好、

出行分布进行分析

[1]

如图1所示,基于GPS数据的出行模式识

别主要利用GPS轨迹点的时间特征与空间聚集

程度识别轨迹端点,从而提取出行段,并计算

其特征参数,然后算法实现对出行段采用的出

行方式进行识别。基于GPS的出行模式识别关

键在于出行轨迹特征的选取及出行模式识别算

法两个方面。在出行轨迹特征方面,主要包括

以下几方面的特征:(1)距离特征,包括出行

距离、相邻点间距等;(2)时间特征,如时长

等;(3)速度特征,包括平均速度、分位点速

度、加速度、加加速度、低速点比例等;(4)

方位特征,如方位角、方位变化角等

[2,3]

。在算

法方面,目前主要采用的出行模式识别算法可

分为基于规则的识别方法与基于机器学习的算

法。基于规则的识别算法通常采用速度、加速

度、减速度等特征构建出行模式识别规则,然

后通过规则对出行方式进行分类

[4]

。该方法可以

区分大部分步行出行和小汽车出行,却难以区

分公交车和小汽车等特征较为相似的出行方式。

机器学习算法可以通过综合轨迹的各种时空特

征,构建轨迹聚类模型,从而达到出行模式识

别的目的。Muhammad等利用随机森林算法分析

手机获取的轨迹数据对出行模式进行分类

[5]

。李

喆利用基于粒子群的支持向量机模型进行交通

出行方式识别研究,得出该模型识别正确率为

95.1%

[6]

本文利用GPS数据以及数据点采集的时间

信息,构建多种轨迹数据时空特征,利用C4.5

图1 出行模式识别示意图

Fig.1 Diagram of travel mode recognition

决策树、支持向量机与随机森林三种机器学习

算法进行时空聚类分析,探讨不同轨迹模式识

别算法对GPS轨迹数据特征的敏感性及其识别

效果。

1 研究技术路线

本文的技术路线如图2所示,具体包括:

(1)对数据进行数据筛选、数据匹配、基本特

征计算等预处理;(2)依据GPS点数据的时空

信息,进行数据缺失段识别和时空聚类分析,

从而得到轨迹端点,将数据划分为连续的轨

迹;(3)基于短暂停留点和步行段将轨迹进一

步划分为出行段,并计算和分析出行段特征参

数;(4)基于机器学习的出行方式识别,将选

取的特征参数输入到C4.5决策树、支持向量机和

随机森林三种模型中,识别出行方式,进行精

度评价并对比试验结果。

2 数据与预处理

2.1 研究数据

本文采用的数据集来自微软亚洲研究院的

Geolife项目

[7]

。该数据集是由182名用户在六年

间(2007年4月-2012年8月)采集的GPS轨

迹数据集,其中大部分数据是在北京市采集的,

仅有极少数在其他地区分布。这些轨迹是由不

同的GPS记录器和GPS电话记录的,并具有多

种采样率,如1-5秒或5-10米。

数据集是由轨迹数据(plt文件)和出行方

式标记数据(txt文件)两部分构成的。其中每

个人的轨迹数据的示例数据如表1所示,是由

2015年3月

March, 2015

第17卷 第4期

第58页

Land & Resources Herald

国 土 资 源 导 刊

Land & Resources Herald

第12卷 第1期

第58页

2020年12月

Dec.,

2020

2.2 数据预处理

(1) GPS轨迹点数据筛选

由于数据集中包含的数据量

巨大,在开始提取信息之前必须

要先从中获取符合研究需求的数

据集。此外,由于出行方式标记

数据是由人为记录的,很难避免

出错。采集GPS数据时周围复杂

的环境因素也容易对数据质量产

生影响。因此必须对数据进行过

滤筛选处理,从而提高数据质量,

减小实验误差。本文的数据筛选

处理主要包括:①数据格式转换:

将多个plt文件存储的GPS轨迹数

据导入MySQL数据库。②剔除无

效数据:实现出行方式的识别的

图2 技术路线图

Fig.2 Technical Roadmap

过程必须获取轨迹点数据的经纬

度坐标、时间信息和出行方式标

记。③剔除冗余数据:轨迹数据

点是按时间先后顺序排列,若轨迹中在相同时

间点记录了两条数据,则这两点间的时间间隔

为零,会导致后续特征参数计算等操作出现问

题。④按条件筛选:本文选取的出行方式为步行、

自行车、公交车、小汽车、地铁这五种,不在

条件范围内的标记数据应被剔除。

(2) GPS轨迹点基本特征计算

根据点数据的经纬度坐标和采集时间,可

以计算出距离、时间间隔、速度、加速度的绝

对值这四种轨迹点的基本特征。

按时间先后顺序排列的GPS坐标点组成的,每

个点都包含纬度LAT、经度LON、海拔ASL、

获取日期DATE和TIME等信息。

GPS轨迹数据中有一部分带有对应时间段

的出行方式标记数据。如表2所示,出行方式

标记数据由某时间段的起止时间和该时间段内

采用的出行方式标记构成的。经过本文统计,

该数据集包含24,802,510个有效数据点,其中共

有5,268,992个数据点带有出行方式标记,最终

提取出15,209条带标记的出行段。

表1 原始GPS轨迹数据示例数据

Table 1 Example of the GPS trajectory data

LAT

39.870296

39.87036

39.870409

39.870444

39.870478

39.870495

39.870498

39.870511

39.870516

39.870525

LON

116.378866

116.378953

116.379018

116.379108

116.379206

116.379305

116.379405

116.379606

116.379713

116.379826

ZERO

0

0

0

0

0

0

0

0

0

0

ASL

131

135

141

144

151

154

154

157

157

161

DAYS

39707.00000

39707.00001

39707.00002

39707.00003

39707.00005

39707.00006

39707.00007

39707.00009

39707.00010

39707.00012

DATE

2008/9/16

2008/9/16

2008/9/16

2008/9/16

2008/9/16

2008/9/16

2008/9/16

2008/9/16

2008/9/16

2008/9/16

TIME

0:00:00

0:00:01

0:00:02

0:00:03

0:00:04

0:00:05

0:00:06

0:00:08

0:00:09

0:00:10

2015年3月

March, 2015

2020年12月

Dec

2

.,

0

20

Land & Resources Herald

第12卷 第1期

第59页

第17卷 第4期

第59页

国 土 资 源 导 刊

Land & Resources Herald

表2 出行方式标记数据示例数据

Table 2 Example of the travel modes

式中,vb表示b点速度;db表示a点与b

点的距离;Δt表示a点与b点的时间差。

Mode

bus

walk

walk

walk

walk

subway

subway

car

subway

car

Start Time

2007/6/26 11:32

2008/3/28 14:52

2008/3/28 16:00

2008/3/29 1:27

2008/3/29 16:00

2008/3/30 16:00

2008/3/31 4:17

2008/3/31 16:00

2008/3/31 17:26

2008/4/1 0:48

End Time

2007/6/26 11:40

2008/3/28 15:59

2008/3/28 22:02

2008/3/29 15:59

2008/3/30 15:59

2008/3/31 3:13

2008/3/31 15:31

2008/3/31 16:09

2008/4/1 0:35

2008/4/1 0:59

加速度的绝对值计算公式如下:

a

b

=

|

v /

t|

(5)

式中,a

b

表示b点加速度的绝对值;Δv表

示a点与b点的速度差;Δt表示a点与b点的

时间差。

(3) 出行方式标记数据匹配

由于标记数据和轨迹数据是分开存储的,

在完成数据筛选之后,需要将出行方式标记数

据匹配到对应时间的轨迹点上。经过基本特征

参数计算与数据匹配等预处理后的示例数据如

表3所示,Time(s)表示时间间隔,Distance

本文中两相邻GPS点间的距离采用Haversine

(m)表示两点间距离,V(m/s)表示速度,A(m/

公式计算,此公式可计算地球表面上任意两点

间的最短距离且不考虑高程数据

[8]

。a、b为轨

迹上相邻两点,具体的距离计算公式如下:

s

2

)表示加速度的绝对值,Mode表示在该点采

用的出行方式。

d

b

=R×haver

sin

1

(

h

)

=

2

arcsin(

h

)

(1)

haver

sin(

θ

)

=

sin

2

(

θ

/2)

=

(1

cos

θ

)/2

(2)

h=haver

sin(

ϕ

b

ϕ

a

)

+

cos

ϕ

b

cos

ϕ

a

×haver

sin(

λ

/2)

(3)

3 出行段划分

3.1 轨迹端点识别

从离散的GPS点数据提取出连续的轨迹数

据的原理是识别出轨迹中的停留点,从中判断

出轨迹端点,并以此作为划分轨迹的标志。如

图5.1所示,首先应依据时间间隔判断数据的连

续性,将轨迹数据划分为缺失片段和连续片段;

其次依据距离阈值从连续段中提取停留点集合。

式中,d

b

表示a点与b点的距离;R表示地

球半径;φ

a

表示a点纬度;φ

b

表示b点纬度;

Δλ表示a点与b点的经度差。

速度计算公式如下:

v

b

=

d

b

/∆

t

(4)

表3 数据预处理后的数据示例

Table 3 Example of preprocessed data

Latitud

39.869126

39.869134

39.869133

39.869138

39.869145

39.869146

39.869143

39.869049

39.869048

39.869044

39.869044

39.869044

39.869069

39.869083

Longitude

116.375498

116.375474

116.375469

116.375426

116.37541

116.375391

116.375368

116.374715

116.37473

116.374764

116.374789

116.374831

116.374948

116.375016

Date

2008/09/16 00:07:24

2008/09/16 00:07:25

2008/09/16 00:07:26

2008/09/16 00:07:28

2008/09/16 00:07:29

2008/09/16 00:07:30

2008/09/16 00:07:31

2008/09/16 00:10:22

2008/09/16 00:10:23

2008/09/16 00:10:24

2008/09/16 00:10:25

2008/09/16 00:10:26

2008/09/16 00:10:28

2008/09/16 00:10:29

Time

1

1

1

2

1

1

1

171

1

1

1

1

2

1

Distance

1.79

2.23

0.44

3.71

1.57

1.63

1.99

56.70

1.28

2.94

2.13

3.58

10.36

6.01

V

1.79

2.23

0.44

1.86

1.57

1.63

1.99

0.33

1.28

2.94

2.13

3.58

5.18

6.01

A

0.85

0.44

1.79

0.71

0.28

0.05

0.37

0.01

0.95

1.65

0.80

1.45

0.80

0.83

Mode

walk

walk

walk

walk

walk

walk

walk

bus

bus

bus

bus

bus

bus

bus

2015年3月

March, 2015

第17卷 第4期

第60页

Land & Resources Herald

国 土 资 源 导 刊

Land & Resources Herald

第12卷 第1期

第60页

2020年12月

Dec.,

2020

在现实生活的出行活动中,停留行为可以分为

长期停留点和暂时停留点两种。例如从家到超

市后停留一小时进行购物,则超市这个长期停

留点即可视为这段轨迹的终止端点;驾驶汽车

等待交通信号灯时停止两分钟则视为暂时停留

点,不能作为划分依据。利用时空聚类分析即

可在连续段中获取长期停留点。

如图3为本文轨迹端点识别的流程图。先

依据相邻点的时间间隔区分缺失片段与连续片

段,本文设定的时间间隔阈值Tp为150s。对于

轨迹缺失片段的处理,获取缺失片段的首尾点,

缺失片段的首点为轨迹终止端点,尾点为轨迹

起始点。

本文对于轨迹连续片段的处理利用了

DBSCAN密度聚类的算法原理。首先以相邻点

[9]

1

n

Y

i

=

y

j

n

j

=

1

(8)

式中,X

i

表示B(i)集合中心点的经度,Y

i

表示B(i)集合中心点的纬度,x

j

表示B(i)集合第

j点的经度,y

j

表示B(i)集合第j点的纬度,n表

示B(i)集合中数据点总数。

将Δd和Δt均在阈值范围内的集合合并,

最终获得的长期停留点,即可作为轨迹端点去

划分轨迹的连续片段。

3.2 出行方式转换点识别

在一条连续完整的轨迹中,出行者可能采

用多种出行方式,例如从家到超市先乘地铁后

换成步行。因此需要识别出行方式转换点,将

轨迹划分成只有一种交通方式的出行段。出行

方式转换时会出现短暂的停留,因此将速

度为零的点作为出行段的划分依据。图5

为010号人员在2008年3-5月一部分出

行轨迹的出行方式识别结果。

3.3 出行段特征参数提取

计算每个出行段的特征参数,为出行

方式识别提供依据。通过对相关文献的调

图3 轨迹数据划分示意图

Fig.3 Schematic diagram of trajectory division

的距离为依据,将符合距离阈值条件Dp的点组

成集合A(i)。其次根据时间间隔来筛选符合聚类

条件的集合,最长时间间隔T表示轨迹中第一

个数据点与最后一个数据点之间的时间间隔,

最短时间间隔Tmin表示轨迹中相邻数据点间最

短的时间间隔。当集合最长时间间隔T和最小

时间间隔Tmin符合T/2 > Tmin时A(i)为参加聚

类的集合B(i)。

计算相邻集合之间的距离Δd和时间间隔

Δt。集合间的时间间隔Δt表示集合B(i)中末

尾的点与B(i+1)中第一个点的时间间隔。集合

间的距离Δd表示两集合中心点间的距离:

∆d=

(

X

i

+

1

−X

i

)

2

+

(

Y

i

+

1

−Y

i

)

2

(6)

1

n

X

i

=

x

j

n

j

=

1

(7)

图4 轨迹数据划分示意图

Fig.4 Schematic diagram of trajectory division

2015年3月

March, 2015

2020年12月

Dec

2

.,

0

20

Land & Resources Herald

第12卷 第1期

第61页

第17卷 第4期

第61页

国 土 资 源 导 刊

Land & Resources Herald

研,特征参数可总结为如表4所示的几类:

本文计算的特征参数为出行段总距离、总时

长、平均速度、速度的95分位数、速度方差、

平均加速度的绝对值、最大加速度。出行段划分

和特征参数计算完成后的数据示例如表5所示。

特征参数的核密度曲线如图6所示。显然

非机动出行方式与机动出行方式的区分较为容

汽车与公交车。速度的95分位数、总距离Sum_

d和最大加速度Max_a能更好地区分五种出行方

式,特别是公交车与小汽车、地铁的区分。平

均加速度Ave_a的区分效果不太理想。总时长

Sum_t可以区分地铁和其他机动出行方式。

4 试验及精度分析

本文此次共从GPS轨迹数据集中提取出带

标记出行段15,210条,其中包含步行6898条、

自行车2173、公交车2880、小汽车2344、地铁

机选取70%的出行段作为训练集,输入分类器

中,剩余30%的出行段作为测试集,对识别效

果做出评价。

易。依据平均速度Ave_v可以区分步行与自行车、

915条。按照各个出行方式所占的比例,分别随

图5 出行段划分结果示例

Fig.5 Example of travel segment

表4 特征参数归纳

Table 4 Induction of features

类型

分类速度

平均速度

速度方差、极差

最大速度

速度分位数

GPS数据

加速度

平均加速度

加速度方差

最大加速度

加速度分位数

时空特征

距离、时长

停止率

低速点比例

最大距离

GIS数据

交通设施

道路数据

路口数据

交通线路数据

交通站点数据

特征

参数

2015年3月

March, 2015

第17卷 第4期

第62页

Land & Resources Herald

国 土 资 源 导 刊

Land & Resources Herald

第12卷 第1期

第62页

2020年12月

Dec.,

2020

表5 出行段特征参数数据示例

Table 5 Example of features

Id

1

2

3

4

5

6

7

8

9

Sum_d(m)

828.49

394.49

133.96

1927.58

520.97

1039.79

30.37

157.86

51.65

Sum_t(s)

164

274

13

345

142

196

9

115

38

Ave_v

5.13

1.43

11.81

5.51

3.68

5.34

3.86

1.40

1.42

Per95_v

10.39

2.69

17.56

10.90

7.85

10.94

4.64

2.35

2.11

Var_v

9.50

0.50

12.77

13.68

8.56

13.26

0.21

0.31

0.28

Ave_a

0.80

0.59

3.66

0.87

0.63

0.83

0.93

0.47

0.42

Max_a

5.82

4.01

9.04

14.72

3.83

4.58

3.85

2.12

1.18

Mode

car

subway

bus

subway

bus

car

bus

walk

walk

4.1 评价指标

为比较评价不同机器学习算法的识别效果,

本文选择以下指标评价分类的结果。

(1)精确率(P)表示的是所有被识别为

该类的样本中,判断正确的样本所占的比例:

TP

P

=

TP

+

FP

(9)

FP表示负类预测为正类的样本个数。

(2)召回率(R)表示的是所有该类的实

际样本中,被正确识别的样本所占的比例:

TP

R

=

TP

+

FN

(10)

其中,FN表示正类预测为负类的样本个数。

(3)F-Score表示的是精确值P和召回率

其中,TP表示正类预测为正类的样本个数,

R的调和平均数:

(a)速度特征

(b)加速度特征

2015年3月

March, 2015

2020年12月

Dec

2

.,

0

20

Land & Resources Herald

第12卷 第1期

第63页

第17卷 第4期

第63页

国 土 资 源 导 刊

Land & Resources Herald

(c)距离和时间特征

图6 出行段特征参数密度分析图

Fig.6 Density analysis chart of travel parameter

F-Score=

4.2 结果分析

2

P

R

P

+

R

(11)

数据会产生影响而造成的出行段不完整,使特

征参数失去该分类应有特点。

从特征参数的角度来看,各出行方式在基

于速度的特征参数中区分效果最好,尤其是平

均速度特征中各类区分明显。利用速度的95分

位数能很好地区分出公交车类别。总时长和距

离对非机动车与机动车的区分有帮助。平均加

速度绝对值的各类区分效果不够显著。

表6~8依次展示了C4.5决策树、支持向量

机和随机森林算法的识别结果与评价指标。

从机器学习算法比较的角度来看,从识

别结果可以分析出三总算法精度均超过70%,

其中随机森林算法的识别效果最优,最高可达

80%。

从出行方式的角度看,非机动出行(步行

和自行车)与机动出行(汽车、公交和地铁)

的区分非常容易,原因是二者的出行速度与出

行距离都有极大的差别;步行与自行车的识别

效果普遍比较好,机动出行之间的区分较为困

难,尤其是汽车与公交车的区分,因为在三种

算法中这两类的精度都是最低的,原因可能是

公交车和小汽车出行的速度和各方面特征都比

较相似,难以区分。此外三种算法的地铁分类

召回率都偏低,本文分析有原因可能是由于地

铁出行段样本偏少,且地铁因建筑遮挡对GPS

5 结论

本文利用GPS点的坐标与时间数据进行时

空聚类分析,识别停留点;将离散点数据,划

分成有逻辑关系的出行段数据;提取出行段的

距离、时长、平均速度、速度的95分位数、速

度方差、平均加速度和最大加速度这七种特征

参数。其中,基于速度的特征参数的区分效果

显著,平均速度为最优的特征参数,总时长和

总距离有助于非机动车与机动车的区分以及步

行与自行车的区分。运用C4.5决策树、支持向

表6 C4.5决策树算法识别结果

Table 6 Recognition result of C4.5 DT algorithm

出行方式

步行

自行车

公交车

小汽车

地铁

步行

1957

182

282

119

118

自行车

38

395

21

17

2

公交车

42

32

465

85

11

小汽车

31

27

118

453

108

地铁

3

0

5

3

49

精确率

0.75

0.84

0.73

0.61

0.82

召回率

0.94

0.62

0.52

0.67

0.17

F1值

0.83

0.71

0.61

0.64

0.28

2015年3月

March, 2015

第17卷 第4期

第64页

Land & Resources Herald

国 土 资 源 导 刊

Land & Resources Herald

第12卷 第1期

第64页

2020年12月

Dec.,

2020

表7 支持向量机算法识别结果

Table 7 Recognition result of support vector machine algorithm

出行方式

步行

自行车

公交车

小汽车

地铁

步行

1929

148

191

82

86

自行车

26

484

19

14

1

公交车

67

34

527

107

17

小汽车

20

17

114

474

27

地铁

9

0

5

15

150

精确率

0.79

0.89

0.70

0.73

0.84

召回率

0.94

0.71

0.62

0.68

0.53

F1值

0.86

0.79

0.66

0.71

0.65

表8 随机森林算法识别结果

Table 8 Recognition result of random forest algorithm

出行方式

步行

自行车

公交车

小汽车

地铁

步行

1954

132

178

87

95

自行车

31

485

30

10

1

公交车

55

36

559

114

15

小汽车

18

18

98

453

20

地铁

15

0

8

13

138

精确率

0.80

0.87

0.72

0.75

0.80

召回率

0.94

0.72

0.64

0.67

0.51

F1值

0.86

0.79

0.68

0.71

0.62

量机和随机森林三种机器学习算法识别出行段

的出行方式,比较识别效果得出随机森林的识

别效果最优,准确率最高可达80%。

参考文献/References

[1] MONTINI L, RIESER-SCH

Ü

SSLER N, HORNI A,

等. Trip purpose identification from GPS tracks[J].

Transportation Research Record, 2014, 2405(1): 16–23.

[2] 肖光年. 基于GPS轨迹数据的居民活动-出行特征识

别方法[D]. 上海交通大学, 2016.

[3] 郭茂祖, 王鹏跃, 赵玲玲. 基于深度学习的出行模式

识别方法[J]. 哈尔滨工业大学学报, 2019, 51(11): 1–7.

[4] STOPHER P, FITZGERALD C, ZHANG J. Search for

a global positioning system device to measure person

travel[J]. Transportation Research Part C: Emerging

Technologies, Elsevier Limited, 2008, 16(3): 350–369.

[5] SHAFIQUE M A, HATO E. Travel Mode Detection with

Varying Smartphone Data Collection Frequencies[J].

Sensors, Multidisciplinary Digital Publishing Institute,

2016, 16(5): 716.

[6] 李喆, 孙健, 倪训友. 基于智能手机大数据的交通出

行方式识别研究[J]. 计算机应用研究, 2016, 33(12):

3527-3529+3558.

[7] ZHENG V W, ZHENG Y, XIE X, 等. Towards mobile

intelligence: Learning from GPS history data for

collaborative recommendation[J]. Artificial Intelligence,

2012, 184–185: 17–37.

[8] 樊东卫, 何勃亮, 李长华, 等. 球面距离计算方法及精

度比较[J]. 天文研究与技术, 2019, 16(01): 69–76.

[9] 万豫, 黄妙华, 王思楚. 基于改进DBSCAN算法的驾

驶风格识别方法研究[J]. 合肥工业大学学报(自然科

学版), 2020, 43(10): 1313–1320.