面向时空数据的大数据分析方法研究
来源:知网 发布日期:2024-12-25
【摘要】:
GPS系统的普及以及智能设备的广泛应用使得时空数据的数量不断飙升,据统计现实生活中90\%的大数据都包含了时间与空间信息。对具有时空属性的数据进行分析与挖掘,是一项具有挑战的任务,在大数据分析与数据挖掘领域受到了广泛地研究与关注。时空大数据分析的主要难点是发现隐藏在空间和时间维度内的关联和模式,大数据分析技术很好地解决了这些问题。为了探究面向时空特征的大数据分析方法,本文以两类时空数据(美国三个城市的犯罪数据以及英国交通事故数据)为研究对象,从四个方面重点研究了大数据分析方法。犯罪和交通事故这两类时空数据的分析,具有十分重要的意义。犯罪和交通事故是社会存在的重大问题,是交通拥堵、人类伤亡、健康问题、环境污染、经济损失和社会安定的主要因素。面对这些致命和意外的突发事件,了解发生的事件并发现与之相关的因素,对事件进行有效的预测,对于维护社会安定、减少经济损失起着至关重要的作用。本文围绕大数据分析和挖掘的关键技术对这两类数据进行了探索和挖掘,主要做了以下工作:(1)在时空数据的可视化方面,利用当前流行的数据可视化技术,对犯罪以及交通事故大数据进行可视化,首先设计了可交互式地图,根据地理位置信息对事件进行聚类,显示事件的热点区域,然后应用叙事可视化技术以及交互式技术对数据中各个属性进行可视化,结合高阶层次马尔可夫模型对事件在空间上转移概率进行了探索,实现了对数据在时间和空间上的多尺度探索,最后对所有的方法与技术进行集成,实现了多特征、多尺度、可交互的海量数据可视化;(2)在时空数据类别预测方面,为了克服不平衡数据集带来的分类准确率低的问题,首先利用合并相似类别、重采样等技术对数据进行处理,使数据中分类趋于平衡,针对数据在时间、空间上存在严重覆盖的问题,使用粗糙集理论对数据集进行属性简约,降低数据内部的覆盖率,然后探索了不同的提升树分类算法对犯罪类别以及交通事故严重程度进行了预测,最终提出了基于粗糙集理论以及提升树算法的预测方法。通过对方法的集成,有效解决了非平衡数据集的分类问题,提高了分类准确率并降低了数据处理的时间复杂度;(3)在时空数据关联规则分析方面,首先使用Apriori算法对整个数据集进行分析,使用可视化技术对规则进行可视化实现了对规则的评价,分别对高支持度和高提升度的规则进行展示与分析,发现了与犯罪和交通事故有关的因素以及内部属性之间的关联。为了克服数据分布不均衡带来的问题,提出了基于k-means的小样本关联规则分析方法,利用聚类在整体样本中抽取感兴趣的区域或者类别,使用关联规则算法发现了数据内部隐含的关联规则,结果表明使用提出的方法发现致命交通事故多发于乡村,在路面有冰并在光线很暗的情况下会频繁发生,这是单独使用关联规则算法所不能发现的;(4)在数量的趋势预测研究方面,本文探索了多层神经网络、时间序列模型以及深度神经网络模型。根据根均方误差和相关系数,训练了每个模型的最佳参数,发现Prophet模型和长短期记忆模型的结果要优于多层神经网络模型,并通过实验发现最佳的训练集样本数量为3年的数据,最后以这两个算法为基础提出了基于生成对抗(GAN)网络的趋势预测方法PL-GAN,使用长短记忆模型(LSTM)作为生成网络,Prophet模型为对抗网络,较准确的预测了时空数据的数量趋势;实验结果表明,本文提出的方法与模型,有效实现了时空数据的可视化,通过交互式、多尺度的分析,得到了隐藏在数据中的模式。通过分类、关联分析以及趋势预测,有效实现了时空数据的预测问题。这些有希望的结果将有利于政府部门和执法组织更好地了解犯罪、交通事故问题,并提供见解,使他们能够跟踪活动,预测事件的可能性,有效地部署资源和优化决策过程。
【学位授予单位】:西北工业大学
【学位级别】:博士
【学位授予年份】:2020