时空数据挖掘三（城市计算）

西西弗的小蚂蚁

806人浏览 · 2022-09-09 17:23:18

西西弗的小蚂蚁 · 2022-09-09 17:23:18 发布

What is the Human Mobility in a New City: Transfer Mobility Knowledge Across Cities

随着物联网的发展，车辆、共享单车和移动设备的GPS轨迹反映了人们的出行模式和偏好，这对城市规划、企业选址等城市应用尤为重要。然而，由于隐私和商业方面的考虑，以及部署传感器的高成本和收集数据的长时间等因素，收集大量的人类移动数据并不容易，尤其是在新兴城市。基于人类移动是由起点和终点(origin and destination, OD)特征所反映的移动意图，以及对两者之间路径选择的偏好所驱动的这一直觉，通过迁移源城市的移动数据和多源数据，研究了为新目标城市生成移动数据的问题。该框架包含3个主要阶段:1)移动意图迁移，学习源城市间潜在的统一移动意图分布，并将该分布模型迁移到目标城市;2) OD生成，基于迁移的移动意图模型生成目标城市的OD对;3)路径生成，基于源城市的真实轨迹数据学习效用模型，生成每个OD对对应的路径。

此外，我们的轨迹生成器的演示在网上公开，适用于两个城市区域。在中国4个地区的大量实验结果验证了所提方案的有效性。此外，本文还以中国新开发地区雄安为例进行了实证研究。利用新城市中产生的轨迹，可以应用多种轨迹挖掘技术。

UrbanFM: Inferring Fine-Grained Urban Flows

城市流量监测系统在全球智慧城市建设中发挥着重要作用。然而，监控设备(如闭路电视)的普遍部署导致维护和运行成本长期居高不下。这表明需要一种技术，可以减少部署的设备数量，同时防止数据准确性和粒度的退化。本文的目标是基于粗粒度的观察来推断城市中的实时细粒度人群流动。由于粗、细粒度城市流之间的空间相关性以及外部影响的复杂性，这一任务具有挑战性。为了解决这些问题，本文开发了一种基于深度神经网络的方法UrbanFM。该模型由两大部分组成:1)一个推理网络，通过使用特征提取模块和新的分布上采样模块，从粗粒度输入中生成细粒度流分布;2)综合考虑不同外部因素的影响，提出一种通用融合子网，进一步提升系统性能。在两个真实数据集上的大量实验验证了所提方法的有效性和效率，展示了其在该问题上的最新性能

图3描述了UrbanFM的框架，它由两个主要组件组成，分别用于进行结构约束推理和捕获复杂的外部影响。

TrajGuard:A Comprehensive Trajectory Copyright Protection Scheme

轨迹数据在城市应用中有着广泛的应用。轨迹数据包含移动对象的隐私信息，在有效监督下共享轨迹数据是一项重要任务。然而，恶意数据用户可以通过各种方式修改轨迹，以避免使用基于哈希的数据签名(如MD5)跟踪数据分布。此外，现有的轨迹数据保护方案只能保护轨迹不受空间或时间上的修改。最后，由于轨迹数据过于敏感，目前还没有权威的第三方机构对轨迹数据的共享过程进行研究。为此，提出一种新的轨迹版权保护方案，能够保护轨迹数据免受多种类型的数据修改/攻击。为了有效地保证数据共享的鲁棒性和全面性，采用了3种主要技术:1)将身份信息分布地嵌入到基于时空区域划分的子轨迹中;2)将子轨迹的质心距离作为稳定轨迹属性进行信息嵌入;3)使用区块链技术作为可信第三方，以去中心化的方式记录所有数据交易历史，实现数据分发跟踪。在两个真实轨迹数据集上进行了大量实验，验证了所提方案的有效性。

图2给出了trajguard的概述。它可以抵抗一系列全面的轨迹修改/攻击，详情见第3节。该方案有三个主要过程:1)身份嵌入(详见第4节)，2)所有权检测(详见第5节)，3)所有权跟踪(详见第6节)。

DRN: A Deep Reinforcement Learning Framework for News Recommendation

在本文中，我们提出了一种新的深度强化学习框架用于新闻推荐。由于新闻特性的动态性和用户偏好的特殊性，在线个性化新闻推荐是一个极具挑战性的问题。虽然针对新闻推荐的动态性提出了一些在线推荐模型，但这些方法存在三个主要问题。首先，他们只尝试模拟当前的奖励(如点击率)。其次，很少有研究考虑使用除了点击/不点击标签(例如，用户返回的频率)以外的用户反馈来帮助改进推荐。第三，这些方法倾向于不断向用户推荐类似的新闻，这可能会导致用户产生厌倦。因此，为了解决上述挑战，我们提出了一个基于深度Q学习的推荐框架，可以明确地模拟未来的奖励。我们进一步考虑用户返回模式作为点击/不点击标签的补充，以获取更多的用户反馈信息。此外，结合有效的探索策略，为用户发现新的有吸引力的新闻。在一个商业新闻推荐应用的离线数据集和在线生产环境上进行了大量的实验，结果表明我们的方法具有优越的性能。

Deep Reinforcement Recommendation

考虑到新闻推荐的动态性和预测未来奖励的需求，采用深度q网络(Deep Q-Network, DQN)[31]对用户点击某条新闻的概率进行建模。在强化学习的设置下，用户点击一条新闻(以及未来推荐的新闻)的概率本质上是我们的智能体可以获得的奖励

如图3所示，我们的模型由离线部分和在线部分组成。在离线阶段，从新闻和用户中提取四种特征(将在4.2节中讨论)。利用多层深度q网络对这4类特征的回报(用户新闻点击标签和用户活跃度)进行预测。该网络使用离线用户新闻点击日志进行训练。然后，在在线学习部分，我们的推荐agent G将与用户进行交互，并以以下方式更新网络

如图4所示，我们将四类特征输入到网络中。将用户特征和上下文特征作为状态特征，将用户新闻特征和上下文特征作为动作特征。

Effective Recycling Planning for Dockless Sharing Bikes

近年来，共享单车系统由于其便利性，在城市交通系统中越来越受欢迎。然而，由于日常的高使用量和缺乏有效的维护，处于良好状态的自行车数量明显减少，在许多大城市出现了大量成堆的破损自行车。因此，对于经常使用自行车的人来说，要得到一辆可用的自行车变得更加困难，这在经济和环境方面都造成了问题。因此，构建有效的坏车预测和回收模型成为促进骑行行为的关键任务。文中基于大规模真实世界共享单车数据，提出了一种预测模型来检测损坏单车并推荐最优回收方案。结合现实约束来形式化我们的问题，并引入一个灵活的目标函数来调整自行车的破损概率和回收数量之间的权衡。最后，通过实验和案例分析验证了所提方法的有效性。

图2给出了我们的系统的概述，它由两个主要组件组成：

Fine-Grained Urban Flow Prediction

城市流量预测有益于智慧城市的诸多方面，如交通管理、风险评估等。然而，这些好处的一个关键前提是对城市有细致的了解。与以往局限于粗粒度数据的工作不同，本文将城市流量预测的视野扩展到细粒度，提出了特定的挑战:1)细粒度数据中观察到的网格间过渡的优势，使捕捉全球尺度上网格单元之间的空间依赖关系变得更加复杂;2)单独学习外部因素(如天气)对大量网格单元的影响非常具有挑战性。为了应对这两个挑战，本文提出了一种用于细粒度城市流量预测的时空关系网络(STRN)。首先，使用骨干网来学习每个cell的高级表示。提出了一个全局关系模块(GloNet)，与现有方法相比，能更有效地捕获全局空间依赖关系。设计了一个元学习器，将外部因素和地块功能(如POI密度)作为输入，以产生元知识并提高模型性能。在两个真实的数据集上进行了广泛的实验。实验结果表明，与目前最先进的方法相比，STRN在使用更少参数的情况下，误差降低了7.1% ~ 11.5%。此外，我们还部署了一个名为UrbanFlow 3.0的云系统，以展示该方法的实用性。

原因：

1) Global spatial dependencies

2) External factors &Land functions.

本文提出一种新的结构(GloNet)来捕获全局空间依赖关系。我们将一个城市划分为𝑁网格单元。与直接建模所有网格间相关性(完全𝑁2相关性)的DeepSTN+相比，在更高的语义级别(即区域级别)上执行关系推理，该级别对捕捉这种全局关系更友好。如图2(b)所示，我们首先执行从网格空间到区域空间(𝑀regions)的转换，然后通过消息传递推断全局区域相关性。由于区域语义随时间变化，基于最小割理论的新损失使模型能够动态地将地图划分为不规则区域。最后，将特征投影回网格空间，得到全局感知特征。这样，我们的方法只需要对所有区域对之间的𝑀2相关性进行建模1，其中通常𝑀≪𝑁。此外，提出一种基于矩阵分解的元学习器，使细胞对随时间变化的外部因素产生特异性响应。与DeepST和ST-ResNet相比，所提出的元学习器不仅考虑了潜区域函数，而且独立于map分辨率。因此，它在细粒度设置中更轻量和实用。与DeepSTN+相比，该模块可以捕捉细胞对外部因素的特异性反应，并学习到更好的表示

Inferring Traffic Cascading Patterns

在道路网络中存在着潜在的级联行为。交通级联模式对于疏导交通、改善城市规划具有重要意义。然而，我们可以观察到的是不同路段在离散时间间隔上的独立交通状况，而不是路段之间的明确交互或传播(例如，A→B)。此外，来自多个来源的交通和路段之间的地理空间相关性使推断模式更具挑战性。本文首先对交通传播中存在的3个方面的影响进行建模，然后提出了一种数据驱动的方法，通过最大化观测到的交通数据的似然来发现级联模式。由于该问题等价于一个次模函数最大化问题，基于该问题的子模性，我们采用一种近似算法来求解该问题，该算法可证明具有近似最优性能保证。在真实数据集上的广泛实验证明了所提出方法在有效性和效率上的优势

影响交通流量的主要原因

1) Implicit interaction:

2) Multiple sources

3) Geospatial correlations:

方法：

本文提出了一种基于生成概率的交通级联模式推断方法CasInf，该方法由三个主要部分组成:个体传播可能性(ITL)模型、环境强度(EMT)模型和级联模式构造算法

图3展示了我们方法的框架，包括四个主要部分:1)数据获取。我们从城市地区获得了四个真实的数据集，包括POIs数据、气象数据、道路网络数据和出租车轨迹数据。2)多源建模。我们提出ITL模型来推断道路对之间的传播可能性。同时，从真实数据中提取时空特征，利用EMT模型推断环境影响的强度。(我们在下面的写作中使用环境强度的简称)3)级联模式推断。我们从一个图上的多个源到多个传播树的似然和强度，并使用近似算法来有效地解决最大似然问题。4)评价。我们在这一部分证明了我们的方法的有效性和效率。我们将在以下部分分别详细介绍最后三个主要部分。

4 CASCADING PATTERN CONSTRUCTION

在本节中，我们将详细介绍如何通过生成概率模型将三重影响组合成级联模式。我们用“图”或“网”来表示级联模式，用“边”来表示级联模式中的“偶然链接”。

Matrix Factorization for Spatio-Temporal Neural Networks with Applications to Urban Flow Prediction∗

城市流量预测是城市风险评估和交通管理的基础，对人们的生命财产有着重要影响。近年来，一些专注于捕捉城市区域间时空关联的深度学习模型被提出用于城市流量预测。然而，这些模型忽略了对ST相关性影响较大的潜在区域函数。因此，需要有一个框架来辅助这些深度模型处理区域功能问题。然而，由于两个问题，它非常具有挑战性:1)如何使深度模型在考虑隐区域函数的情况下进行流预测;2)如何使框架泛化到各种深度模型。为应对这些挑战，本文提出一种采用矩阵分解的时空神经网络(MF-STN)的新框架，能够增强最先进的深度ST模型。

MF-STN由两个部分组成:1)ST特征学习器，通过现有深度模型中对应的子网络获取所有区域ST相关性的特征;2)特定于区域的预测器，利用学习到的ST特征进行特定于区域的预测。特别地，在神经网络中采用了矩阵分解，即将预测器的特定区域参数分解为可学习的矩阵，即区域嵌入矩阵和参数嵌入矩阵，以建模隐区域函数和区域之间的相关性。在两个真实数据集上进行了大量实验，结果表明MF-STN可以在保持模型复杂度的同时显著提升部分代表性ST模型的性能。

1)时空特征学习器。该组件将所有区域的流作为输入，旨在捕获每个区域具有流ST相关性的特征。ST特征学习器的输出，即所有区域的ST特征，将被用作后一个分量的输入，即特定区域的预测器。

2)区域的预测。该组件将ST特征学习器产生的ST特征作为输入，并使用它们进行预测。该预测器具有特定于区域的参数，可以看作是nr神经网络，每个nr神经网络分别对单个区域进行预测。

MTrajRec: Map-Constrained Trajectory Recovery via Seq2Seq Multi-task Learning

随着GPS模块的日益普及，基于轨迹数据的分析在城市中有着广泛的应用，如车辆导航、出行时间估计、驾驶员行为分析等。城市应用的有效性很大程度上依赖于与地图精确匹配的轨迹的高采样率。然而，在实际应用中，由于一定的通信损耗和能量限制，在低采样率下采集了大量的轨迹。为了增强轨迹数据，更有效地支持城市应用，许多轨迹恢复方法被提出来推断自由空间中的轨迹。此外，恢复后的轨迹仍需映射到路网中，才能在应用中使用。然而，先推断高采样率轨迹再进行map匹配的两阶段流程不准确且效率低下。为此，提出一种基于地图约束的轨迹恢复框架MTrajRec，用于恢复轨迹中的细粒度点并在路网上进行端到端的轨迹匹配。MTrajRec实现了一种多任务序列到序列学习架构，可以同时预测路段和移动率。提出约束掩码、注意力机制和属性模块，克服粗糙网格表示的局限性，提高性能。基于大规模真实轨迹数据的大量实验验证了该方法的有效性和高效性。

我们提出了一种新的模型——MTrajRec，它可以恢复缺失点并同时映射到路网中。

Adaptive Data Augmentation on Temporal Graphs

时态图网络(Temporal Graph Networks, TGNs)由于其增加的复杂性，在建模时态图数据方面具有强大的能力。更高的复杂度伴随着更高的过拟合风险，这使得TGNs捕获随机噪声而不是本质的语义信息。为了解决这个问题，我们的想法是使用具有自适应幅度的数据增强(DA)对时序图进行转换，从而有效地增强输入特征并保留基本的语义信息。基于此思想，本文提出MeTA(内存塔增强)模块:一个多层次模块，在单独的级别上处理不同量级的增强图，并跨级别执行消息传递，为每个预测提供自适应的增强输入。可以灵活地将MeTA应用于流行的TGNs训练中，在不增加时间复杂度的情况下提高其有效性。为补充MeTA，本文提出三种DA策略，通过修改时间和拓扑特征来真实地建模噪声。在标准数据集上的实验结果表明，MeTA在边预测和节点分类方面为流行的TGN模型带来了显著的提升

Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach

本文针对开放世界特征外推问题，其中输入数据的特征空间经过扩展，在部分观察特征上训练的模型需要处理测试数据中的新特征，而无需进一步重新训练。该问题对于处理从不同领域增量收集的特征具有重要意义。本文提出一种新的图表示和学习范式。该框架包含两个模块:1)一个骨干网络(如前馈神经网络)，作为较低模型，将特征作为输入并输出预测标签;2)图神经网络作为上层模型，通过通过从观察数据构建的featuredata图传递消息来学习推断新特征的嵌入。基于该框架，设计了两种训练策略，即自监督方法和归纳学习方法，以赋予模型外推能力并缓解特征级过拟合。本文还对新特征下测试数据的泛化误差进行了理论分析，剖析了训练特征和算法对泛化性能的影响。在几个分类数据集和大规模广告点击预测数据集上的实验表明，该模型可以为未见过的特征产生有效的嵌入，并显著优于采用KNN和局部聚合的基线方法。

Discovering Real-time Reachable Area using Trajectory Connections

发现指定位置的实时可达区域对于许多基于位置的应用具有重要意义。给定位置的实时可达区域随着环境的变化而变化。现有方法无法实时捕捉交通状况。首次尝试发现具有实时轨迹的实时可达区域。为了解决实时轨迹有限带来的数据稀疏问题，提出了一种轨迹连接技术，将经过同一位置的子轨迹连接起来。提出了一个结合索引和机器学习技术的框架:1)提出了一套索引和查询处理技术，以有效地找到具有任意数量轨迹连接的可达区域;2)基于多个数据集，提出在任何时间、任何位置预测最佳连接数。广泛的实验和一个案例研究证明了所提方法的有效性和高效性。

存在的问题：

这些方法忽略了交叉口的延误。此外，它们只能对常规交通状况进行建模，难以对交通事故等异常事件进行建模。在海量轨迹可用的情况下，[9]利用请求一小时内通过查询位置的历史轨迹来查找可达区域。然而，该方法没有考虑城市中天气、交通状况、事故等事件的实时上下文，不能直接应用于实时场景。

度约束k定义了连通轨迹中子轨迹的最大数量，提供了可达区域的覆盖率和可靠性之间的权衡。为了保证高可靠性，我们根据图1(d)设置1≤k≤5。此外，我们专注于在非常短的时间内发现可达区域，例如t≤30分钟，因为它可以满足大多数调度或应急场景。我们还有δ × k≥t，使连接可行

图2给出了该框架，包括离线学习和在线处理两个主要部分，生成三个数据流: 由于将索引技术应用于度约束模型的学习，我们将在第4节中介绍索引的建立和查询处理技术，在第5节中详细介绍度约束模型的训练和预测。

4 Index Building & Query Processing

Learning Latent Process from High-Dimensional Event Sequences via Efficient Sampling

目标是在没有任何标记关系先验知识的情况下对高维标记事件序列的潜在动态进行建模。现有工作很少研究这一问题，难以应对潜在的挑战:1)高维标记及其之间未知的关系网络为潜在动态过程建模带来了难以解决的障碍;2)一个观测到的事件序列可以同时包含多个不同的相互依赖的事件链;3)高维事件序列之间的距离难以准确定义。本文提出一种用于高维事件序列生成的对抗性模仿学习框架，可分解为:1)潜在结构强度模型，估计没有显式网络的相邻节点，并学习捕捉标记的潜在空间在观察序列上的时间动态;2)提出一种高效的基于随机游走的事件序列生成模型，从自底向上的角度模拟高维事件序列的生成过程;3)指定为seq2seq网络的鉴别器，优化奖励，以帮助生成器输出尽可能真实的事件序列。在人工数据集和真实数据集上的实验结果表明，该方法能够有效地检测标记之间的隐藏网络，并对未来标记事件做出较好的预测，即使标记数量达到百万级水平。

You Are How You Use: Catching Gas Theft Suspects among Diverse Restaurant Users

餐厅燃气盗窃是燃气行业的一大隐患，给燃气公司造成收入损失，严重危害公共安全。传统的燃气盗窃检测方法高度依赖于人工的主动努力，效率极低。借助智能电表采集的燃气消耗量数据，设计一种数据驱动的方法来解决这一问题。在只有稀缺标签的情况下，提出一种燃气盗窃检测方法msRank，以发现可疑餐厅用户。该方法包含三个主要部分:1)数据预处理，过滤读取噪声，排除数据缺失或零使用用户;2)正常用户建模，量化正常用户的自稳定季节性，区分正常用户和不稳定用户;(3)瓦斯盗窃嫌疑人检测，基于ranknet对提取的偏差特征进行可疑度评分，在不稳定用户中发现瓦斯盗窃嫌疑人。将检测到的正常用户作为负样本训练RankNet，将正常用户建模组件与窃气嫌疑人检测组件无缝连接，克服标签稀缺问题。在三个真实数据集上进行了广泛的实验，结果证明了所提出方法的优势。我们部署了GasShield系统，每周为中国北方的天然气集团提供天然气盗窃嫌疑人名单。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git