使用openair包分析气象数据

气象数据通常是有规律的时间序列，分析气象数据时需要对空气质量测量、气象数据和扩散模型输出进行分析。openair 是用于分析空气质量数据或更广泛的大气成分数据的R软件包。该软件包广泛应用于学术界、公共和私营部门。该项目最初由英国自然环境研究委员会（NERC）资助，并由英国环境部（Defra）提供额外资金。

一个人旅行-

1820人浏览 · 2024-09-03 09:38:19

一个人旅行*-* · 2024-09-03 09:38:19 发布

气象数据通常是有规律的时间序列，分析气象数据时需要对空气质量测量、气象数据和扩散模型输出进行分析。openair 是用于分析空气质量数据或更广泛的大气成分数据的R软件包。该软件包广泛应用于学术界、公共和私营部门。

该项目最初由英国自然环境研究委员会（NERC）资助，并由英国环境部（Defra）提供额外资金。有关 openair 的最新信息可在软件包本身和本书网站 (The openair book) 上找到。

安装

#install.packages("openair") #未安装的需要安装软件，这里不重复安装

详情

该软件包的部分功能概述如下：

通过importAURN 和 family 函数访问英国数百个空气污染监测点的数据；

通过timeAverage 和 selectByDate 等实用功能更轻松地处理大气成分数据；

通过windRose 和 pollutionRose 灵活地绘制风玫瑰图和污染玫瑰图；

通过大多数函数中的 openair 类型选项灵活地绘制按小时或天、星期、季节等划分的数据；

通过更复杂的双变量极坐标图和条件概率函数帮助描述不同污染源的特征。

可访问 NOAA Hysplit 预先计算的年度96小时回溯轨迹以及许多绘图和分析功能，如轨迹频率、潜在污染源贡献函数和轨迹聚类。

使用上述灵活方法对空气质量模型进行评估的许多功能，如可按季节、时间等轻松评估模型的类型选项。这些功能包括关键模型统计、泰勒图、条件量值图。

实操

从英国城乡自动网络导入数据

可以轻松地从 100 多个站点导入每小时的数据，也可以一次导入多个站点和数年的数据。

library(openair)

## Warning: package 'openair' was built under R version 4.2.3

kc1 <- importAURN(site = "kc1", year = 2020)
kc1

## # A tibble: 8,784 × 15
##    source site     code  date                   co   nox   no2    no    o3   so2
##    <chr>  <chr>    <chr> <dttm>              <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
##  1 aurn   London … KC1   2020-01-01 00:00:00 0.214  64.8  46.2 12.1   1.13    NA
##  2 aurn   London … KC1   2020-01-01 01:00:00 0.237  74.1  45.0 19.0   1.20    NA
##  3 aurn   London … KC1   2020-01-01 02:00:00 0.204  60.5  41.4 12.4   1.50    NA
##  4 aurn   London … KC1   2020-01-01 03:00:00 0.204  53.5  39.8  8.93  1.60    NA
##  5 aurn   London … KC1   2020-01-01 04:00:00 0.169  37.7  33.6  2.63  5.79    NA
##  6 aurn   London … KC1   2020-01-01 05:00:00 0.160  43.3  36.8  4.25  6.09    NA
##  7 aurn   London … KC1   2020-01-01 06:00:00 0.157  48.2  39.4  5.76  2.74    NA
##  8 aurn   London … KC1   2020-01-01 07:00:00 0.178  60.5  44.7 10.3   1.20    NA
##  9 aurn   London … KC1   2020-01-01 08:00:00 0.233  71.8  47.9 15.6   2.25    NA
## 10 aurn   London … KC1   2020-01-01 09:00:00 0.329 128.   46.9 53.2   2.25    NA
## # ℹ 8,774 more rows
## # ℹ 5 more variables: pm10 <dbl>, pm2.5 <dbl>, ws <dbl>, wd <dbl>,
## #   air_temp <dbl>

使用 selectByDate 函数可以轻松选择相当复杂的时间段。例如，选择 2012 年 6 月至 9月工作日（周一至周五）上午 7 点至下午 7 点（含）的数据：

sub <- selectByDate(kc1,
  day = "weekday",
  year = 2020,
  month = 6:9,
  hour = 7:19
)
sub

## # A tibble: 1,144 × 15
##    date                source site    code      co   nox   no2    no    o3   so2
##    <dttm>              <chr>  <chr>   <chr>  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
##  1 2020-06-01 07:00:00 aurn   London… KC1   0.125   23.1 16.8  4.14   56.5  2.29
##  2 2020-06-01 08:00:00 aurn   London… KC1   0.133   25.2 17.8  4.79   61.7  2.68
##  3 2020-06-01 09:00:00 aurn   London… KC1   0.119   15.6 12.2  2.22   75.8  2.35
##  4 2020-06-01 10:00:00 aurn   London… KC1   0.104   13.8 11.1  1.79   87.1  1.57
##  5 2020-06-01 11:00:00 aurn   London… KC1   0.0956  14.0 11.8  1.46   96.7  1.44
##  6 2020-06-01 12:00:00 aurn   London… KC1   0.0985  11.3  9.97 0.893 106.   1.44
##  7 2020-06-01 13:00:00 aurn   London… KC1   0.0927  11.0  9.64 0.893 112.   2.03
##  8 2020-06-01 14:00:00 aurn   London… KC1   0.0927  12.5 10.8  1.14  114.   2.81
##  9 2020-06-01 15:00:00 aurn   London… KC1   0.0811  10.7  9.48 0.822 115.   2.88
## 10 2020-06-01 16:00:00 aurn   London… KC1   0.0898  13.9 11.9  1.29  104.   2.22
## # ℹ 1,134 more rows
## # ℹ 5 more variables: pm10 <dbl>, pm2.5 <dbl>, ws <dbl>, wd <dbl>,
## #   air_temp <dbl>

同样，用多种灵活的方法计算时间平均数据也很容易。例如，两周平均值的计算公式为

sub2 <- timeAverage(kc1, avg.time = "2 week")

type选项

openair 的一个重要方面是type选项的使用，几乎所有的 openair 函数都可以使用type选项。 type选项按变量的不同类别分割数据。在按不同日期值分割数据的基础上，type 有许多内置选项。以下是 type 的内置值摘要：

“year”按年份分割数据

“month”按年份中的月份分割变量

“monthyear”按年份和月份分割数据

“season”按季节分割变量。注意，在这种情况下，用户还可以提供一个半球选项，可以是 “北半球”（默认）或 “南半球”。

“weekday”按星期拆分变量。

“weekend”按周六、周日和工作日拆分变量。

“daylight”按夜间/白天拆分变量。需要注意的是，必须提供经度和纬度。

“dst”按夏令时和非夏令时分割变量。

“wd”如果有风向（wd），type = “wd”将把数据分割成 8 个扇区： N、NE、E、SE、S、SW、W、NW。

“seasonyear （或”yearseason”）“将把数据分成年-季区间，将一个季节的月份保持在一起。例如，2010 年 12 月被视为 2011 年冬季的一部分（与 2011 年 1 月和 2 月一起）。这样就更容易考虑连续的季节。相比之下，type =”季节 “只会将数据分成四季，而不考虑年份。

如果数据框架中存在分类变量，如站点，则可直接使用该变量，如 type = “站点”。

type也可以是数值变量。在这种情况下，数值变量会被分成4分位数变量，即包含相同数量点的 4 个分区。可以提供 n.levels 选项来指示使用多少个分位数水平。

示例

导入自带数据集mydata

data(mydata)
head(mydata)

## # A tibble: 6 × 10
##   date                   ws    wd   nox   no2    o3  pm10   so2    co  pm25
##   <dttm>              <dbl> <int> <int> <int> <int> <int> <dbl> <dbl> <int>
## 1 1998-01-01 00:00:00  0.6    280   285    39     1    29  4.72  3.37    NA
## 2 1998-01-01 01:00:00  2.16   230    NA    NA    NA    37 NA    NA       NA
## 3 1998-01-01 02:00:00  2.76   190    NA    NA     3    34  6.83  9.60    NA
## 4 1998-01-01 03:00:00  2.16   170   493    52     3    35  7.66 10.2     NA
## 5 1998-01-01 04:00:00  2.4    180   468    78     2    34  8.07  8.91    NA
## 6 1998-01-01 05:00:00  3      190   264    42     0    16  5.50  3.05    NA

数据集中包含日期、风向、风速及多个气态污染物的浓度数据。我们先来看一下总体风向的分布。

#绘制玫瑰图
windRose(mydata)

设置type选项为按年划分。

windRose(mydata,
  type = "year",
  layout = c(4, 2)
)

风向玫瑰图总结了监测站每年的风况。接下来我们使用双变量极坐标图查看空气污染的来源。

polarPlot(mydata,
  pollutant = "so2",
  statistic = "cpf",
  percentile = 90,
  cols = "YlGnBu"
)

二维极坐标图显示了导致污染物浓度升高的风力条件。

进一步地，可使用日历的方式呈现污染物水平的分布，如：

calendarPlot(mydata, pollutant = "o3", year = 2003)

可详细看到2003年度每一天的臭氧浓度水平的分布和变化。关于这个包还有非常多用途，详见https://davidcarslaw.com/files/openairmanual.pdf。感兴趣的大家可进一步探索，可使用自己的数据集利用该包中的函数进行分析和可视化。

References: Carslaw, D.C. and K. Ropkins, (2012). openair — an R package for air qualitydata analysis. EnvironmentalModelling&Software. Volume27-28,pp. 52–61.

欲探索更多R包使用方法，请关注微信公众号《单细胞学会》。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

自动化提示词生成工具盘点

腾讯云开发者社区

AI PPT免费使用技巧盘点：如何快速制作专业PPT？

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手