目录

前言

课题背景和意义

实现技术思路

实现效果图样例


前言


    📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

大家好,这里是海浪学长毕设专题,本次分享的课题是

🎯基于大数据的PM2.5浓度预测的研究

课题背景和意义

随着中国经济的快速发展,以 PM2.5 为主要污染物的雾霾天气频频发生,环境保护是 一项紧迫的任务。如今我国已经逐步建立了环境监测系统,但是环境监测站产生的大量数 据并没有得到充分的利用,在空气质量状况尚未得到根本改善的情况下,利用历史数据对 PM2.5 浓度进行预测,帮助公众合理的规避污染也帮助政府提供充裕的管理时间是非常有 意义的事。

实现技术思路

预测方法

自从上个世纪 70 年代以来,产生了各式各样的空气质量预测的技术和工具,张兵兵 (2017)指出可以根据他们使用方法的复杂性分为以下三类: 简单的经验主义:一个典型的例子就是持久性方法,该方法是所有的实时空气质量预 第一章 绪论 2 测的方法中最快的方法,但是无法处理骤变的情况,准确性不高。 统计方法:基于天气和空气质量变量在统计上相关的事实,它根据外部条件使用不同 的函数来预测污染物的浓度。常用方法包括分类、回归树、回归方法、人工神经网络、模 糊逻辑和决策树等。 基于物理的方法:空气质量确定模型,也称为化学转移模型,通过质量守恒定理和化 学物质以及物理状态的状态转变,清楚地表明气象过程、物理过程和化学的形成积累处理。 目前,两种主流的关于大气环境预测方法分别为基于物理的方法和统计方法。基于物 理的方法的预测需要高质量的输入因子,不仅需要收集历史污染物浓度,气象数据,还要 考虑大气的初始状态,边界条件等。该模型的预测时间范围在一周内,相比之下技术成熟, 物理基础稳固但输入因素不易获得。而统计方法预测模型则是基于数据,这里的数据是指 历史污染物浓度和气象数据。相比之下统计预测模型更简单、经济且更加容易实现,适用 范围也更加的广泛。因此本文研究的是关于 PM2.5 浓度预测的统计预测模型。

(1)获取数据,并对获取的数据进行清洗整理等预处理操作。 (2)研究 PM2.5 预测模型,从传统的多元线性回归模型出发不断进行优化,直至得 出一个精度较高,适用性较强的预测模型。 (3)针对严重污染天气的探究。当 PM2.5 的浓度均值大于 250 3 g/m 时,称为严重污 染,对应我国空气质量等级的第六级,此时的空气中的污染物会对人体产生毒害。利用朴 素贝叶斯理论进行数据分类研究,并且对非平衡数据集进行进一步讨论,实践证明该方法 在 PM2.5 预测尤其是严重污染天气的识别中具有一定的应用价值。 本文研究的流程图如下所示:

多元线性回归模型

 朴素贝叶斯算法

朴素贝叶斯算法是常用的分类方法,算法基石是贝叶斯定理和特征条件独立假设,本 文通过朴素贝叶斯算法进行严重污染的异常天气的预判。对于训练数据集,学习不同天气 的先验概率,然后在特征条件独立假设前提下,学习联合概率分布,然后基于此模型,对 于给定的输入数据 x ,利用贝叶斯定理求出后验概率最大的输出 y 即分类结果。

贝叶斯定理

对于两个随机变量 X 和 Y,分别定义在输入空间(所有可能的输入集合)和输出空间 (所有可能的输出集合)。在 X 取值为 x 的条件下 Y 为 y 的概率称为条件概率记为 P( y | x) , 即 P( y | x) = P(Y = y | X = x) ,当 X 取值 x 且 Y 取值为 y 的联合概率记为 P(x, y) ,即 P(x, y) = P(X = x,Y = y) 。基本的求解公式如下: , P( , ) P( | ) P( ). P( ) P( , ) P( | ) x y x y y x x y y x = =  设 X 代表输入数据,Y 表示输出结果, P( y) 表示 Y = y 的先验概率, P(x) 表示 X = x 的先验概率, P( y | x) 表示基于输入数据 X 的输出结果 Y 的后验概率。由上可得贝叶斯公 式:

数据预处理

现实世界中的大部分数据都是“脏数据”,这种数据如果直接进行分析或者挖掘,将 无法得到有可信度的结果,所以数据预处理技术应运而生。数据预处理包括很多种方法: 数据清理、数据集成、数据变换、数据归约等。这些工作在数据分析、挖掘之前进行,会 大大提高模型的质量,同时减少消耗时间。 数据预处理在进行任何数据科学研究中都是非常关键的一步,实践证明,对数据进行 预处理,不仅可以节省成本使训练数据和学习模型的时间大大减少,最终得到的模型也会 有比较高的精确度。总之,对于数据建立模型的过程中,不仅要注重模型优化和参数优化, 数据的预处理也是不能忽视的一步。

数据清洗

本文的原始数据来自 UCI 网站共享,但已经 DC 竞赛平台预处理为更适合回归的数据 集。为了使数据更加适应本文所采用的模型,为了更好的拟合效果。仍需要考虑数据读取 和其他故障所引起的数据不完整、数据读取故障、数据重复、数据特征缺失等各种状况, 因此需要对数据进行进一步数据清洗,数据清洗包括一致性检查,无效值和缺失值的处理, 异常值和数据类型的处理。 (1)一致性检验 一致性检验是基于合理的值范围和每个变量之间的关系,检查数据之间的关系并找出 正常范围或矛盾值。例如原数据中的气压(hpa)和风速(m/s)不应出现负值。 (2)缺失值处理 由于数据采集或者数据读取中出现错误,数据中可能存在一些缺失值,对于缺失值的 处理一般的处理方式有以下几种: 1)直接删除:适合数据量很大,且出现没有规律,删除以后对整体的影响并不大。 2)估算:用对应群体的样本均值、中位数或者众数进行替代,这种方法简单易行。 3)随机插补法:从总体中随机抽取某个样本替代缺失值,本文采用这种处理方式。

数据变换

数据读入之后,查看数据类型发现日期数据 date 的数据类型并不是常规的日期数据类 型,使用常见的数据科学包 pandas 包中的 pd.to_datetime()函数更改成日期的时间数据类型。 同时,根据日期数据拆分成年、月、日,单独成列且一一对应,以便更好的进行数据研究, 至此,本文的数据预处理完成。

数据描述

数据集包含北京市从 2010 年 1 月 2 日 0 时至 2014 年 12 月 31 日 23 时的 35746 条数 据,数据显示这段时间的 PM2.5 浓度的最大值为 994,最小为 0;温度(TEMP)的最高值为 41,最小值为-19;露点(DEWP)值最高 28,最低-40;压强(PRES)最大值为 1046,最小值 为 992;累计风速(Iws)最大为 565.49,最小为 0.45;而累计降雪(Is)和累计降雨(Ir)最大 值分别是 27 和 36,最小值为 0。为了研究 PM2.5 的时间序列规律,针对不同的月份、日 期、小时,画出 PM2.5 均值变化特征如下:

实现效果图样例

我是海浪学长,创作不易,欢迎点赞、关注、收藏、留言。

毕设帮助,疑难解答,欢迎打扰!

最后

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐