数据挖掘算法（四）--线性回归

给定一个数据集{yi,xi1,...,xip}ni=1\{y_i,x_{i1},...,x_{ip}\}_{i=1}^{n} ，线性回归模型主要是为了找到变量yiy_i 和向量XX的线性关系。This relationship is modeled through a disturbance term or error variable εi — an unobserved random var

程序员学编程

1654人浏览 · 2017-10-08 21:32:35

程序员学编程 · 2017-10-08 21:32:35 发布

1、简单线性回归

简单线性回归是一个线性回归模型。一个独立变量和一个因变量，目的是找到的因变量和自变量之间的线性函数，尽可能准确地，预测因变量的值作为自变量的函数。这是常见的做法是：利用最小二乘方法使得残差（数据集的点和拟合线之间的垂直距离）最小化。找到残差最小时的拟合曲线即为我们要找的结果。
假设拟合曲线为：

y = β 0 + β 1 x

β1 <script type="math/tex" id="MathJax-Element-8064">\beta_1</script>和

y <script type="math/tex" id="MathJax-Element-8065">y</script>轴截距

β0<script type="math/tex" id="MathJax-Element-8066">\beta_0</script>,换成数学表达式就是找到

β0 <script type="math/tex" id="MathJax-Element-8067">\beta_0</script>和

β1 <script type="math/tex" id="MathJax-Element-8068">\beta_1</script>使得下面的表达式最小：

m i n \sum i = 1 n {y i - (β 0 + β 1 x i)} 2

= \sum i = 1 n {y i - (β 0 + β 1 x i)} 2

= \sum i = 1 n {y i - β 1 x i - β 0} 2

y∗=yi−β1xi <script type="math/tex" id="MathJax-Element-8072">y^*=y_i-\beta_1x_i</script>可以将上式简化为

= \sum i = 1 n {y * - β 0} 2

β0 <script type="math/tex" id="MathJax-Element-8074">\beta_0</script>等于

y∗ <script type="math/tex" id="MathJax-Element-8075">y^*</script>的平均值的时候才能使得上式最小。

β 0 = \sum y * i n = \sum ( y i - β 1 x i ) n = y ¯ - β 1 x ¯

β0 <script type="math/tex" id="MathJax-Element-8077">\beta_0</script>代入原始式子得到

= \sum i = 1 n {y i - β 1 x i - y ¯ + β 1 x ¯} 2

= \sum i = 1 n {y i - y ¯ - (x i - x ¯) β 1} 2

yi^=yi−y¯ <script type="math/tex" id="MathJax-Element-8080">\hat {y_{i}}=y_i-\overline{y}</script>和

xi^=xi−x¯ <script type="math/tex" id="MathJax-Element-8081">\hat {x_{i}}=x_i-\overline{x}</script>

=∑i=1n{yi^−xi^β1}2

β0 <script type="math/tex" id="MathJax-Element-8083">\beta_0</script> 的道理，

xi^β1 <script type="math/tex" id="MathJax-Element-8084">\hat {x_{i}}\beta_1</script>等于

yi^ <script type="math/tex" id="MathJax-Element-8085">\hat {y_{i}}</script>的均值时上式最小，这样的得到

β1 <script type="math/tex" id="MathJax-Element-8086">\beta_1</script>的解：

β 1 = \sum y i ^ x i ^ \sum x i ^ 2 = \sum ( y i - y ¯ ) ( x i - x ¯ ) \sum ( x i - x ¯ ) 2

β 1 = \sum ( y i - y ¯ ) ( x i - x ¯ ) / ( n - 1 ) \sum ( x i - x ¯ ) 2 / ( n - 1 )

β 1 = c o v ( y , x ) c o v ( x , x ) = c o v ( y , x ) v a r ( x )

2、线性回归

给定一个数据集 {yi,xi1,...,xip}ni=1 <script type="math/tex" id="MathJax-Element-1944">\{y_i,x_{i1},...,x_{ip}\}_{i=1}^{n}</script> ，线性回归模型主要是为了找到变量 yi <script type="math/tex" id="MathJax-Element-1945">y_i</script> 和向量 X <script type="math/tex" id="MathJax-Element-1946"></script>的线性关系。
This relationship is modeled through a disturbance term or error variable εi — an unobserved random variable that adds noise to the linear relationship between the dependent variable and regressors. Thus the model takes the form

待续。。。

参考资料：
1、https://en.wikipedia.org/wiki/Simple_linear_regression
2、https://en.wikipedia.org/wiki/Linear_regression

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git