线性回归的基本原理(赤裸裸的统计学-)
线性回归的基本原理(赤裸裸的统计学-)
2024-09-30 04:04:53  作者:才没有晕  网址:https://m.xinb2b.cn/tech/mjp490493.html

#统计学# #机器学习# #程序员# ,我来为大家科普一下关于线性回归的基本原理?下面希望有你要的答案,我们一起来看看吧!


线性回归的基本原理

#统计学# #机器学习# #程序员#

最近一直在读《赤裸裸的统计学》这本书,作为一本统计学的入门读物,非常浅显易懂的让人明白统计学是什么,能用来解决哪些具体的现实问题,还举了大量的例子,提供了计算思路。

这里我把自己的读书笔记分享一下。

回归分析,寻找的是两个变量之间的最佳拟合线性关系。回归分析 可以在控制其他因素的前提下,对某个具体的变量和某个特定的结果之间的关系进行量化(即我们可以在保持其他变量效果不变的情况下,将某个变量的效果分离出来)。

通过回归分析,我们不能确切证明运动可以预防心脏病,我们只是推翻了“运动与心脏病无关”这个零假设,即,如果这个假设成立,那么运动的和不运动的人得心脏病的比例出现很大的差异的概率将不到5%,如果超过了5%,那应该是原假设出错了。5%就使得该问题是否具有统计学意义。(统计学意义重大的含义是 出现这样的结果不可能是巧合或者随机误差)

当我们发现了一个具有统计学意义的现象,可能从社会学角度来看,其实无关紧要。这非常有可能,因为统计学是发现规律的一门科学,不是解释规律的一门科学,如果我们想知道这个完整的逻辑,我们需要找到中间逻辑传导环节。

回归分析,寻找最佳拟合,使用最小二乘法(OLS)来评估。OLS直线可以让所有数据的残差平方和最小。(残差:数据距离回归线的垂直高度,即Y轴的高度)。如果残差和越大,则拟合的越不好。

线性方程:y = a bx e,

* a 叫截距

* b 叫斜率,也叫回归系数

* e 叫残差

* x 叫自变量,也叫解释变量,或 控制变量

* y 叫因变量

对于回归系数,我们只需要关心3件事

* 正负:自变量和因变量之间是正相关还是负相关

* 大小 :自变量对因变量影响的大小,即斜率b。

* 含义:统计结果究竟能否反映普遍真相

R2 用来衡量所有能够用回归方程表示的数据总和。其意义是有多少数据点是可以用该线性方程来表示的,剩下的点就是没办法在线性回归方程上表示出来的。

* R2 为0时,表示回归方程预测的目标值不比“平均值”好多少。

* R2 为1时,表示回归方程可以完美预测样本中每个数据的目标值。

中心极限定理告诉我们,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的真实平均值。

标准误差(又叫标准误),对取自相同群体的多个样本进行回归分析所得出的回归系数的离散程度。

对于大型样本来说,正态分布是我们的好朋友,但是对小型样本来说,就不是我们的好朋友了。小样本情况我们称为“t分布”,就是说t分布比正态分布更加分散,左右两条“尾巴”的幅度更大。

通常我们使用的显著性水平的检验的阈值是 5%。一个经验法则,当回归系数至少是标准误差的2倍或以上时(即T统计量),该系数极有可能具备统计学意义。

如果x和y的相关性越大,那么b就会越大,当b为0时,x和y没有相关关系。

在有多个自变量的回归,称为 多元回归分析或多变量复回归分析。 每个自变量会有一个回归系数。

当样本量足够大的时候,我们就可以只抽出两个变量,同时控制一个子分组内的其他变量都相同,此时多元线性回归才比较有意义,如果样本量过少的话,回归越没有意义,因为没办法控制其他变量条件相同。

假定值:在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率。

T分布:指的是各种不同容量样本的概率密度集体(家族)。

自由度:样本中包含的数据越多,我们的自由度就越高,一个样本容量为10,自变量为1的回归分析中,自由度就是9. 自由度越高我们对该样本能够代表全体的信心就越高,其分布也会更加紧密(而不是离散),分布曲线更加接近正态分布的钟形曲线,数据离散程度越高,巧合的情况就越容易出现,推翻零假设的信心就越不足。P239. 随着自由度的增加,t分布逐渐向正态分布靠拢。

T统计量:就是 回归系数 与 该系数的标准误差的比。

概率密度:概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。

统计推断的过程:先提出一个零假设,然后依据一些观察数据来检验真伪,如果得到零假设的概率非常低(如5%),我们就推翻零假设。

  • 细细品味的意思(细细品味的解释)
  • 2024-09-30细细品味的解释细细品味是仔细尝试滋味的意思品味的意思:(1)尝试滋味;品尝:经专家~,认为酒质优良(2)仔细体会;玩味:他经过细细~,才明白了那句话的含义(3)(物品的)品质和风味:由于吸收了异味,茶叶~大受影响(。
  • 铁三角耳机怎么样(铁三角蓝牙耳机介绍)
  • 2024-09-30铁三角蓝牙耳机介绍铁三角的AD系列耳机自发布以来便一直深受众多音乐发烧友的喜爱,代表性的“空气动圈”技术也被广人熟知当听闻这款铁三角ATH-GDL3电竞耳机也搭载了“空气动圈”技术的时候,笔者难免对它产生兴趣将HIFI。
  • 薯条怎么做不用冰箱也做得很好吃(薯条这样做不用冷冻)
  • 2024-09-30薯条这样做不用冷冻今天是九月的第一天,明天女儿就开学了,要求了一天想吃妈妈给她炸的薯条挑了一个大土豆,洗干净,削皮切成条,土豆条粗细根据自己的喜好决定用开水焯一分钟捞出控干水分油温四五成热时放入控干水分的土豆条,小火慢。
  • 80岁以上护牙方法(残根修复再利用)
  • 2024-09-30残根修复再利用“牙齿不好太遭罪,平时只能吃点煮烂的蔬菜,喝点汤汤水水,原本享受美食应该是乐事,现在吃饭完全是例行公事”今年已76岁家住长宁区的李阿姨说道:“满嘴松牙、残根,还有几颗完全脱落最近又是吃蟹的好时节,我是。
  • 米汤圆的制作方法(原来自制简易版黄米汤圆才是真正的米饭杀手)
  • 2024-09-30原来自制简易版黄米汤圆才是真正的米饭杀手小时候在老家,正月十五都是家里自制汤圆,后来为了方便去超市买,缺少了制作过程,好像元宵节不太完美现在工作繁忙,没时间仔细去做馅料,就用这个简易版代替一下吧By舌尖上的幸福味道用料大黄米面210克热水1。
  • 炖棒骨的家常做法大全(炖棒骨做法步骤)
  • 2024-09-30炖棒骨做法步骤做法一:准备用料韭苔、大腿骨、花椒、八角、辣椒、豆蔻、丁香、盐、老抽买来的大腿骨用水清洗干净浸泡,放入开水锅中焯一下去除血污;焯过水的骨头再用清水冲洗干净;放入高压锅中加入调料,盐和少许老抽;打到煮肉。
  • 纯的组词(汉字纯的组词)
  • 2024-09-30汉字纯的组词清纯[qīngchún]清新纯净纯洁[chúnjié]纯净洁白单纯词[dānchúncí]只含一个语素的词如:山、水、徘徊、吩咐(两个字合起来才有意义)纯净物[chúnjìngwù]纯净物是指由一种单。
  • 无锡市南长区属于哪个区(无锡市南长区是哪个区的)
  • 2024-09-30无锡市南长区是哪个区的无锡市南长区属于属于南长区南长区,原南长区是无锡市三个中心城区之一,位于无锡市区东南部,是无锡城区的南大门,西濒新运河,东倚沪宁铁路、沪宁高速公路和312国道,南临硕放机场和无锡新加坡工业园,北接市内。
  • 火影忍者博人传漩涡博人关系(火影忍者博人传)
  • 2024-09-30火影忍者博人传  日本动漫《火影忍者博人传》动画第25集9月20日正式更新,标题是“修学旅行风波”,本集主要讲的是漩涡博人的班级要进行修学旅行,前去水之国的雾隐村,没想到的是如今的雾隐村变得相当的现代,与以往残暴的。