线性回归的基本原理(赤裸裸的统计学-)
线性回归的基本原理(赤裸裸的统计学-)
2024-09-29 01:53:21  作者:才没有晕  网址:https://m.xinb2b.cn/know/mjp490493.html

#统计学# #机器学习# #程序员# ,我来为大家科普一下关于线性回归的基本原理?下面希望有你要的答案,我们一起来看看吧!


线性回归的基本原理

#统计学# #机器学习# #程序员#

最近一直在读《赤裸裸的统计学》这本书,作为一本统计学的入门读物,非常浅显易懂的让人明白统计学是什么,能用来解决哪些具体的现实问题,还举了大量的例子,提供了计算思路。

这里我把自己的读书笔记分享一下。

回归分析,寻找的是两个变量之间的最佳拟合线性关系。回归分析 可以在控制其他因素的前提下,对某个具体的变量和某个特定的结果之间的关系进行量化(即我们可以在保持其他变量效果不变的情况下,将某个变量的效果分离出来)。

通过回归分析,我们不能确切证明运动可以预防心脏病,我们只是推翻了“运动与心脏病无关”这个零假设,即,如果这个假设成立,那么运动的和不运动的人得心脏病的比例出现很大的差异的概率将不到5%,如果超过了5%,那应该是原假设出错了。5%就使得该问题是否具有统计学意义。(统计学意义重大的含义是 出现这样的结果不可能是巧合或者随机误差)

当我们发现了一个具有统计学意义的现象,可能从社会学角度来看,其实无关紧要。这非常有可能,因为统计学是发现规律的一门科学,不是解释规律的一门科学,如果我们想知道这个完整的逻辑,我们需要找到中间逻辑传导环节。

回归分析,寻找最佳拟合,使用最小二乘法(OLS)来评估。OLS直线可以让所有数据的残差平方和最小。(残差:数据距离回归线的垂直高度,即Y轴的高度)。如果残差和越大,则拟合的越不好。

线性方程:y = a bx e,

* a 叫截距

* b 叫斜率,也叫回归系数

* e 叫残差

* x 叫自变量,也叫解释变量,或 控制变量

* y 叫因变量

对于回归系数,我们只需要关心3件事

* 正负:自变量和因变量之间是正相关还是负相关

* 大小 :自变量对因变量影响的大小,即斜率b。

* 含义:统计结果究竟能否反映普遍真相

R2 用来衡量所有能够用回归方程表示的数据总和。其意义是有多少数据点是可以用该线性方程来表示的,剩下的点就是没办法在线性回归方程上表示出来的。

* R2 为0时,表示回归方程预测的目标值不比“平均值”好多少。

* R2 为1时,表示回归方程可以完美预测样本中每个数据的目标值。

中心极限定理告诉我们,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的真实平均值。

标准误差(又叫标准误),对取自相同群体的多个样本进行回归分析所得出的回归系数的离散程度。

对于大型样本来说,正态分布是我们的好朋友,但是对小型样本来说,就不是我们的好朋友了。小样本情况我们称为“t分布”,就是说t分布比正态分布更加分散,左右两条“尾巴”的幅度更大。

通常我们使用的显著性水平的检验的阈值是 5%。一个经验法则,当回归系数至少是标准误差的2倍或以上时(即T统计量),该系数极有可能具备统计学意义。

如果x和y的相关性越大,那么b就会越大,当b为0时,x和y没有相关关系。

在有多个自变量的回归,称为 多元回归分析或多变量复回归分析。 每个自变量会有一个回归系数。

当样本量足够大的时候,我们就可以只抽出两个变量,同时控制一个子分组内的其他变量都相同,此时多元线性回归才比较有意义,如果样本量过少的话,回归越没有意义,因为没办法控制其他变量条件相同。

假定值:在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率。

T分布:指的是各种不同容量样本的概率密度集体(家族)。

自由度:样本中包含的数据越多,我们的自由度就越高,一个样本容量为10,自变量为1的回归分析中,自由度就是9. 自由度越高我们对该样本能够代表全体的信心就越高,其分布也会更加紧密(而不是离散),分布曲线更加接近正态分布的钟形曲线,数据离散程度越高,巧合的情况就越容易出现,推翻零假设的信心就越不足。P239. 随着自由度的增加,t分布逐渐向正态分布靠拢。

T统计量:就是 回归系数 与 该系数的标准误差的比。

概率密度:概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。

统计推断的过程:先提出一个零假设,然后依据一些观察数据来检验真伪,如果得到零假设的概率非常低(如5%),我们就推翻零假设。

  • 农村老屋改造设计院子(花3万改造荒废20年的农村老屋)
  • 2024-09-29花3万改造荒废20年的农村老屋#头条创作挑战赛#河北邯郸,一对进城务工的夫妻,下决心回乡定居,结束了漂泊的生活,花3万块把荒废20年的老宅装修一新,纯中式打造两夫妻自己设计,自己动手,加上邻居的帮助拆除院内两间平房,垫高院子,省了。
  • 类似暗黑破坏神的手机游戏(以下四款让你过足瘾)
  • 2024-09-29以下四款让你过足瘾《泰坦之旅》有攻击速度、移动速度、溅血、震动、反馈等效果,极限攻速一秒3刀了解一下目前手机上有8种职业,流派相当的多而且可以两两组合成一个新的职业除了资料片外,可以说完全还原了PC端的泰坦之旅强烈推荐。
  • 最强蜗牛物品升级顺序(启示之眼开始过剩)
  • 2024-09-29启示之眼开始过剩大家好!我是戒戒,专注于分享游戏心得和趣事的戒戒!启示之眼也叫“狗眼”是《最强蜗牛》手游里的一个装备合成重要组成部件,基本上游戏内所有装备想要升级到红装的话都需要用到它(地图探索装备除外),渐渐的启示。
  • 公立学校幼升小什么时候报名(幼升小家长注意了)
  • 2024-09-29幼升小家长注意了幼升小家长注意了,4月26日起开始小学网上报名上海市教委新闻办上海教育2020-04-2319:36幼升小的学生家长注意啦!完成幼升小信息登记后,须在“入学报名系统”进行在线报名,点击选择“公办小学报。
  • 这些小妙招让你增强免疫力(生活中这么做能提升你的免疫力)
  • 2024-09-29生活中这么做能提升你的免疫力张广才摄本周六是春分节气“春分者,阴阳相半也,故昼夜均而寒暑平”中医认为,春分时节是调理体内阴阳平衡、协调机体功能的养生好时机其实,养生的关键就是要提高自身免疫力一场疫情更是对个体免疫力提出挑战与考验。
  • lol泰坦最新比赛(LOL:泰坦背景故事与打法盘点)
  • 2024-09-29LOL:泰坦背景故事与打法盘点众所周知,泰坦在经历了一阵不温不火的时间以后,在这个版本又重新回到t一行列,小编昨天连续用泰坦爽了几把,简直就是要上天,什么辛吉德什么快乐偷男,都是浮云,今天小编就是要讲泰坦的故事比尔吉沃特一直流行着。
  • 服装企业如何建立品牌(成功从来都不怕晚)
  • 2024-09-29成功从来都不怕晚60后出生的她,从生产线做起,自学晋升至事业单位会计职位后却放弃安逸舒适的职位转而创业,一路起伏年近五十的她从零开始做电商并达到年销售过五千万,走上成功之路她就是上海建童服饰有限公司董事长——朱建华女。
  • 吉他简单的谱子初级入门(吉他初级入门曲谱)
  • 2024-09-29吉他初级入门曲谱第二期花粥的《一腔诗意喂了狗》最近真的很喜欢这首民腔调小曲儿当然,这曲子还算蛮适合初学者的,让我们来康康啦!这首歌采用简单g调,变调夹夹3品,共五个和弦GEMCDAM组成,适合饭后的闲暇小时光哈哈小伙。
  • 粉底液ysl排行榜前十名(谁说大牌粉底液又贵还不好用)
  • 2024-09-29谁说大牌粉底液又贵还不好用不化妆不出门,出门必化妆这是现在女性甚至是男性们的十一字箴言在化妆出门中,有全妆>淡妆>裸妆>只画眉毛口红>不化妆的鄙视链,你看看你在哪一条上说起化妆,粉底液必不可少,它是底妆的精髓,不少人都追求大牌。
  • 如何熬鸡油才鲜美(教你怎样熬制鸡油)
  • 2024-09-29教你怎样熬制鸡油小时候最盼着的就是过年,不仅新衣服穿,有糖果吃,还有每到过年才能熬制的油渣吃,那个时候只有每年杀了年猪以后,用自家的猪板油熬制的油渣,才是真香真酥真好吃的熬制的猪油就是一年的炒菜油了,那油渣自然就是用。
  • 不用油做出又薄又软的春饼(天热只想吃清淡的)
  • 2024-09-29天热只想吃清淡的春饼的做法有好几种我口味比较清淡,对于千层版的春饼,无论是蒸还是烙都消受不了,总觉得油味儿太大我自己做总是一滴油都不用,然后用热水,把水分加得足足的!做出来的饼干爽、柔软,直接吃也很好吃!如果你也是清。