线性回归的基本原理(赤裸裸的统计学-)
线性回归的基本原理(赤裸裸的统计学-)
2024-09-27 03:01:42  作者:才没有晕  网址:https://m.xinb2b.cn/sport/mjp490493.html

#统计学# #机器学习# #程序员# ,我来为大家科普一下关于线性回归的基本原理?下面希望有你要的答案,我们一起来看看吧!


线性回归的基本原理

#统计学# #机器学习# #程序员#

最近一直在读《赤裸裸的统计学》这本书,作为一本统计学的入门读物,非常浅显易懂的让人明白统计学是什么,能用来解决哪些具体的现实问题,还举了大量的例子,提供了计算思路。

这里我把自己的读书笔记分享一下。

回归分析,寻找的是两个变量之间的最佳拟合线性关系。回归分析 可以在控制其他因素的前提下,对某个具体的变量和某个特定的结果之间的关系进行量化(即我们可以在保持其他变量效果不变的情况下,将某个变量的效果分离出来)。

通过回归分析,我们不能确切证明运动可以预防心脏病,我们只是推翻了“运动与心脏病无关”这个零假设,即,如果这个假设成立,那么运动的和不运动的人得心脏病的比例出现很大的差异的概率将不到5%,如果超过了5%,那应该是原假设出错了。5%就使得该问题是否具有统计学意义。(统计学意义重大的含义是 出现这样的结果不可能是巧合或者随机误差)

当我们发现了一个具有统计学意义的现象,可能从社会学角度来看,其实无关紧要。这非常有可能,因为统计学是发现规律的一门科学,不是解释规律的一门科学,如果我们想知道这个完整的逻辑,我们需要找到中间逻辑传导环节。

回归分析,寻找最佳拟合,使用最小二乘法(OLS)来评估。OLS直线可以让所有数据的残差平方和最小。(残差:数据距离回归线的垂直高度,即Y轴的高度)。如果残差和越大,则拟合的越不好。

线性方程:y = a bx e,

* a 叫截距

* b 叫斜率,也叫回归系数

* e 叫残差

* x 叫自变量,也叫解释变量,或 控制变量

* y 叫因变量

对于回归系数,我们只需要关心3件事

* 正负:自变量和因变量之间是正相关还是负相关

* 大小 :自变量对因变量影响的大小,即斜率b。

* 含义:统计结果究竟能否反映普遍真相

R2 用来衡量所有能够用回归方程表示的数据总和。其意义是有多少数据点是可以用该线性方程来表示的,剩下的点就是没办法在线性回归方程上表示出来的。

* R2 为0时,表示回归方程预测的目标值不比“平均值”好多少。

* R2 为1时,表示回归方程可以完美预测样本中每个数据的目标值。

中心极限定理告诉我们,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的真实平均值。

标准误差(又叫标准误),对取自相同群体的多个样本进行回归分析所得出的回归系数的离散程度。

对于大型样本来说,正态分布是我们的好朋友,但是对小型样本来说,就不是我们的好朋友了。小样本情况我们称为“t分布”,就是说t分布比正态分布更加分散,左右两条“尾巴”的幅度更大。

通常我们使用的显著性水平的检验的阈值是 5%。一个经验法则,当回归系数至少是标准误差的2倍或以上时(即T统计量),该系数极有可能具备统计学意义。

如果x和y的相关性越大,那么b就会越大,当b为0时,x和y没有相关关系。

在有多个自变量的回归,称为 多元回归分析或多变量复回归分析。 每个自变量会有一个回归系数。

当样本量足够大的时候,我们就可以只抽出两个变量,同时控制一个子分组内的其他变量都相同,此时多元线性回归才比较有意义,如果样本量过少的话,回归越没有意义,因为没办法控制其他变量条件相同。

假定值:在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率。

T分布:指的是各种不同容量样本的概率密度集体(家族)。

自由度:样本中包含的数据越多,我们的自由度就越高,一个样本容量为10,自变量为1的回归分析中,自由度就是9. 自由度越高我们对该样本能够代表全体的信心就越高,其分布也会更加紧密(而不是离散),分布曲线更加接近正态分布的钟形曲线,数据离散程度越高,巧合的情况就越容易出现,推翻零假设的信心就越不足。P239. 随着自由度的增加,t分布逐渐向正态分布靠拢。

T统计量:就是 回归系数 与 该系数的标准误差的比。

概率密度:概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。

统计推断的过程:先提出一个零假设,然后依据一些观察数据来检验真伪,如果得到零假设的概率非常低(如5%),我们就推翻零假设。

  • 牛乳雪糕奥利奥饼干(万物皆可奥利奥)
  • 2024-09-27万物皆可奥利奥最近迷上了做饼干,各种香松酥脆的饼干一个接着一个做,普通的原料,简单的配方,只需要将混合的面团擀成薄片,切压成自己喜欢的形状,再放进烤箱就能烤出一盘盘美味的饼干,简单实用还美味!今天给大家带来一款奥利。
  • 10年以前的国漫应该都不错吧(原来小时候看的国漫)
  • 2024-09-27原来小时候看的国漫#翻滚吧动漫君#01.那些“优秀”国漫我们的童年也算是多姿多彩了《四驱兄弟》为我们带来了第一份速度与激情、《犬夜叉》让我们知道什么叫生离死别、《魔卡小樱》让我们嗑上了第一对男女cp、《圣斗士星矢》让我。
  • 清明上坟烧纸有什么讲究 清明节祭祖一家坟
  • 2024-09-27清明上坟烧纸有什么讲究 清明节祭祖一家坟引言“清明时节雨纷纷,路上行人欲断魂”每到清明时节,杜牧的这一首《清明》又让人想起有人说,以前的清明时节比较热闹,全家族人都聚集到祖先的坟前祭拜,同时还举办一些有趣的活动,但如今情况不同,清明比较冷清。
  • 省油可靠还保值买这3款家轿最靠谱(性价比高颜值高)
  • 2024-09-27性价比高颜值高作为普通家庭用车,除了日常上下班,就是接孩买菜等等了,如果没有无关紧要的事情发生,很少有人会开着闲车在大街上晃悠作为居家过日子用车,速递哥今天就推荐几款虽没帝豪和朗逸等市场表现抢眼,但这些车也称得上“。
  • 蛇结和金刚结编法图解(三线蛇结编结过程)
  • 2024-09-27三线蛇结编结过程蛇结是中国结的基本结之一,蛇结是中国结的基本结之一,常用于项链带子,两根绳编结,长度根据所编物制定常用于项链带子,两根绳编结,长度根据所编物制定三线蛇结是蛇结变化结这里教大家如何编中国结三线蛇结编法,。
  • 苹果a16是4g芯片吗(苹果A16芯片GPU直接抄袭A15)
  • 2024-09-27苹果A16芯片GPU直接抄袭A15TechInsights公布了A16的透视图,根据他们描述是想探究下4nm工艺下的A16具体有哪些提升而从透视图来看A16确实比A15要大一些,晶体管数量增加6%的体积膨胀A16的CPU核心组成是Ev。
  • 如何能治疗膝盖长期疼痛(不是刀胜似刀)
  • 2024-09-27不是刀胜似刀“神奇!我膝酸痛5年,在这里通过小针刀治疗一次后疼痛就大大缓解,效果立竿见影!“近日,在广州中医药大学第三附属医院关节中心病房内,69岁的赵奶奶激动地说道据赵奶奶描述,她2020年11月在外院行左膝关。
  • 个人如何买五类意外保险(个人意外保险怎么选)
  • 2024-09-27个人意外保险怎么选好慧赔平台是专业的理赔咨询服务提供商,团队成员拥有多年保险理赔、法律咨询及临床医学背景及经验好慧赔会站在公立、公正的立场上,为保险合同双方考虑,给出协助解决保险理赔问题的最佳方案生活中意料之外的事情太。
  • 被骗扫二维码登录微信(盗销六千微信号用技术阻断号主找回)
  • 2024-09-27盗销六千微信号用技术阻断号主找回澎湃新闻首席记者谭君通讯员廖侣俊2020年8月以来,长沙市发生多起冒用政府和企业领导微信实施电信网络诈骗的案件长沙市公安局侦办发现,这是一个涉及全国10个省市区的“黑灰产”犯罪网络2020年以来,该“。