线性回归的基本原理(赤裸裸的统计学-)
线性回归的基本原理(赤裸裸的统计学-)
2024-11-25 01:24:24  作者:才没有晕  网址:https://m.xinb2b.cn/know/mjp490493.html

#统计学# #机器学习# #程序员# ,我来为大家科普一下关于线性回归的基本原理?下面希望有你要的答案,我们一起来看看吧!


线性回归的基本原理

#统计学# #机器学习# #程序员#

最近一直在读《赤裸裸的统计学》这本书,作为一本统计学的入门读物,非常浅显易懂的让人明白统计学是什么,能用来解决哪些具体的现实问题,还举了大量的例子,提供了计算思路。

这里我把自己的读书笔记分享一下。

回归分析,寻找的是两个变量之间的最佳拟合线性关系。回归分析 可以在控制其他因素的前提下,对某个具体的变量和某个特定的结果之间的关系进行量化(即我们可以在保持其他变量效果不变的情况下,将某个变量的效果分离出来)。

通过回归分析,我们不能确切证明运动可以预防心脏病,我们只是推翻了“运动与心脏病无关”这个零假设,即,如果这个假设成立,那么运动的和不运动的人得心脏病的比例出现很大的差异的概率将不到5%,如果超过了5%,那应该是原假设出错了。5%就使得该问题是否具有统计学意义。(统计学意义重大的含义是 出现这样的结果不可能是巧合或者随机误差)

当我们发现了一个具有统计学意义的现象,可能从社会学角度来看,其实无关紧要。这非常有可能,因为统计学是发现规律的一门科学,不是解释规律的一门科学,如果我们想知道这个完整的逻辑,我们需要找到中间逻辑传导环节。

回归分析,寻找最佳拟合,使用最小二乘法(OLS)来评估。OLS直线可以让所有数据的残差平方和最小。(残差:数据距离回归线的垂直高度,即Y轴的高度)。如果残差和越大,则拟合的越不好。

线性方程:y = a bx e,

* a 叫截距

* b 叫斜率,也叫回归系数

* e 叫残差

* x 叫自变量,也叫解释变量,或 控制变量

* y 叫因变量

对于回归系数,我们只需要关心3件事

* 正负:自变量和因变量之间是正相关还是负相关

* 大小 :自变量对因变量影响的大小,即斜率b。

* 含义:统计结果究竟能否反映普遍真相

R2 用来衡量所有能够用回归方程表示的数据总和。其意义是有多少数据点是可以用该线性方程来表示的,剩下的点就是没办法在线性回归方程上表示出来的。

* R2 为0时,表示回归方程预测的目标值不比“平均值”好多少。

* R2 为1时,表示回归方程可以完美预测样本中每个数据的目标值。

中心极限定理告诉我们,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的真实平均值。

标准误差(又叫标准误),对取自相同群体的多个样本进行回归分析所得出的回归系数的离散程度。

对于大型样本来说,正态分布是我们的好朋友,但是对小型样本来说,就不是我们的好朋友了。小样本情况我们称为“t分布”,就是说t分布比正态分布更加分散,左右两条“尾巴”的幅度更大。

通常我们使用的显著性水平的检验的阈值是 5%。一个经验法则,当回归系数至少是标准误差的2倍或以上时(即T统计量),该系数极有可能具备统计学意义。

如果x和y的相关性越大,那么b就会越大,当b为0时,x和y没有相关关系。

在有多个自变量的回归,称为 多元回归分析或多变量复回归分析。 每个自变量会有一个回归系数。

当样本量足够大的时候,我们就可以只抽出两个变量,同时控制一个子分组内的其他变量都相同,此时多元线性回归才比较有意义,如果样本量过少的话,回归越没有意义,因为没办法控制其他变量条件相同。

假定值:在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率。

T分布:指的是各种不同容量样本的概率密度集体(家族)。

自由度:样本中包含的数据越多,我们的自由度就越高,一个样本容量为10,自变量为1的回归分析中,自由度就是9. 自由度越高我们对该样本能够代表全体的信心就越高,其分布也会更加紧密(而不是离散),分布曲线更加接近正态分布的钟形曲线,数据离散程度越高,巧合的情况就越容易出现,推翻零假设的信心就越不足。P239. 随着自由度的增加,t分布逐渐向正态分布靠拢。

T统计量:就是 回归系数 与 该系数的标准误差的比。

概率密度:概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。

统计推断的过程:先提出一个零假设,然后依据一些观察数据来检验真伪,如果得到零假设的概率非常低(如5%),我们就推翻零假设。

  • 二年级孩子成绩差怎么办(家长怎么做)
  • 2024-11-25家长怎么做很多家长一看到孩子的成绩单,还没等到孩子解释,就开始责骂和责怪了,这样的后果只会让孩子对这门学科产生厌学情绪可以先心平气和的和孩子沟通,大家一起去找原因,可以让孩子先自己找原因,然后家长再结合自己的观。
  • 天津港东疆自贸区(庆祝改革开放40周年)
  • 2024-11-25庆祝改革开放40周年汽车在天津滨海新区东疆保税港区内徐徐而行,移植而来的整齐笔直的行道树已经枝繁叶茂,一排排集装箱货柜整齐陈列,进口商品直营中心、平行进口汽车展厅令人目不暇接……谁能想到,十几年前“潮涨一片海,潮落一滩泥。
  • 富士山历次喷发的时间
  • 2024-11-25富士山历次喷发的时间史上关于喷发的文字记载有:公元800年—802年(日本延历19—21年)的“延历喷发”,以及864年(日本贞观6年)的贞观喷发富士山最后一次喷发是在1707年(日本宝永4年),这次由宝永山(富士山火山。
  • 五年级书下册语文第3课月是故乡明(部编五年级语文)
  • 2024-11-25部编五年级语文文/家长有智慧电子教材点击图片,查看大图▼▼▼▼知识点教材分析:《月是故乡明》是季羡林先生在耄耋之年写下的文章老先生以月作为抒情线索,通过对故乡和自己童年生活的回忆,特别是对故乡月色的动人描写,抒发了。
  • 黄豆可不可以和黑豆一起打豆浆(爱喝豆浆的看看)
  • 2024-11-25爱喝豆浆的看看黄豆和黑豆是可以一起打豆浆的一方面,黄豆和黑豆在成分上不会发生化学反应导致营养物变质,另一方面一起吃也不会引起身体不适不仅如此,黄豆和黑豆都是营养价值很高的粗粮食品不仅可以补充蛋白质,还可以补钙,预防。
  • 大量废纸箱怎么废物利用(洛阳一老人将打包带废物利用)
  • 2024-11-25洛阳一老人将打包带废物利用一条条废弃的打包带,半天就变成了漂亮的菜篮昨日上午,69岁的周杰正在家里忙活着,旁边摆着好几个编好的菜篮“这些都是邻居们预订的”周杰笑着说在涧西区重庆路二社区,提起周杰,不少人都会竖起大拇指:“她是一。
  • 袁世凯死后还造有袁的银元吗(袁世凯只当了83天皇帝)
  • 2024-11-25袁世凯只当了83天皇帝袁世凯,可以说是中国近现代史上,在位时间最短的“皇帝”了从他窃取辛亥革命胜利果实,到倒行逆施称帝,再到被民众赶下台,前前后后在位的时间加起来不过83天然而,谁也没有想到,袁世凯在位的前后这段时间,中国。
  • 备孕成功的6个小信号千万别忽视(备孕的黄金期就要来了)
  • 2024-11-25备孕的黄金期就要来了炎热的高温天气终于过去了,精子发育成熟的最佳时间已经临近了,在此提醒备孕的朋友们提前准备,抓住快要到来的备孕“黄金”期!一般来说,每年的秋冬和春夏之交,都是备孕的黄金时期,这期间男性精子的“活力和耐力。
  • 吴越饰演过的角色(吴越如梦之梦出演顾香兰)
  • 2024-11-25吴越如梦之梦出演顾香兰所有的人对于失去都有焦虑,如果没有,要么是没心没肺,要么是已经彻底接受和看破我现在想努力做到第二种春节后,位于徐家汇美罗城的上剧场又开始忙碌,一个让所有人期待的北京央华时代制作舞台剧——赖声川八小时剧。
  • 香港有几个海鲜舫(香港珍宝海鲜舫遇风浪沉没)
  • 2024-11-25香港珍宝海鲜舫遇风浪沉没北京日报客户端承载几代港人集体回忆的“珍宝海鲜舫”,因找不到合适的运营方,加之海事牌照将到期,于本月14日移离香港据香港仔饮食集团20日消息,该船只18日下午行驶至南海西沙群岛附近水域时遇上风浪,船身。
  • 赤水丹霞景区官网(赤水丹霞旅游区)
  • 2024-11-25赤水丹霞旅游区导语:“绿杨烟外晓寒轻,红杏枝头春意闹”春天来了,树叶绿了,花朵绽放了,一些景区在确保做好疫情防控的前提下,分区分级,有序开放新华网旅游频道推出《“疫”后花开迈向诗和远方》大型融媒体专题,关注景区有序。
  • 风云里剑二十三最厉害吗(风云拜剑山庄出产的四大神兵)
  • 2024-11-25风云拜剑山庄出产的四大神兵风云之中要说神兵是一个十分神奇的,有的是可以自己自动形成的,有的是神创造的,而有的则是人为铸就的要说人铸就神兵,《风云》之中就有一个身份特殊的势力,专门出产神兵利器拜剑山庄出品的神兵大多都是优质的神兵。