线性回归的基本原理（赤裸裸的统计学-）

线性回归的基本原理（赤裸裸的统计学-）

2024-11-08 02:07:20 作者:才没有晕网址:https://m.xinb2b.cn/sport/mjp490493.html

#统计学# #机器学习# #程序员# ，我来为大家科普一下关于线性回归的基本原理?下面希望有你要的答案，我们一起来看看吧!

线性回归的基本原理

#统计学# #机器学习# #程序员#

最近一直在读《赤裸裸的统计学》这本书，作为一本统计学的入门读物，非常浅显易懂的让人明白统计学是什么，能用来解决哪些具体的现实问题，还举了大量的例子，提供了计算思路。

这里我把自己的读书笔记分享一下。

回归分析，寻找的是两个变量之间的最佳拟合线性关系。回归分析可以在控制其他因素的前提下，对某个具体的变量和某个特定的结果之间的关系进行量化（即我们可以在保持其他变量效果不变的情况下，将某个变量的效果分离出来）。

通过回归分析，我们不能确切证明运动可以预防心脏病，我们只是推翻了“运动与心脏病无关”这个零假设，即，如果这个假设成立，那么运动的和不运动的人得心脏病的比例出现很大的差异的概率将不到5%，如果超过了5%，那应该是原假设出错了。5%就使得该问题是否具有统计学意义。（统计学意义重大的含义是出现这样的结果不可能是巧合或者随机误差）

当我们发现了一个具有统计学意义的现象，可能从社会学角度来看，其实无关紧要。这非常有可能，因为统计学是发现规律的一门科学，不是解释规律的一门科学，如果我们想知道这个完整的逻辑，我们需要找到中间逻辑传导环节。

回归分析，寻找最佳拟合，使用最小二乘法（OLS）来评估。OLS直线可以让所有数据的残差平方和最小。（残差：数据距离回归线的垂直高度，即Y轴的高度）。如果残差和越大，则拟合的越不好。

线性方程：y = a bx e，

* a 叫截距

* b 叫斜率，也叫回归系数

* e 叫残差

* x 叫自变量，也叫解释变量，或控制变量

* y 叫因变量

对于回归系数，我们只需要关心3件事

* 正负：自变量和因变量之间是正相关还是负相关

* 大小：自变量对因变量影响的大小，即斜率b。

* 含义：统计结果究竟能否反映普遍真相

R2 用来衡量所有能够用回归方程表示的数据总和。其意义是有多少数据点是可以用该线性方程来表示的，剩下的点就是没办法在线性回归方程上表示出来的。

* R2 为0时，表示回归方程预测的目标值不比“平均值”好多少。

* R2 为1时，表示回归方程可以完美预测样本中每个数据的目标值。

中心极限定理告诉我们，一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的真实平均值。

标准误差（又叫标准误），对取自相同群体的多个样本进行回归分析所得出的回归系数的离散程度。

对于大型样本来说，正态分布是我们的好朋友，但是对小型样本来说，就不是我们的好朋友了。小样本情况我们称为“t分布”，就是说t分布比正态分布更加分散，左右两条“尾巴”的幅度更大。

通常我们使用的显著性水平的检验的阈值是 5%。一个经验法则，当回归系数至少是标准误差的2倍或以上时（即T统计量），该系数极有可能具备统计学意义。

如果x和y的相关性越大，那么b就会越大，当b为0时，x和y没有相关关系。

在有多个自变量的回归，称为多元回归分析或多变量复回归分析。每个自变量会有一个回归系数。

当样本量足够大的时候，我们就可以只抽出两个变量，同时控制一个子分组内的其他变量都相同，此时多元线性回归才比较有意义，如果样本量过少的话，回归越没有意义，因为没办法控制其他变量条件相同。

假定值：在零假设成立的前提下，出现所观察样本结果以及更极端情况的概率。

T分布：指的是各种不同容量样本的概率密度集体（家族）。

自由度：样本中包含的数据越多，我们的自由度就越高，一个样本容量为10，自变量为1的回归分析中，自由度就是9. 自由度越高我们对该样本能够代表全体的信心就越高，其分布也会更加紧密（而不是离散），分布曲线更加接近正态分布的钟形曲线，数据离散程度越高，巧合的情况就越容易出现，推翻零假设的信心就越不足。P239. 随着自由度的增加，t分布逐渐向正态分布靠拢。

T统计量：就是回归系数与该系数的标准误差的比。

概率密度：概率指事件随机发生的机率，对于均匀分布函数，概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度，它的值是非负的，可以很大也可以很小。

统计推断的过程：先提出一个零假设，然后依据一些观察数据来检验真伪，如果得到零假设的概率非常低（如5%），我们就推翻零假设。

老师把我们培养成好学生的作文学生作文我是一条狗
2024-11-08老师把我们培养成好学生的作文学生作文我是一条狗小学生给人的感觉就是可可爱爱，脑洞很大，经常语出惊人，小学时期，老师就会引导大家写一些简单的作文，小学生写出来的作文大多都是脑洞很大的作文，想到什么就写什么，完全没有顾虑，便导致写出来的作文内容让人哭。

淮安十大地标美食（淮安六大美食）
2024-11-08淮安六大美食淮扬菜是中国传统四大菜系之一，发源于淮安、扬州菜系充满淮、扬特点原料多以水产为主，淮扬菜系大多以江湖河鲜为主料，以顶尖烹艺为支撑，以本味本色为上乘，以妙契众口为追求，雅俗共赏而不失其大雅，尤其是。

东北大林蛙正宗做法：另类美食东北林蛙
2024-11-08东北大林蛙正宗做法：另类美食东北林蛙现在若给我端上一盘红烧哈士蟆，我依旧会造个七七八八年轻时我一次最多吃过15只蛤蟆那是到一个乡镇采访，镇里安排的便饭此地民风至今未变，每到这个季节去农村，餐桌上能出现一盘蛤蟆算是山沟里的最高礼遇了那次有。

什么沙发品牌质量好（沙发最好的品牌排行榜）
2024-11-08沙发最好的品牌排行榜轻奢风格是最近比较热门的主流装修风格，以简约的空间与华丽端庄的软装与颜色搭配为主，营造出一种独特优雅的档次感，让空间显得闲适轻松而又有档次的氛围感今天就为大家介绍下意式轻奢沙发哪个牌子好FendiCa。

舌战群儒什么意思（舌战群儒解释）
2024-11-08舌战群儒解释舌战群儒，汉语成语，拼音是shézhànqúnrú，意思是指同很多人辩论，并驳倒对方出自《三国演义》明·罗贯中《三国演义》第43回：“诸葛亮舌战群儒”东汉末年，刘表去世，刘琮投降曹操，形势对刘备与孙权。

4部兄弟情义的电影（充满兄弟情谊的5部影片）
2024-11-08充满兄弟情谊的5部影片1.《冲出亚马逊》该影片讲述了，1948年解放战争时期，连长谷子地率领九连47名战士在汶河岸执行掩护大部队撤退的任务，团长刘泽水下令，以集结号为令，听见号响就撤退惨烈的战争在炮弹的轰鸣中开始，九连的战。

黑头闭口痘印（痘博士闭口痘痘）
2024-11-08痘博士闭口痘痘生活中，我们经常会听到身边的朋友这样说，最近又开始长痘痘、闭口、白头、黑头......但这些耳熟能详并且几乎让每个女生近乎发狂的肌肤问题到底是什么，有什么区别？大家能分清楚吗？首先，我们先来了解下闭口。

张卫健的个人介绍（张卫健有多难两次恋爱失败）
2024-11-08张卫健有多难两次恋爱失败相信80后90后的朋友，对张卫健这个名字绝对有印象，当年的《小宝与康熙》、《少年英雄方世玉》、《西游记》里都有精彩的表现他的那句“我系如来佛祖玉皇大帝观音菩萨指定取西经特派使者花果山水帘洞美猴王齐天大。

李易峰和唐嫣电影（李易峰唐嫣活色生香3）
2024-11-08李易峰唐嫣活色生香3李易峰唐嫣《活色生香》1、2集电视剧全集1-44分集剧情介绍大结局剧情简介编辑晚清至民国两大香业家族制香人的儿女情长和家国爱恨炼香大户宁昊天迎亲当天，未婚妻香雪吟与师弟安秋声私奔，丫环素云假扮小姐嫁入。

古剑奇谭预告屠苏晴雪虐心（古剑奇谭屠苏比我们想象的更爱晴雪）
2024-11-08古剑奇谭屠苏比我们想象的更爱晴雪2014年的夏天，有一个红衣男子和一直陪在他身旁的蓝裙女孩成了多少人的青春那声“苏苏”就在耳旁响起那首“剑伤”和“剑心”在总在循环播放我们只知道蓝裙女孩会一直跟他的身旁，却不知道其实他比我们看到的更加。

螺旋弹簧角度范围（螺旋弹簧压缩量对压定有哪些高度）
2024-11-08螺旋弹簧压缩量对压定有哪些高度弹簧压缩量=弹簧自由长度-被压缩后的长度弹簧压缩量是指弹簧自由长度减去被压缩以后长度所得到的值最大压缩量=弹簧总高度-压定高度当螺旋弹簧到达压缩极限，此时的高度为压缩弹簧的压并高度，即弹簧的总高度减去。

雌二醇低下怎么办
2024-11-08雌二醇低下怎么办雌二醇是雌激素，如果检查提示雌激素偏低是很容易引起月经紊乱，导致不孕或者怀孕后也很容易引起流产风险，通常合并有孕激素改变另一方面雌激素低还很容易引起子宫内膜偏薄，影响受精卵着床主要是结合药物补充，比如。