机器学习残差计算（机器学习降维方法）

机器学习残差计算（机器学习降维方法）

2024-11-22 06:50:04 作者:挽风叙旧网址:https://m.xinb2b.cn/know/jof183881.html

主成分分析(principal component analysis,PCA)是机器学习里常用的无监督学习方法。这个方法利用正交变换，将由线性相关变量表示的观测数据转换为由少数几个线性无关变量表示的数据，线性无关的变量称为主成分。主成分的个数通常少于原始变量的个数，所以主成分分析属于降维方法。

主成分分析这一方法主要用来分析数据的基本结构，即数据中变量之间的关系，是数据分析的有力工具，也可以用于其他机器学习方法的预处理，它是多元统计分析中的经典方法。

为什么要求变量之间线性无关？

如果数据之中的某些维度之间存在较强的线性相关关系，那么样本在这些维度上提供的信息有就会一定地重复，所以希望数据各个维度之间是不相关的 (也就是正交的)。

直观解释

如图，考虑二维情形，假如x_1和x_2是两个数据变量，图中每个点表示一个样本点，可以看出，这些数据分布在一个以原点为中心的椭圆中，很明显这两个变量是线性相关的，因为固定了一个变量后，另外一个变量的取值不是随机的。

主成分分析对数据做正交变换，具体地，对原坐标系进行旋转变换，将数据在新的坐标系中表示。新的变量是y_1和y_2。可以看出，新的坐标系中，椭圆的长短轴分别对应两个新的坐标轴。为什么这样做呢？因为主成分分析选择方差最大的方向作为第一主成分，也就是长轴对应的方向；其次选择方差第二大，且与第一主成分线性无关的方向，即正交的方向，作为第二主成分，即短轴。

在新的坐标系里，数据中的变量是线性无关的。

样本主成分分析

求解主成分分析的思路就是求得原变量的一系列线性变换，使得新变量y_1(第一主成分)的方差最大，y_2(第二主成分)的方差是和y_1不相关的原变量的所有线性变换中方差最大的，然后在和y_1、y_2线性无关的条件下，分别求y_3,y_4...。

我们下面简单介绍对样本的主成分分析算法。

对n个观测数据样本进行规范化处理，得到规范化数据矩阵，表示为X。根据规范化数据矩阵，计算样本的相关矩阵R = 1/(n-1)*X*X^T求样本相关矩阵R的n个特征值lambda_1,lambda_2,···lambda_n和对应的n个单位特征向量a_1,a_2,···a_n，每个特征值除以所有特征值的和就是这个主成分对应的方差贡献率。我们要选取多少个主成分呢? 假如选取前k个，一般要求k个主成分的累计方差贡献率（即方差贡献率之和）在70%到80%，这就说明这些主成分保留原数据的信息量在70%到80%。因此，计算累计方差贡献率，再决定k的大小。求解k个样本主成分。y_i = a_i^T*x;数据分析

得到k个主成分后，就可以对主成分进行分析，可以通过计算主成分和原变量的相关系数（称为因子负荷量），来分析哪个原变量和主成分的相关性最高。比如在考试成绩的数据中，每个科目都是原变量，求得第一主成分后，假如物理和第一主成分的因子负荷量最高，说明物理对第一主成分影响最大。怎么分析要结合具体的计算结果和具体的例子。

扩展

可以通过核方法隐式地在高维空间中进行主成分分析，相关的方法是核主成分分析。

参考资料：《统计学习方法（第二版）》，李航，清华大学出版社；

欢迎大家在评论区讨论，如有错误，欢迎指正，多谢。

喜欢的可以关注一波小编哇，一起讨论，一起学习进步！您的支持，是小编创作的动力！

清远休闲漂流攻略（避暑漂流的头牌之选）
2024-11-22避暑漂流的头牌之选广东省陆地面积最大的地级市，第一个被脑海翻牌的应该就是位于广东省中北部的清远啦可谓是蜚英腾茂、旷世逸才清远依山傍水，其独特的地理优势造就了比众不同的自然环境，形成了崇山峻岭，水系发达，山高水险，地貌丰。

瑜伽是心灵的历练（瑜伽的世界是自我灵魂的修炼的世界）
2024-11-22瑜伽的世界是自我灵魂的修炼的世界导语在瑜伽的海洋里，就像读一本书，你一旦读进去，发现自己就是小说世界的独裁者当把瑜伽当做自己的生活习惯，你会发现自己像变了个人一样，让别人总觉得自己超脱了世俗，自身的气质让别人感觉到无限的美瑜伽和读书。

关于保护环境的宣传标语
2024-11-22关于保护环境的宣传标语1.保护环境，让蓝天白云永驻，愿绿水青山长留2.保护环境美河山,持续发展兴伟业3.爱护碧水蓝天,拥抱美好明天4.环山环水环风景,保洁保绿保健康。

猫眼的养殖方法和注意事项（猫眼的养殖方法和注意事项有哪些）
2024-11-22猫眼的养殖方法和注意事项有哪些土壤：它适合在质地比较稀疏的土壤中生长，土壤一定不能太过于黏重，否则不利于它排水，透气性也需要考虑到可以去购买专门的种植土，也可以在家中自行进行调配，选用腐叶土混上粗砂就能很好的满足生长所需光照：日常。

黑龙江消防救援总队考试基地（黑龙江省消防救援总队关于消防标准化）
2024-11-22黑龙江省消防救援总队关于消防标准化黑龙江省消防救援总队关于消防标准化技术委员会换届及征集委员的公告各有关单位、部门：黑龙江省消防标准化技术委员会是经黑龙江省市场监督管理局批准成立，在消防专业技术领域内承担地方标准制修订工作和其他标准化。

世界最贵十大名表排名（全球十大名表知道哪些）
2024-11-22全球十大名表知道哪些说到名表，朋友听说最多可能是劳力士了，社会里关于全球十大顶级名表品牌的说法不一，不过也逃不出这些品牌，他们分别是：百达翡丽(PatekPhilippe)，爱彼(AudemarsPiguet)，宝珀（B。

血糖高怎样能快速降血糖（有什么能够降血糖的好办法）
2024-11-22有什么能够降血糖的好办法#有什么能够降血糖的好办法#相信大家对于葡萄糖都是不陌生的，葡萄糖是构成人体组织的重要部分，也是人们获取能量的重要来源，由于人们每天都需要工作、学习和生活，因此为了维持身体的正常运转，必须有葡萄糖为人。

贵阳旅游十大必去景区（贵阳10大必玩景点）
2024-11-22贵阳10大必玩景点作者:氢气球好货君甲秀楼：建于明代的地标阁楼#俯瞰南明河风光#甲秀楼是贵阳的地标性建筑，也是到贵阳一定会去的景点，景区免费开放，登楼还可以俯瞰南明河风光#建于明代巨石之上#甲秀楼最早建于明代，位于南明。

雷丁d70要驾照吗（雷丁d70是否需要驾照详解）
2024-11-22雷丁d70是否需要驾照详解需要AAABBCC2等级的驾照都可以驾驶，即需要C2级以上的驾照等级车辆分为机动车和非机动车客车、货车、轿车等为机动车；非动力驱动的为非机动车机动车很复杂，它们内部又细分为很多等级，根据等级的不同，有。

消防安全宣传标语精选有哪些（百条消防安全标语）
2024-11-22百条消防安全标语日子要火，别忘防火！消防宣传月来啦，小编特意为您整理了100条各类消防标语，总有一款适合你！张贴起来呀~~“119”消防宣传月活动内容都有啥？用火不离人，离人不用火做饭人莫走，起火眼泪流电线乱盘旋，起。

防毒禁毒宣传语（防毒禁毒宣传语有哪些）
2024-11-22防毒禁毒宣传语有哪些珍惜生命、远离毒品；吸毒害人害己害社会：一日吸毒、一生戒毒、终生想毒；敲开了毒品的门，挖好了自己的坟；吸毒一口，掉入虎口烟瘾一来人似狼，卖儿卖女不认娘珍爱生命，拒绝毒品珍爱生命，小心艾滋莫沾毒品，莫交。

云南上红榜的旅行社（10家旅行社登上7月昆明旅游红榜）
2024-11-2210家旅行社登上7月昆明旅游红榜来自昆明市文化和旅游局的信息显示，7月，昆明10家旅行社、1名导游登上旅游红榜，1家旅行社被列入旅游黑榜从旅行社来看，石林风光旅行社有限公司、昆明乐途旅行社有限公司、昆明景程国际旅行社有限公司、云南天。