数据分析建模方式有哪些(数据分析建模分析基本流程)
数据分析建模方式有哪些(数据分析建模分析基本流程)
2024-09-30 03:45:51  作者:何时再出征  网址:https://m.xinb2b.cn/know/fgq167130.html

编辑导语:在我们的日常工作中,很多时候都会用到数据分析的方式,其中建模分析的方法也是数据分析的一种类型,对于各种数值能够清晰明了的呈现;本文作者分享了关于数据分析中的建模分析的基本流程,我们一起来了解一下。


日常的数据分析工作中,除了基本的拆解法、对比法做分析外,也经常需要用到模型的方法来做预测或者分类,这里会介绍建模分析的基本流程及常见处理方法。

01 描述性分析

在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。

那“了解数据”这一环节,具体要了解哪些东西呢?

了解各个特征的业务含义和计算逻辑各个特征的分布是否符合预期特征之间的相关性如何,是否符合基本逻辑特征和目标值的相关性如何,是否符合基本逻辑

在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。

02 缺失值处理

在初步了解数据后,需要做一些数据预处理的行为。

第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是“宁缺毋滥”的删除,还是缺失值填充。

具体处理的思路可以是这样的:

统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。

缺失值填充的方法有:

根据特征的众数、中位数或者平均值来填充;也可以对样本做分类,根据所在类的平均值众数等填充;通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;还可通过比较复杂的方法,如多重插补法。03 异常数据处理

处理完缺失值后,需要做异常数据处理。

之前介绍过一篇异常数据处理的方法,数据分析-异常数据识别;这篇介绍了多种适应不同场景下的异常数据识别方法。

04 数据标准化处理

对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。

这种情况下,如果不同特征的数值量级差的特别大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。

当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。

当前最常用的数据标准化处理方法有:

1)最小—最大规范化

(x-min)/(max-min),将其规范到[0,1]之间

2)z值规范化

(x-均值)/标准差,将其规范为均值为0,标准差为1;

如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。

还需要注意的是,如果样本分布非常有偏的话,可以先做box-cox变换,将其往正态分布变换后再标准化。

05 特征选择

在做完基本的数据清洗以及特征变换后,需要做的是特征选择,一般做特征选择的原因是:

某些特征存在多重共线性,这种情况对线性回归和逻辑回归影响比较大;特征太多,有些特征增加了模型复杂性却与模型无关,不能全部入模,需要筛选出价值更高的特征。1. 多重共线性

是什么:模型的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

影响

1)影响模型的稳定性,而且影响模型的解释。

举个例子,假设消费支出=0.3*收入,这样可能的模型输出的是:

消费支出 收入1.3*收入1.6*收入-消费支出

同样的数值输出,不同的公式计算,会非常模型解释和稳定性的。

2)线性回归模型,会导致最小二乘估计无法计算系数,即使可计算系数方差也很大,即1)中提到的不稳定。

怎么识别:

计算特征之间的相关系数,对于相关性特别高的特征,根据业务需要保留有代表性的特征;方差膨胀因子(VIF)。

计算每个特征被其他特征拟合的情况,如特征j,被其他特征线性拟合的决定系数为R2;通常拟合越好,决定系数就越大且最大可达到1。

所以,当方差膨胀因子过大,说明此特征存在多重共线性。一般大于10会认为有比较强的多重共线性问题。

怎么解决

删除共线性强的特征;线性回归模型的话,可采用岭回归的估算方式解决。2. 特征太多

不同的模型和应用场景下特征筛选方式不同:

对于二分类问题来说,筛选逻辑是:筛选出对二分类结果区分度比较高的特征;可以通过计算IV(information value)值的大小来筛选,一般IV值越大,此特征对二分类结果更有区分度。对于回归预测问题,主要针对多元线性回归。筛选特征的方法有:特征子集选择法、正则化法以及降维法。

1)特征子集选择法

特征子集选择法有向前逐步选择法和向后逐步选择法:

a)向前逐步选择

具体方法就是从0个特征开始,一个一个逐步从剩余特征中添加使得模型拟合误差最小的特征,在添加过程中得到模型拟合最优的特征组合。

b)向后逐步选择

和向前逐步选择类似,只是反过来了,让所有特征入模,再一步一步剔除效果不好的特征,从而达到最优。

2)正则化压缩无意义特征的系数

比较好用的方法是lasso。

一般的线形回归我们只会希望它的误差平方和最小,但是lasso的目标函数在原有目标函数后面加了一项系数惩罚项。这样让目标函数最小,可以实现无意义特征的系数为0,从而实现特征选择。

3)PCA降维

这个是将原有有一定线性关系的特征线形组合成新的相互独立的特征,所以不适合原有特征已经相互独立的情况。

以上就是数据建模的前期准备流程,做完这些内容就可以开始模型训练,对模型结果进行预测分析啦,而这部分则是不同模型会有不同的具体处理方法。

总之,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,所以这部分工作一定要做细做准确。

感谢阅读,以上就是我要分享的内容~

作者:须臾即永恒;公众号:须臾即永恒;

本文由 @须臾即永恒 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

  • 倪妮李宇春完整 34时尚宠儿
  • 2024-09-30倪妮李宇春完整 34时尚宠儿倪妮凭借李宇春的关系,在时尚圈杀出一片天地杨幂这辈子最痛恨的人应该是倪妮背后的那个女人,她自费三年向品牌示好都没拿到的代言,却被事业低潮的倪妮一举拿下!倪妮当年产后复出的杨幂第一件事就是披上Gucci。
  • 三十而已王漫妮官配是谁(这个人是谁饰演的)
  • 2024-09-30这个人是谁饰演的《三十而已》剧中,王漫妮是一个奢侈品的销售员,已经三十岁的她,事业却依旧不温不火,感情上也是一片空白,公司奖励她欧洲游轮旅行,她也在轮船上遇到了自己的官配梁正贤《三十而已》中梁志贤的饰演者是马志威,他。
  • 计算机网络基础第20讲(冷月手撕408之计算机网络)
  • 2024-09-30冷月手撕408之计算机网络计算机网络概述主要是一些了解的知识,大家不用花太多的时间在这上面其中计网的概念和计网的功能相对最重要,大家要记住这一节一般是选择题考点主要的重点冷月做出了标识,知识点如下图(pdf版或xmind源文件。
  • 民法典关于遗产继承的最新规定(绝了这样记忆民法典的)
  • 2024-09-30绝了这样记忆民法典的今天我们记忆这个知识点民法典中法定继承,第一千一百二十七条当中就明确规定遗产按照下列顺序继承想必大家都比较啊关心这个问题,就是遗产啊,应该按照什么样的顺序进行继承那么在这个条款当中明确规定有两个顺序第。
  • 艾叶水 治好阴道炎(艾叶能治疗阴道炎吗)
  • 2024-09-30艾叶能治疗阴道炎吗阴道炎是我们生活中最为常见的一种妇科疾病,引起阴道炎疾病发生的原因是有很多种的,而治疗阴道炎疾病的方法也是多种多样的,阴道炎虽然很常见,但是对我们的生活与身体均造成限大的影响,那么艾叶治疗阴道炎吗?一。
  • 高档住宅典范(年度幸福人居典范豪宅)
  • 2024-09-30年度幸福人居典范豪宅香江·拾光盛境万博CBD低密产品,承载香江品质生活追求项目档案开发商:香江控股地址:广州番禺汉溪大道东产品:建面约166-212㎡公园叠墅;建面约78-113㎡环幕洋房评荐理由香江·拾光盛境,是香江控。
  • 四大顶流代言过啥(曾经家喻户晓的)
  • 2024-09-30曾经家喻户晓的最近的《演员请就位2》大家看了没?先是鲜肉演技被痛批,这两天是赵薇在线治矫情,中间还始终夹杂着评委们的“爱恨情仇”,陈凯歌、尔冬升负责收集炮火,“人间大炮”李诚儒向郭敬明猛烈开炮......各种话题大。
  • 英雄联盟神话级限定皮肤是哪些(这些竟然成了限定皮肤)
  • 2024-09-30这些竟然成了限定皮肤哈喽大家好,7.24版本更新后,大家应该发现了一点点不一样:除了英雄的改动之外,官方还默默的在国服改动了一些美服并没有公布的相关改动没错,有的小伙伴们可能发现了,就是皮肤系统获得了非常重要的改动,原本。
  • 汽车玻璃破损怎么修理(如何判定应该换掉还是修)
  • 2024-09-30如何判定应该换掉还是修在日常的行驶中,汽车难免会遇到,类似小石子之类的硬物迎面飞来伤到车辆,之后车身上产生凹陷,亦或是玻璃受损都是让人心烦的事而为了确保行驶安全,面对受损的玻璃上,相信很多人都会选择更换不过,少则一千多则上。
  • 十大送男友礼物排行榜有纪念意义
  • 2024-09-30十大送男友礼物排行榜有纪念意义女人送男朋友礼物具有纪念意义的主要有第一是手表,第二是皮带,第三是围巾,第四是表白爱意的贺卡,第五是亲手织的毛衣,第六是钱包,第七是具有纪念意义的鞋子,第八是钢笔,第九是轿车,第十最好就是永远爱他的心。
  • 安康美食排名(安康市美食大搜罗)
  • 2024-09-30安康市美食大搜罗截至2021年2月,安康市下辖1区、8县、1个县级市:汉滨区、旬阳市、汉阴县、石泉县、宁陕县、紫阳县、岚皋县、平利县、镇坪县、白河县魔芋豆腐,将魔芋切成薄片,浇上油泼辣子、味精、蒜汁和醋,吃起来滑腻爽。
  • 博物馆文创现状(博物馆文创产品频频)
  • 2024-09-30博物馆文创产品频频“誓要拿下‘绿马’”“等了20多天终于到了”……今年夏天,甘肃省博物馆的文创产品——铜奔马毛绒玩具“马踏飞燕”一炮而红,一周内销量约2万件,线上线下店铺都被买空从雪糕到盲盒,从小夜灯到立体书……暑假期。