编辑导语:在我们的日常工作中,很多时候都会用到数据分析的方式,其中建模分析的方法也是数据分析的一种类型,对于各种数值能够清晰明了的呈现;本文作者分享了关于数据分析中的建模分析的基本流程,我们一起来了解一下。
日常的数据分析工作中,除了基本的拆解法、对比法做分析外,也经常需要用到模型的方法来做预测或者分类,这里会介绍建模分析的基本流程及常见处理方法。
01 描述性分析在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。
那“了解数据”这一环节,具体要了解哪些东西呢?
了解各个特征的业务含义和计算逻辑各个特征的分布是否符合预期特征之间的相关性如何,是否符合基本逻辑特征和目标值的相关性如何,是否符合基本逻辑在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。
02 缺失值处理在初步了解数据后,需要做一些数据预处理的行为。
第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是“宁缺毋滥”的删除,还是缺失值填充。
具体处理的思路可以是这样的:
统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。缺失值填充的方法有:
根据特征的众数、中位数或者平均值来填充;也可以对样本做分类,根据所在类的平均值众数等填充;通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;还可通过比较复杂的方法,如多重插补法。03 异常数据处理处理完缺失值后,需要做异常数据处理。
之前介绍过一篇异常数据处理的方法,数据分析-异常数据识别;这篇介绍了多种适应不同场景下的异常数据识别方法。
04 数据标准化处理对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。
这种情况下,如果不同特征的数值量级差的特别大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。
当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。
当前最常用的数据标准化处理方法有:
1)最小—最大规范化
(x-min)/(max-min),将其规范到[0,1]之间
2)z值规范化
(x-均值)/标准差,将其规范为均值为0,标准差为1;
如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。
还需要注意的是,如果样本分布非常有偏的话,可以先做box-cox变换,将其往正态分布变换后再标准化。
05 特征选择在做完基本的数据清洗以及特征变换后,需要做的是特征选择,一般做特征选择的原因是:
某些特征存在多重共线性,这种情况对线性回归和逻辑回归影响比较大;特征太多,有些特征增加了模型复杂性却与模型无关,不能全部入模,需要筛选出价值更高的特征。1. 多重共线性是什么:模型的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
影响:
1)影响模型的稳定性,而且影响模型的解释。
举个例子,假设消费支出=0.3*收入,这样可能的模型输出的是:
消费支出 收入1.3*收入1.6*收入-消费支出
同样的数值输出,不同的公式计算,会非常模型解释和稳定性的。
2)线性回归模型,会导致最小二乘估计无法计算系数,即使可计算系数方差也很大,即1)中提到的不稳定。
怎么识别:
计算特征之间的相关系数,对于相关性特别高的特征,根据业务需要保留有代表性的特征;方差膨胀因子(VIF)。计算每个特征被其他特征拟合的情况,如特征j,被其他特征线性拟合的决定系数为R2;通常拟合越好,决定系数就越大且最大可达到1。
所以,当方差膨胀因子过大,说明此特征存在多重共线性。一般大于10会认为有比较强的多重共线性问题。
怎么解决:
删除共线性强的特征;线性回归模型的话,可采用岭回归的估算方式解决。2. 特征太多不同的模型和应用场景下特征筛选方式不同:
对于二分类问题来说,筛选逻辑是:筛选出对二分类结果区分度比较高的特征;可以通过计算IV(information value)值的大小来筛选,一般IV值越大,此特征对二分类结果更有区分度。对于回归预测问题,主要针对多元线性回归。筛选特征的方法有:特征子集选择法、正则化法以及降维法。1)特征子集选择法
特征子集选择法有向前逐步选择法和向后逐步选择法:
a)向前逐步选择
具体方法就是从0个特征开始,一个一个逐步从剩余特征中添加使得模型拟合误差最小的特征,在添加过程中得到模型拟合最优的特征组合。
b)向后逐步选择
和向前逐步选择类似,只是反过来了,让所有特征入模,再一步一步剔除效果不好的特征,从而达到最优。
2)正则化压缩无意义特征的系数
比较好用的方法是lasso。
一般的线形回归我们只会希望它的误差平方和最小,但是lasso的目标函数在原有目标函数后面加了一项系数惩罚项。这样让目标函数最小,可以实现无意义特征的系数为0,从而实现特征选择。
3)PCA降维
这个是将原有有一定线性关系的特征线形组合成新的相互独立的特征,所以不适合原有特征已经相互独立的情况。
以上就是数据建模的前期准备流程,做完这些内容就可以开始模型训练,对模型结果进行预测分析啦,而这部分则是不同模型会有不同的具体处理方法。
总之,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,所以这部分工作一定要做细做准确。
感谢阅读,以上就是我要分享的内容~
作者:须臾即永恒;公众号:须臾即永恒;
本文由 @须臾即永恒 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
数据分析建模方式有哪些(数据分析建模分析基本流程)
2024-11-22 03:46:59 作者:何时再出征 网址:https://m.xinb2b.cn/life/fgq167130.html
- 消防工程师泡沫灭火系统考点(2022注册消防工程师)
- 2024-11-222022注册消防工程师2022注册消防工程师灭火救援设施考点梳理及口诀考点一环形消防车道:全部高层、1500、2000、3000且至少两处与车道连通且困难时沿两长边设置考点二消防车道:间距≤160m取水点≤2m荷载:轻中1。
- 推广文案最好的方法 如何写出高转化的宣传文案
- 2024-11-22推广文案最好的方法 如何写出高转化的宣传文案这几天一直在拆解私域运营的全体系,一个体系拆解就能耗费5-6个小时,不知不觉就会过得很快,浸泡在各个APP的裂变和变现中,真的很酸爽,今天分享一下LIFT模型先来上价值,影响LIFT模型的六个因素载体。
- ios16.2怎么降级ios15.7.1(iOS16如何降级到iOS15.5正式版)
- 2024-11-22iOS16如何降级到iOS15.5正式版iOS16开发者版本相信不少升级体验,iOS16带来了锁屏自定义、视频文本识别、键盘触控、Wi-Fi查看密码、照片一键抠图等新功能iOS16毕竟首个测试版还未和应用兼容,应用未适配,出现部分应用闪退、。
- 张嘉译和刘奕君长相(同班同学的张嘉译和刘奕君)
- 2024-11-22同班同学的张嘉译和刘奕君要说起明星同学,那就得看北京电影学院了,毕竟在这个卧虎藏龙的地方,很多明星班,最为出名的就是北京电影学院表演系96班,班上的23名学生,都演过电影或电视剧也有很多人被我们家喻户晓,而北影87班,就有这。
- csgo主播茄子技术到底怎么样(csgo茄子真的会去斗鱼直播吗)
- 2024-11-22csgo茄子真的会去斗鱼直播吗[闽南网]csgo的玩家有很多经常看茄子这个主播的直播,最近有消息称这个csgo的茄子主播要来斗鱼直播了,这个消息是真的吗,茄子目前在火猫直播,他真的会离开火猫到斗鱼吗在4月15日的时候,斗鱼的官方微。
- 傣族泼水节的由来传说(傣族泼水节的来历)
- 2024-11-22傣族泼水节的来历“泼水节”傣族送旧迎新的节日每年傣历6月,公历4月中旬,庆祝3---5天有关泼水节的来历传说着不少丰富多彩的神话故事其一:远古时期,西双版纳地区有一个荒淫残暴的魔王,他接连抢走11个美丽的姑娘,后来又。
- 乐天免税店中文官网为什么不能用(日本乐天rakuten和韩国乐天有什么区别)
- 2024-11-22日本乐天rakuten和韩国乐天有什么区别两个乐天傻傻分不清?日本乐天和韩国乐天有什么关系?下面,就随着小编一起来了解一下日本乐天和韩国乐天的区别吧据悉,韩国乐天的乐天在日语里写作ロッテ(罗马拼音写作lotto),而日本乐天的乐天在日语里写作。
- 速干衣可以当保暖衣穿吗(复工复产进行时速干衣)
- 2024-11-22复工复产进行时速干衣“1、2、3、4……腰间的肥油咔咔掉人鱼线马甲线我想要”近一个月内刘畊宏健身直播火爆全网居家健身盛行一时间老少中青齐聚客厅“扭动”全民掀起了“云健身”的热潮也为体育市场带来新商机“宅”业态:“云健身”。
- 人生无常全版(人生无常2)
- 2024-11-22人生无常2一旦生而为人,命运的轨迹是否注定?需要说明一下,我们这里是辽宁省沈阳市的农村,并不是贫困地区我经常想起我的奶奶,我奶奶的一辈子,仅仅是不容易三个字可能还不足以表达奶奶应该是20岁左右的年纪嫁到我们家,。
- 秋天养生健康小知识(秋天洗澡少做4件事)
- 2024-11-22秋天洗澡少做4件事#守护银龄世界#经过一整天的奔波,加上新陈代谢,皮肤上会残留外部灰尘,皮脂,汗水等洗澡可以清除皮肤上的残留物,有助于疏通经络,改善血液循环,缓解一天乏力,有助于睡眠但是,秋水浴要谨慎,错误的洗澡方式不。
- 萝卜腌制方法(萝卜怎样腌制)
- 2024-11-22萝卜怎样腌制首先准备几根萝卜,将其清洗干净,削不削皮都可以,不削皮的话,口感会更脆,洗干净之后切成薄片把萝卜片放在小盆里,然后往里面加上一定量的盐和白糖搅拌均匀,接着将萝卜片腌制30分钟左右在腌制萝卜片的过程中,。
- 世界尽头与冷酷仙境究竟在哪里(勇者与智者所追寻的世界)
- 2024-11-22勇者与智者所追寻的世界我们总说大自然是鬼斧神工的雕刻家,将自然界打造的美丽又神秘,但也正是这样的大自然给予了我们前去探险欣赏的机会在地球上最神秘的纬度莫过于北纬三十度,而最神秘的地带莫过于百慕大三角而在这两点之间,最吸引人。