r语言分析数据实例,R语言数据特征分析
r语言分析数据实例,R语言数据特征分析
2024-11-25 03:37:32  作者:循環式溞  网址:https://m.xinb2b.cn/tech/lzi254608.html


用统计指标对定量数据进行统计描述,常从集中趋势和离散趋势两个方面进行分析。

平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位数间距。

集中趋势度量

(1)均值

均值是所有数据的平均值。如果求n个原始观察数据的平均数,计算公式为:


有时,为了反映在均值中不同成分所占的不同重要程度,为数据集中的每一个Xi赋予Wi,这就得到了加权均值的计算公式:

作为一个统计量,均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据时偏态分布的,那么均值就不能很好地度量数据的集中趋势。为了小数少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。阶段均值是去掉高、低极端值之后的平均数。

(2)中位数

中位数是将一组观察值从小到大按顺序排列,位于中间的那个数据。即在全部数据中,小于和大于中位数的数据个数相等。

将某一数据集X:{X1,X2,...,Xn}从小到大排序:{X(1),X(2),...,X(n)}。

当n为奇数时


当n为偶数时


(3)众数

众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。

离散趋势度量

(1)极差

极差=最大值-最小值。极差对数据集的极端值非常敏感,并且忽略了位于最大值与最小值之间的数据是如何分布的。

(2)标准差

标准差度量数据偏离均值的程度,计算公式为:


(3)变异系数

变异系数度量标准差相对于均值的离散趋势,计算公式为:


变异系数主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离散趋势。

(4)四分位数间距

四分位数包括上四分位数和下四分位数。将所有数值由小到大排列并分成四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位置)的数值是中位数,处于第三个分割点位置的数值是上四分位数。

四分位数间距是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。其值越大,说明数据的变异程度越大,反之说明变异程度越小。

下面以餐饮销量数据进行统计量分析,演示代码如下:

> # 读入数据

> saledata <- read.table(file = "../data/catering_sale.csv", sep=",", header = TRUE)

> sales <- saledata[, 2]

>

> # 统计量分析

> # 均值

> mean_ <- mean(sales, na.rm = T)

> # 中位数

> median_ <- median(sales, na.rm = T)

> # 极差

> range_ <- max(sales, na.rm = T) - min(sales, na.rm = T)

> # 标准差

> std_ <- sqrt(var(sales, na.rm = T))

> # 变异系数

> variation_ <- std_ / mean_

> # 四分位数间距

> q1 <- quantile(sales, 0.25, na.rm = T)

> q3 <- quantile(sales, 0.75, na.rm = T)

> distance <- q3 - q1

> a <- matrix(c(mean_, median_, range_, std_, variation_, q1, q3, distance),

1, byrow = T)

> colnames(a) <- c("均值", "中位数", "极差", "标准差", "变异系数",

"1/4分位数", "3/4分位数", "四分位间距")

> print(a)

均值 中位数 极差 标准差 变异系数 1/4分位数 3/4分位数 四分位间距

[1,] 2755.215 2655.85 9084.44 751.0298 0.2725848 2451.975 3026.125 574.15

通过上面代码的运行结果,我们已经得到了餐饮销量数的统计量情况。

相关阅读:

《R语言数据质量分析》

《每天一点统计学——数据集中趋势的量度》

《每天一点统计学——数据分散性的量度》

《每天一点统计学——数据变异性的量度》

  • 人猪是什么意思(人猪矛盾激化多地出台)
  • 2024-11-25人猪矛盾激化多地出台百万头野猪在我国泛滥,一头就重达两三百斤这些野猪到处乱窜,有的直接钻进了小区、公园等人类聚集区,吓得群众四散而逃随着我国生态环境的持续转好,野种群不断扩大,部分地区已经泛滥成灾,对人们的正常生活带来了。
  • 销售顾问可以做吗(你是行做导购还是销售顾问)
  • 2024-11-25你是行做导购还是销售顾问前面我们介绍了产品价值主张有四个步骤:呈现价值、量化价值、证实价值和讲故事,这只是产品销售模式客户认定价值既不是来自产品本身,也不需要被传播,而是销售人员在销售过程中创造的附加价值,从而产生了系统销售。
  • 武则天是唐朝什么皇帝(武则天到底属不属于唐朝皇帝呢)
  • 2024-11-25武则天到底属不属于唐朝皇帝呢众所周知,武则天在他的丈夫唐高宗李治去世后,大权独揽,成为名副其实的唐帝国的掌门人,虽然自己的两个儿子相继即皇帝位,可是在武则天眼里,他的两个儿子完全不争气,和她的治国才能差远了,于是就废掉两个儿子的。
  • 红楼梦剧本完整版(红楼梦剧本五)
  • 2024-11-25红楼梦剧本五第五场:不肖种种(地点:怡红院内)贾宝玉宝玉正在背书:事君以忠,事父以孝,圣人云:忠孝人之本也事君不可以不忠,事父不可以不孝也,三纲(丫环笑),啊呀,去去去三纲五常乃人立身之大经为人臣子,不可以不知是。
  • 重庆为什么会突然爆红(重庆为什么被传为现实版的)
  • 2024-11-25重庆为什么被传为现实版的重庆给了我们一个机会:谈论一个现代城市结构上的个性是可能的文/组长三峡起点、巴蜀门户,中国西南内陆最大的城市重庆市,最近在互联网上被人们提起时总是带上一个标签——“赛博朋克”把重庆的城建面貌与赛博朋克。
  • 四种隐形甜食吃了容易长胖(吃甜食不仅长肉还会)
  • 2024-11-25吃甜食不仅长肉还会提到近视的原因,很多人想到的是遗传、过度用眼、看书光线太暗、用眼姿势不正确等但是随着人们生活条件的提升,越来越多的年轻人的饮食习惯发生了改变,进而导致的营养失调,也正在逐步影响着人们的视力吃太甜长期过。
  • 抖音和字节跳动的关系(抖音和字节跳动什么关系)
  • 2024-11-25抖音和字节跳动什么关系抖音实际上是字节跳动的产品,由字节跳动开发,字节跳动旗下还有很多知名APP,比如今日头条、火山小视频、西瓜视频、皮皮虾等等抖音是在2016年9月20日上线,是一个面向全年龄的音乐短视频社区平台用户可以。
  • 被辣椒辣到眼睛怎么办(被辣椒辣到眼睛解决方法)
  • 2024-11-25被辣椒辣到眼睛解决方法如果辣椒汁液进眼睛了,可先用大量清水冲洗眼睛,然后及时到专业的眼科医院进行就诊,以免酿成无法挽回的后果预防的方法如下:(1)在眼睛周围用药后,要及时用纸巾、棉签等擦去伤口周围的药物,防止药物入眼;(2。
  • 男人对婚姻最真实的话(一段婚姻走到尽头)
  • 2024-11-25一段婚姻走到尽头作者:仲念念原创作品,抄袭必究01.多少夫妻毁在了无话可说?一开始还会不停的吵架,时常觉得日子没法过了,其实不是的吵架说明还有过下去的必要,至少你们还会通过吵架的方式去沟通问题真的过不下去的夫妻,往往。
  • 高中数学椭圆公式总结 高中数学椭圆方程基础不好没关系
  • 2024-11-25高中数学椭圆公式总结 高中数学椭圆方程基础不好没关系椭圆属于圆锥曲线这一章节,在高考中,占的比重比较大,所以需要同学们记熟它们的性质和多做练习,从练习中发现错误,做好笔记,做好错题集,及时归纳总结今天给大家整理了高中数学椭圆方程基础不好没关系!学会这2。
  • 杨烁变成小包总(16岁北漂因小包总)
  • 2024-11-2516岁北漂因小包总有一分谦退,便有一分受益处;有一分矜张,便有一分挫折来——《弟子箴言·崇礼让》在这个纷繁嘈杂的时代,身处种种诱惑之中,有多少人可以不忘初心自今年“清朗”行动以来,无数艺人的恶劣行径被曝光,他们一路波折。
  • 冬季宝宝上火吃什么降火(夏季宝宝频频上火)
  • 2024-11-25夏季宝宝频频上火(原标题:夏季宝宝频频上火选择哪些水果来降火?(图))中医认为宝宝是“纯阳之体”,体质偏热,容易出现阳盛火旺即“上火”现象,加上宝宝脾胃功能尚不健全,吸收消化及自身调节能力较弱,过剩营养物质难以消化,。