大数据是指需要用高效率和创新型的信息技术加以处理,以提高发现洞察能力、决策能力和优化流程能力的信息资产,我来为大家科普一下关于大数据基本原理与应用?以下内容希望对你有帮助!
大数据基本原理与应用
大数据概述大数据是指需要用高效率和创新型的信息技术加以处理,以提高发现洞察能力、决策能力和优化流程能力的信息资产。
数据的来源分为两类:社交数据(互联网) 和 机器数据(物联网)。
大数据对于企业的价值:精准的市场营销 辅助决策 催生产品和服务 改善产品和流程;企业中最有价值数据主要有客户数据、财务数据和生产数据。
大数据技术的基本流程:数据采集 -> 预处理及导入 -> 数据分析及挖掘
大数据技术[关键技术] 大数据采集
通过Web、应用、传感器等方式获得各种类型的结构化、半结构化及非结构化数据,难点在于采集量大且数据类型繁多。网络数据:爬虫 或 API系统日志:日志收集工具 (如Hadoop的Chukwa、Flume,Facebook的Scribe等)[关键技术] 大数据预处理技术
抽取:将数据转化为单一或者便于处理的数据结构清洗:发现并纠正,将数据集中的残缺数据、错误数据和重复数据筛选出来并丢弃常见工具:DataWrangler、GoogleRefine[关键技术] 大数据存储及管理技术
难点:量大、类型多、文件大小可能超过单个磁盘容量常见工具:Google的GFS、Hadoop的HDFS、SUN公司的Lustre[关键技术] 大数据分析及挖掘技术
定义:利用算法模型对数据进行处理,从而得到有用的信息常用的分布式计算框架有MapReduce、Storm和Spark等。其中MapReduce适用于复杂的批量离线数据处理;Storm适用于流式数据的实时处理;Spark基于内存计算,具有多个组件,应用范围较广。数据分析:描述性统计分析、探索性数据分析和验证性数据分析。数据挖掘:偏差分析、关联分析、聚类分析、分类、回归[关键技术] 数据可视化
定义:将数据以图形图像形式表示,向用户清楚有效地传达信息的过程。,