大数据处理的基本流程:数据抽取与集成+数据分析+数据解释
文章推薦指數: 80 %
大数据的数据来源广泛,应用需求和数据类型都不尽相同,但是最基本的处理流程是一致的。
整个大数据的处理流程可以定义为,在合适工具的辅助下,对广泛异构的数据源 ...
首页
教程
VIP会员
一对一答疑
辅导班
首页
C语言教程
C++教程
Python教程
Java教程
Linux入门
更多>>
目录
大数据
1
大数据是什么
2
大数据时代
3
大数据的产生和作用
4
大数据时代的10个重大变化
5
大数据处理的基本流程
6
大数据涉及到的关键技术
7
大数据采集概述
8
通过系统日志采集大数据
9
通过网络爬虫采集大数据
10
Scrapy网络爬虫简介
11
大数据预处理架构和方法
12
数据清洗
13
数据集成
14
数据转换
15
数据消减
16
离散化和数值概念层次树
17
大数据处理技术
18
Google大数据处理系统
19
Hadoop大数据处理框架
20
HDFS
21
HDFS基本原理和设计理念
22
HDFS架构和实现机制
23
HDFS读取和写入数据
24
HDFS两种操作方式
25
NoSQL简介
26
NoSQL类型简介
27
HBase简介
28
HBase列式数据模型
29
HBaseShell
30
HBase主要运行机制
31
HBase常用JavaAPI
32
HBaseJavaAPI编程实例
33
HadoopMapReduce
34
HadoopMapReduce架构
35
HadoopMapReduce工作流程
36
MapReduce案例分析:单词计数
37
HadoopMapReduce工作机制
38
MapReduce编程实例
39
Spark简介
40
SparkRDD
41
Spark总体架构和运行流程
42
Spark生态圈
43
Spark开发实例
44
SparkStreaming简介
45
SparkStreaming系统架构
46
SparkStreaming编程模型
47
SparkDStream相关操作
48
SparkStreaming开发实例
49
数据挖掘简介
50
SparkMLlib
51
数据挖掘之分类和预测
52
决策树和朴素贝叶斯算法
53
回归分析
54
聚类分析简介
55
k-means聚类算法
56
DBSCAN聚类算法
57
数据挖掘之关联规则分析
58
Apriori算法和FP-Tree算法
59
基于大数据的精准营销
60
基于大数据的个性化推荐系统
61
大数据预测
62
大数据的其他应用领域
63
大数据可以应用在哪些行业
64
大数据在金融行业的应用
65
大数据在互联网行业的应用
66
大数据在物流行业的应用
首页>大数据
阅读:23,370
大数据处理的基本流程:数据抽取与集成+数据分析+数据解释
大数据的数据来源广泛,应用需求和数据类型都不尽相同,但是最基本的处理流程是一致的。
整个大数据的处理流程可以定义为,在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,将结果按照一定的标准进行统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。
具体来讲,大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释等步骤。
数据抽取与集成
大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。
这种复杂的数据环境给大数据的处理带来极大的挑战。
要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合之后采用统一定义的结构来存储这些数据。
在数据集成和提取时,需要对数据进行清洗,保证数据质量及可信性。
同时还要特别注意大数据时代数据模式和数据的关系,大数据时代的数据往往是先有数据再有模式,并且模式是在不断的动态演化之中的。
数据抽取和集成技术并不是一项全新的技术,在传统数据库领域此问题就已经得到了比较成熟的研究。
随着新的数据源的涌现,数据集成方法也在不断的发展之中。
从数据集成模型来看,现有的数据抽取与集成方式可以大致分为4种类型:基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,以及基于搜索引擎的方法。
数据分析
数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。
从异构数据源抽取和集成的数据构成了数据分析的原始数据。
根据不同应用的需求可以从这些数据中选择全部或部分进行分析。
小数据时代的分析技术,如统计分析、数据挖掘和机器学习等,并不能适应大数据时代数据分析的需求,必须做出调整。
大数据时代的数据分析技术面临着一些新的挑战,主要有以下几点。
1)数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多。
因此,在数据分析之前必须进行数据清洗等预处理工作,但是预处理如此大量的数据,对于计算资源和处理算法来讲都是非常严峻的考验。
2)大数据时代的算法需要进行调整。
首先,大数据的应用常常具有实时性的特点,算法的准确率不再是大数据应用的最主要指标。
在很多场景中,算法需要在处理的实时性和准确率之间取得一个平衡。
其次,分布式并发计算系统是进行大数据处理的有力工具,这就要求很多算法必须做出调整以适应分布式并发的计算框架,算法需要变得具有可扩展性。
许多传统的数据挖掘算法都是线性执行的,面对海量的数据很难在合理的时间内获取所需的结果。
因此需要重新把这些算法实现成可以并发执行的算法,以便完成对大数据的处理。
最后,在选择算法处理大数据时必须谨慎,当数据量增长到一定规模以后,可以从小量数据中挖掘出有效信息的算法并一定适用于大数据。
3)数据结果的衡量标准。
对大数据进行分析比较困难,但是对大数据分析结果好坏的衡量却是大数据时代数据分析面临的更大挑战。
大数据时代的数据量大,类型混杂,产生速度快,进行分析的时候往往对整个数据的分布特点掌握得不太清楚,从而会导致在设计衡量的方法和指标的时候遇到许多困难。
数据解释
数据分析是大数据处理的核心,但是用户往往更关心对结果的解释。
如果分析的结果正确,但是没有采用适当的方法进行解释,则所得到的结果很可能让用户难以理解,极端情况下甚至会引起用户的误解。
数据解释的方法很多,比较传统的解释方式就是以文本形式输出结果或者直接在电脑终端上显示结果。
这些方法在面对小数据量时是一种可行的选择。
但是大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,采用传统的简单解释方法几乎是不可行的。
解释大数据分析结果时,可以考虑从以下两个方面提升数据解释能力。
1)引入可视化技术。
可视化作为解释大量数据最有效的手段之一率先被科学与工程计算领域采用。
该方法通过将分析结果以可视化的方式向用户展示,可以使用户更易理解和接受。
常见的可视化技术有标签云、历史流、空间信息流等。
2)让用户能够在一定程度上了解和参与具体的分析过程。
这方面既可以采用人机交互技术,利用交互式的数据分析过程来引导用户逐步地进行分析,使得用户在得到结果的同时更好地理解分析结果的过程,也可以采用数据溯源技术追溯整个数据分析的过程,帮助用户理解结果。
关注微信公众号「站长严长生」,在手机上阅读所有教程,随时随地都能学习。
本公众号由C语言中文网站长运营,每日更新,坚持原创,敢说真话,凡事有态度。
微信扫描二维码关注公众号
优秀文章
数组元素的添加或删除,C语言数组添加和删除元素详解
C语言fopen函数的用法,C语言打开文件详解
Pythonproperty()函数:定义属性
C#Connection:连接数据库
GooglePlayStore(AndroidMarket)发布简介
JSPJSTL
千锤百炼,只为大作;精益求精,处处斟酌;这种教程,看一眼就倾心。
关于网站|
关于站长|
如何完成一部教程|
联系我们|
网站地图
Copyright©2012-2022biancheng.net,陕ICP备15000209号
↑
延伸文章資訊
- 1大数据处理流程简介-新华三集团 - H3C
- 2大數據處理流程 - 每日頭條
大數據處理方法很多,但是普遍實用的大數據處理流程可以概括為四步,分別是數據採集、數據導入和預處理、數據分析和統計、數據挖掘。 ... 大數據的採集是指 ...
- 3大數據的處理流程圖
整個處理流程可以概括為四步,分別是採集、導入和預處理、統計和分析,以及挖掘。 ... 大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測 ...
- 4大數據處理過程有哪幾步? - 每日頭條
一般而言,大數據處理流程,我們可分為四步驟:數據採集、數據導入和清洗處理、數據統計和分析和數據挖掘應用。這四個步驟看起來與現在數據處理分析 ...
- 5一張圖解讀清楚:最完整的資料分析流程 - Medium
一張圖解讀清楚:最完整的資料分析流程. ... 資料處理是指對收集到的資料進行加工整理,形成適合資料分析的樣式,它是 ... 我是「數據分析那些事」。