1.什么是大数据?
大数据的诞生和发展:
GFS(Google File System)由Google于2005年开发,后来成为HDFS。
2006 年,谷歌,MapReduce。
2007年,Google和Apache基金会使用它创建了Hadoop开源社区。
2007年,Google,BigTable,HBase分布式数据库。
2009年,火花。
大数据相关职位:
1.数据采集:爬虫、数据接口采集、传感、开源数据(UCI)
2、数据存储:HDFS、Hbase、HIVE
3.数据分析:MapReduce离线计算引擎、Spark内存计算引擎.
4.数据挖掘:机器学习算法
大数据职位描述:
1.大数据是一个综合概念,第一步是数据获取。
2. 获得数据后,下一步就是处理和保存数据。对各种数据进行格式化并最终将其存储在本地以供分析和保留。
3. 一旦有了一些可靠的数据源,下一步就是对数据进行分析操作。通过分析,您可以获得各种必要的信息。
4、如果需要做机器学习或者获取更多的数据信息,就需要做数据挖掘。
2.什么是数据分析?
数据分析和数据挖掘都是从数据库中发现知识,因此被称为数据库中的数据分析和数据挖掘知识发现。严格来说,数据挖掘是数据库中真正的知识发现。缩写为KDD。
数据分析是通过统计、计算、抽样等相关方法从数据库中获取基于数据库的数据表示知识。换句话说,数据分析就是从数据库中获取一些代表性信息。
数据挖掘是通过机器学习、数学算法和其他相关技术从数据库中获取深层知识(例如属性之间的规律和预测)的技术。
因此,仅依靠数据分析只能提供表面信息,但通过数据挖掘,可以获得许多相关的深层模式和预测信息。
数据挖掘的特点:
1.数据集大:只有当数据集大时,得到的规则才会更接近实际正确的规则,结果才会更准确。
2.不完整性:数据挖掘中使用的数据通常是不完整的。
3. 不准确:也称为噪声数据。在业务中,正常数据经常会受到工厂环境等恶劣环境下的电磁和辐射干扰。正常值。这种从不出现的异常数据称为噪声,有必要区分这种噪声和异常值。异常值是偏离一般规则的数据样本。尽管可能与基本规则有很大不同,但这个样本不能被视为噪声数据。比如,100岁的老人基本上不可能买电脑,但还是有可能的。因此,不能将其视为噪声或错误数据。因此,我们将这个100 年历史的样本称为异常值。
4. 歧义:歧义可能导致不准确。由于数据不精确,我们只能对数据整体进行一般性观察。或者,你也可以解释说,因为涉及个人信息,所以此时如果你想进行相关的分析操作,只能进行一些分析。无法准确判断。
5.随机性:随机性有两种解释。一是检索到的数据是随机的,我们无法知道用户输入的内容。其次,分析结果是随机的。当将数据传递给机器进行决策和学习时,所有操作都变成灰盒操作。
数据挖掘的基本步骤:
数据输入:输入要挖掘的数据。
数据转换:数据预处理步骤。经过数据转换后,数据成为可用的、非冗余的、完整的、集成的、准确的数据集。
(1)数据清理:清理噪声数据和不一致数据。请删除重复数据或填写缺失数据(众数、中位数,请自行判断)。
(2)数据集成:集成多个数据源的数据。
(3)数据选择:选择挖掘所需的数据。例如,一个人是否购买电脑与他的名字无关,因此无需将其名字输入机器进行分析。
(4)数据转换:当通过数据集成将不同的数据集成在一起时,就会出现一个称为实体识别问题的问题。数据转换不仅需要解决实体识别问题,还需要统一不同数据库的数据格式。
数据挖掘:通过数学算法分析数据以获得数据中的模式,从而获得所需的知识。
模型评估:判断机器得到的模型是否可用。例如,如果机器学习后得到的模型预测准确率为10%,则不能使用。因此,模型评估的很大一部分就是确定通过机器学习获得的知识是否准确、可用。
数据输出:输出结果数据,表达获得的知识。这对应于知识表示。
数据挖掘通常涉及通过某些属性确定某些结果。例如,如果患者出现感冒、发烧、咳嗽等症状,就可以判断其患有肺炎。发烧、咳嗽。需要分析前三个属性来确定是否存在肺炎。分析特定的属性会产生特定的结果。这是数据挖掘的基本规律。
如果你认为文章写得很好,编码并不容易。
要求1.请关注作者~您的关注是我写作最大的动力。
2.发送私信“大数据”
我们分享一整套最新的大数据学习资源和开发工具。
原创文章,作者:小条,如若转载,请注明出处:https://www.sudun.com/ask/87255.html