“什么是大数据”,请问什么叫大数据?

​「我的女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,这是在鼓励她怀孕吗?」一个男子冲进一家商店,要求经理出来见他,并怒不可遏地说出了上述这句话。几天后

2b874fdf5bfc4f559dc77a7798e7fb2e~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717900108&x-signature=uut9WHuomwlpSCp9tZV8Gt9VD3k%3D“我女儿还在上高中,你正在给她邮寄婴儿衣服和婴儿床的优惠券。你是在鼓励她怀孕吗?”

一名男子冲进店内,要求经理出来,并愤怒地说出上述话。

几天后,当经理打电话给该男子道歉时,该男子的语气软化了,说道:“当我和我女儿说话时,她告诉我她的预产期是八月。我不知道会发生这样的事情。” ”他应该道歉。”

—— 《大数据时代》

在上一段中,我们谈论了一家美国零售商,该零售商分析大量女性的消费记录,利用购物内容的变化来预测怀孕月份和预产期,并以此来准确投放购物广告。

事实证明,一台装有大量数据的机器比她粗心的父亲更了解女儿的健康状况。这绝对是尴尬的事。

这个例子只是大数据应用的一个缩影。事实上,在大数据时代,万事万物产生的海量数据蕴含着丰富的信息,如果能掌握它,就有无穷的商机。

什么是大数据?

从字面意义上讲,大数据就是大量的数据。业界普遍认为,当数据量达到常规设备无法存储或计算的程度时,就可以称为大数据。

“大数据(也称为巨型数据)是一个术语,指的是太大或太复杂而无法由传统数据处理应用程序处理的数据集。”

—— 维基百科

“大数据是指无法使用传统软件工具在特定时间范围内捕获、管理或处理的数据集合。大量且快速增长的数据需要新的处理模型来实现信息资产发现和流程优化能力。 ”

——百度百科

“大数据由巨大的数据集组成,通常超出了人类在可接受的时间内收集、使用、管理和处理它们的能力。”

—— MBA智库

从上面的定义可以看出,首先,数据量必须太大,传统方法无法处理,其次,大数据必须经过处理才能获得有价值的信息,作为信息资产需要这样做。

大数据到底有多大?

典型的计算机可以存储数百GB 到数TB 的数据。

例如,典型的固态硬盘容量较大,为512GB,而典型的机械硬盘容量为1TB/2TB/4TB。

大家都熟悉KB、MB、GB、TB之间的关系,它们代表数据容量。

KB(千字节)- 千字节,或1024B

MB(兆字节)- 兆字节,或1024KB

GB(千兆字节)- 千兆字节,或1024MB

TB(太字节)-太字节,或1024GB

那么大数据是什么级别呢?事实上,每一级都是在TB的基础上乘以1024。

PB(拍字节)- 皮字节,1024TB

EB(艾字节)- 艾字节,1024PB

ZB(泽字节)-泽字节,或1024EB

YB (Yotta Byte) – 姚字节,或1024ZB

像上述这样的大型单位在日常生活中几乎是不可能触摸到的,一般人也已经无法直观地感受到它们惊人的尺寸。让我用一个简单的例子来解释一下。

书籍《红楼梦》:纯文本(未压缩),大约2MB

一张12 兆像素照片(未压缩):约34MB

90 分钟电影(H.264 编码):约2.5GB(或2500MB)

如果按照这种方式计算,一个1 TB 硬盘可以存储大约500,000 本电子书、30,000 张照片和400 部电影。如果读一本书需要三天时间,那么读完五十万本书就需要四千年以上的时间。

1PB容量可存储约5亿本书、3000万张照片或40万部90分钟的电影。不用说,读一本书所花的时间有些夸张,但看这些电影也需要近140年的时间。

1EB单元的大小超乎人们的想象。仅存储这些数据就需要大约2,000 个存储设备。

这些机柜并排放置时跨度可达1.2 公里。如果安装在机房内,机房的大小相当于21个标准篮球场。

真的有公司产生这么多数据吗?

事实上,阿里巴巴、百度、腾讯等互联网巨头拥有数亿用户,这些庞大用户产生的数据量早已超过PB级别,正在逼近EB级别。

大数据是怎样产生的?

互联网和物联网的发展,连接了一切,创造了源源不断的数据生成,从涓涓细流到浩瀚海洋。

自移动互联网爆发以来,中国的互联网用户数量几乎与智能手机用户数量相同,4G网络使他们能够保持联系并实时上网。

这些用户手机上的每一次滑动和点击都会被微博、微信、知乎、抖音等各种社交和UGC应用上传和上传,视频中创建的文字和照片也会被保存并形成一个大文件。数据。

物联网同样令人印象深刻。据GSMA智库预测,到2025年,全球将有18亿个移动物联网连接(蜂窝物联网连接总数为31亿个)和138亿个工业物联网连接,其中预计有63亿个位于亚太地区和中国。占总数的65%。

过去,当计算机硬件(存储、计算)等资源还非常昂贵时,这些数据只能简单汇总后丢弃。

然而,随着技术的发展,计算机硬件的存储和计算能力越来越增强,只有这些原本被认为毫无价值的数据,现在可以被大量存储和处理,它的价值正在变得越来越大。越来越少。您可以挖掘数量及其价值。

微信目前拥有11亿用户,每天发送数百亿条消息,朋友圈、支付、扫一扫、摇一摇等各种动作都保存在微信后台。

如果你想从这个海量的数据中分析每个微信用户的行为习惯,比如他们每天的使用时间、他们更喜欢发送语音还是文字、他们感兴趣的公众号类型,那就不是那么回事了。简单的。这是各种大数据技术诞生和发展的驱动力。

大数据有哪些特点?

在描述大数据时有很多不同的观点:4V、5V,甚至8V。在本文中,我们将简单地使用IBM 的4V:Volume、Velocity、Variety 和Value。

0354e14edc8c4d7a980421865fcb85bb~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717900108&x-signature=P6gQqqrayh8gJiYcks9En6JMMSU%3D1。体量:前面说过,这是大数据最根本的属性。简而言之,大数据分析的是所有样本,而不是随机抽样,可以进行多维度、更深入的分析。

2、速度快:数据产生很快,分析利用的速度也很快。犹如凿船求剑。虽然分析很准确,但最终是没有用的,因为时间太长,而且结论已经过时了。

请尝试想象一下。当您在线购买图书时,系统会根据您当前正在查看的图书,智能推荐您可能感兴趣的其他图书。这需要二级响应。如果计算结果需要30分钟,那么用户可能早就完成购物了。

3.多样性:数据来自多种来源和格式,包括传统的结构化数据和更多的非结构化数据。

结构化数据是可以根据预定义的关系模型存储的数据。

f8bd4a9d8f264518b64bbd0161752159~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717900108&x-signature=MxhkRa%2F6VxbebSP4Atoh9XzGC6o%3D

非结构化数据是指没有固定格式、需要对其内容进行分析和识别的数据。通常,这是网页、图像、音频和视频等数据。这些数据占比80%以上。

换句话说,大数据不在于准确性,而是向所有人开放,只要数据包含可以挖掘的信息。

4.价值:数据很多,但需要大量分析和提取才能更好地发现其中的模式。

据不完全统计,公安机关每年需要在全国范围内存储的数据量达到3.3EB,通过视频监控与人脸识别相结合,可以实现快速识别犯罪嫌疑人并对其进行实时控制。

中国的犯罪率很低,收集和存储这么多数据的目的就是大海捞针,这说明大数据的价值密度很低。

而且,大数据的价值体现在寻找数据内部的相关性,而不是寻找因果关系。世界是复杂的,相关事件之间可能没有直接的因果关系。

无需担心事件之间的具体因果关系,只要您知道它们之间存在积极或消极的关系即可。简单地跟踪它们就体现了数据分析的价值。这是一种现实的态度。

例如,沃尔玛发现将啤酒与尿布结合可以显着增加啤酒销量。此时,你的老板有两个选择。我们应该继续研究这种现象内在的因果关系,还是应该赶紧把我们所有的商店都这样配置,以便更快地赚钱?

答案显然是后者。大数据分析用于发现相关性以创造价值,而不是调查科学研究中的因果关系。

大数据有哪些用处?

1、用户画像

“成千上万的人在取笑你,但最好有一个人能理解你,在现实世界中,唯一能理解你的人就是默默跟踪你的大数据。”

您所做的每一个动作都会被各种应用程序记录和分析,这些应用程序会检测典型特征并相应地为您提供不同的标签。这些标签的集合就是你在互联网上的身份,委婉地称为你的“用户画像”。

32fc4f8d4b804ab0a57df1bbc5e90712~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717900108&x-signature=857HUonbNIZKuRjGNcwBDBS9sqE%3D 通过多维数据的采集和分析,这些用户画像变得全面,所有用户都赤裸裸地暴露在大数据面前。基于对用户的了解,可以高效地进行各类精准营销。

416f130c649a487cab81ddcc2eb67f2b~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717900108&x-signature=Vg5nHGhBLV1xDwSGjM8Ga16PL88%3D 这样,当您打开购物应用时,您想要购买的东西会突出显示,当您打开资讯应用时,您想要的内容会显示在标题中。我找到的正是我想要找到的。

正如亚马逊的一位技术专家曾经说过的: “如果系统运行良好,亚马逊应该只会向你推荐一本书,而这将是你购买的下一本书。”

2. 决策支持

在移动通信领域,所有用户都会产生大量的信令交互、网络测量报告以及各种业务数据。

这些信息不仅可用于跟踪用户和解决问题,还可用于了解网络覆盖范围、容量、用户满意度等指标,并与竞争对手进行比较分析。

基于这些大数据分析结果,网络优化、用户体验提升等操作可以更有针对性,更加便捷高效。

在医疗领域,大量患者产生的海量数据可以用来比较临床治疗、开发药物、诊断疾病,甚至可以作为调整和优化医疗保险政策和分配的依据。

除了上面的例子之外,大数据在互联网、金融以及各个垂直行业也有丰富的应用场景。概括地说,“知己知彼,百战不殆”,“制定方略,方可胜千里之行”。

大数据和云计算,人工智能及5G之间有什么关系?

大数据分析需要对大量数据进行分解、统计、聚合,机器无法处理,所以有一种方法叫分布式计算。

这意味着大量的数据可以被分割成许多较小的部分,每台机器在多台机器上并行地只处理其中的一部分,从而获得更快的处理速度。

例如,著名的Terasort,对1TB数据进行排序,在单机上需要几个小时,但并行处理时只需要209秒即可完成。

在分布式计算框架中,大数据处理可以分为数据采集、数据存储、数据处理(资源管理和服务协调、计算引擎)、数据分析和数据可视化。

1fc12b3436d3423b9abe259cfa5da3c2~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717900108&x-signature=q4cyNIWewtdnG7eSuy0439zrU0I%3D大数据需要大量的服务器资源,但这些资源并不总是满载的。比如说,如果你用大数据来分析一个公司的财务状况,你只需要每周分析一次,但是在计算机实验室里拥有数千台机器,每周使用一次就非常浪费了。

这就是云计算的最初目的。能够在不同时间与其他公司共享这些闲置机器提供的网络、存储和计算能力,大大提高了资源利用率。

云计算对应的是通过硬件资源虚拟化的平台提供者,大数据是指对大量数据的高效处理,对应的是云计算平台上的大规模应用。

大数据和人工智能有关系吗?事实上,大数据是人工智能发展的前提。

目前,人工智能的主流算法是深度学习,但要想发挥其才华,需要两个条件:强大的计算能力和高质量的大数据。其中,最具代表性的系统就是著名的“谷歌大脑”。

它是一个庞大的深度学习计算框架,由数万台高性能计算机和顶级图形处理器组成的计算单元,支持大规模、多维度、多层次的深度学习模型的训练。

谷歌大脑成立后不久,谷歌使用了一个由16000个CPU组成的非常大的计算机集群,并利用深度学习模型迫使机器自行“观看”1000万个视频,结果据称他们学会了训练方法。人工智能从视频中识别猫。

因此,如果没有大数据提供足够的训练样本,即使是最完美的深度学习系统也是无用的。可以说,深度学习算法是灵魂,云计算是身体,大数据是食物。

没有食物,我们的身体和思想就会变成空中楼阁。只有将这三项努力结合起来,才能开启人工智能应用的新篇章。 5G提供的万物互联,是大数据输出的沃土,是人工智能的食粮。

这就是大数据、云计算、人工智能、5G之间不断被断开和被破坏的联系。

好了,现在就这些了。我希望这对您有帮助。

—— 全文——

参考:

1.《大数据时代》,维克多·迈耶·舍恩伯格,肯尼思·库尼尔

2.《看懂“大数据”,这一篇就够了!》,鲜枣课堂

3.《大数据技术体系详解,原理,架构与实践》 董思成

原创文章,作者:小条,如若转载,请注明出处:https://www.sudun.com/ask/87231.html

(0)
小条的头像小条
上一篇 2024年6月2日 上午10:28
下一篇 2024年6月2日 上午10:28

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注