大家好,如果您还对《数据分析报告》飞跃级提升指南第1部分数据部分不太了解,没有关系,今天就由本站为大家分享《数据分析报告》飞跃级提升指南第1部分数据部分的知识,包括的问题都会给大家分析到,还望可以解决大家的问题,下面我们就开始吧!
1.数据部分
数据部分最重要的是数据质量。数据的质量直接决定数据分析报告的质量。如果报告中的某个数据受到质疑,将直接影响数据分析报告的可信度。今天我就来说说一些事情。讲一些与数据相关的事情。
1. 数据质量
(1)数据类型
数据类型比较容易理解,就是存储什么类型的数据。不同的数据类型有不同的使用方法。因此,在处理数据之前,首先要了解数据类型。常见的数据类型有(这里只列举一些常见的数据类型):
整数类型int:用于存储整数。它存储从-2到31次方的所有正整数和负整数。每个INT类型数据存储在4个字节中。 bigint:用于存储大整数。存储从-2到2的63次方的所有正负整数。每个BIGINT类型数据占用8字节的存储空间smallint:用于存储小整数,存储从-2的15次方到2之间的所有正负整数到15 次方。每个SMALLINT类型数据占用2个字节的存储空间。浮点型实数:存储的数据可以精确到小数点后第七位,其范围为-3.40E -38 到3.40E +38。每个REAL类型数据占用4个字节的存储空间float:存储的数据可以精确到小数点后15位,其范围是从-1.79E -308到1.79E +308。每个FLOAT类型数据占用8个字节的存储空间。 FLOAT数据类型可以写成FLOAT[n]的形式。 n 指定FLOAT 数据的精度。 n是1到15之间的整数值。当n的范围是1到7时,实际上定义了一个REAL类型数据,系统使用4个字节来存储它;当n为815时,系统认为是FLOAT类型,使用8个字节来存储。字符类型char:该数据类型的定义形式为CHAR[(n)],n表示所有字符占用的存储空间,n的取值范围为1到8000,可容纳8000个ANSI字符。如果不指定n值,系统默认值为1。如果输入数据的字符数小于n,系统会在其后面自动添加空格,以填充设定的空间。如果输入数据太长,超出的部分会被截断nchar:与CHAR类型类似。不同的是,NCHAR数据类型n的值是1到4000。因为NCHAR类型使用UNICODE标准字符集(CharacterSet)。 UNICODE标准规定每个字符占用两个字节的存储空间,因此其占用的存储空间是非UNICODE标准数据类型的两倍。使用UNICODE标准的好处是,由于它使用两个字节作为存储单元,因此一个存储单元的容量大大增加。它可以包含世界各地的所有语言,并同时出现在一个数据列中。中文、英文、法文、德文等无编码冲突varchar:VARCHAR 数据类型以VARCHAR[(n)] 的形式定义。与CHAR类型类似,n的值也是从1到8000。如果输入数据太长,超出的部分会被截断。不同的是,VARCHAR数据类型具有可变长度的特性,因为VARCHAR数据类型的存储长度是实际的数值长度。如果输入数据的字符数小于n,系统不会在后面添加空格来填充设定值。空间。一般来说,由于CHAR数据类型具有固定长度,因此处理速度比VARCHAR类型要快。时间和日期类型date: ‘2018-01-17’ time: ‘10:14:00’ timestamp: ‘2018-01-17 10:14:00.45’
(2) 噪声数据
因为网上关于噪声数据的解释有很多,而且都非常专业,这里就不做过多详细解释了。我们只讨论从SQL 获取数据时如何处理一些异常值:
Null 一般跑过SQL的朋友肯定会发现跑出来的数据会有null。这时候就需要替换null。如果用于计算,则将null替换为0。这一步可以在SQL中完成。也可以在excel中完成
最大值最大值会影响数据的计算结果。一般都会进行处理,要么替换为最大值以外的最大值,要么直接丢弃。
0 作为分母。如果用0作为分母,excel中就会出现#DIV/0。这时候可以直接替换结果,或者直接替换到sql中。您可以将其替换为case.当.
(3) 数据口径
数据的质量非常重要。根据经验,大多数数据问题都是由口径引起的。数据的口径必须与业务的口径一致。以留存率为例:
保留率是一个循环比指标。一般来说,在计算保留率时,需要确定保留周期和活性测定的口径。
保留期:一般来说,保留期是指用户处于活跃状态并在下一周期内保持活跃状态的时间段。这里的期限是指保留期限。
活跃度判断:指如何判断用户是否活跃。可以通过启动应用程序、登录或完成其他特定操作来实现。这主要是由业务需求决定的。
实际计算:周留存率的分子:本周活跃和上周也活跃的用户数。分母:上周活跃用户数。
2. 可能用到的工具
在处理数据的过程中可以使用很多工具。这里我就介绍一下一些比较常用的工具。每个人都熟悉它们,并且它们并不是特别难学。
(1) 提取数据
mysqlhivesql
两个查询语句之间有相似之处,也有不同之处。主要看你公司的数据存储情况。
(2)数据处理
python:一般写个脚本做一些机械操作(我目前用的就是这个),也可以用来计算mysql:可以在查询时处理excel:当数据量比较小时,可以简单处理在Excel 上
原创文章,作者:小su,如若转载,请注明出处:https://www.sudun.com/ask/115193.html
用户评论
有恃无恐
终于看到这块了!我一直想学习如何更深入地分析数据,这份报告真是太有帮助了!尤其是那部分关于数据可视化的讲解,让我豁然开朗!
有16位网友表示赞同!
余笙南吟
数据分析报告的写作真的需要技巧,这篇指南很详细,把我那些一直卡壳的问题都解答了!赞一个!
有6位网友表示赞同!
风中摇曳着长发
这个“越级提升”有点夸大了吧?我觉得还是适合入门人群更合适 。但总体来说报告写的比较清楚易懂。
有8位网友表示赞同!
蝶恋花╮
数据部分的讲解确实很有深度,对想进阶的数据分析爱好者非常实用。希望后续能分享更多关于模型搭建和应用方面的知识!
有12位网友表示赞同!
搞搞嗎妹妹
这也太枯燥了!我是来学习如何让数据更生动更有故事性的,这篇报告的内容有点太“死”了,缺乏趣味性。
有19位网友表示赞同!
咆哮
之前总是把数据分析当成一种运算,看完这份报告才知道数据本质上是信息的载体,需要更加深入的解读和思考。真开眼界!
有16位网友表示赞同!
来自火星的我
虽然这份报告很有用,但我觉得有些概念解释太复杂了,对没接触过相关领域的读者来说可能会比较难理解。
有16位网友表示赞同!
米兰
我一直在做数据分析工作,看了这篇报告发现自己还很多地方需要学习和进步。尤其是在数据清洗和预处理方面,这份指南给我提供了很好的参照!
有15位网友表示赞同!
良人凉人
报告里提到的工具和软件我也在用,但这部分介绍的内容还是有点浅显,希望后面能深入讲解案例分析等等。
有10位网友表示赞同!
迁心
这篇报告对入门者来说太基础了,对我这种有几年经验的分析师来说并没有太大价值。希望能看到更多更高级的概念和技术分享!
有7位网友表示赞同!
丢了爱情i
我觉得这份报告最大的收获是它让我更加重视数据背后的故事,而不是简单的把注意力放在数字本身上。这是很多数据分析人员容易忽略的地方。
有19位网友表示赞同!
你的眸中有星辰
报告的分析思路清晰,逻辑严谨,而且结合了很多实际案例,让我更容易理解和记忆理论知识!很适合像我这样想系统学习数据分析的人群。
有9位网友表示赞同!
残留の笑颜
报告的内容比较学术性强,缺乏一些实战指导,如果能加入更多具体案例说明,会更有价值。我希望能在以后的文章中看到更实用的内容。
有6位网友表示赞同!
看我发功喷飞你
作为一名新手,这份报告对我来说简直就像救赎!它把我从数据分析的大海里拉到了岸边,让我能够更轻松地理解那些让人头疼的概念。
有7位网友表示赞同!
青瓷清茶倾城歌
我觉得这篇指南的命名有点夸张了,“越级提升”的说法听起来太油腻了,建议改成更客观、准确的标题,比如“数据分析入门指南”什么的。
有8位网友表示赞同!
花开丶若相惜
数据部分确实很有用,但这份报告还缺少一些关于数据伦理和隐私保护方面的探讨,希望作者能够在以后的文章中加入这些重要的内容!
有11位网友表示赞同!
心悸╰つ
数据分析是一项非常有前途的技能,这篇文章让我更加坚定了我学习数据分析的决心。期待看到更多作者分享的知识和经验!
有6位网友表示赞同!
南宫沐风
这份报告虽然不错,但对于想要系统性地学习数据分析的人来说,可能还是需要结合其他书籍或课程来进行补充学习。
有6位网友表示赞同!