|
|
tableau实战案例-分析120个国家和地区的**率情况
右手画诗
数据分析
专栏收录该内容
5 篇文章0 订阅
订阅专栏
做数据分析,避免不了的要做可视化展示,这次就讲解一下如何通过tableau制作一份可视化图表,来分析一些问题。
需要的工具:excel、tableau public(就是免费版)
需要的技能:数据清洗、数据分解拆分、tableau**作技能、分析能力
1、获取数据
获取数据的渠道有很多种,如果只是前期练手的话,建议去找一下公共数据库来获得一份数据。本次分析数据来自kaggle数据集,数据中只有一部分国家和地区。
2、数据清洗
拿到数据之后,先对数据进行检查,检查的重点包括:数据是否有缺失、数据是否存在异常值
数据如有缺失,查看是否能够结合**数据进行补充,如果缺失的是字段名称,结合数据和逻辑分析,填补上该字段名称;如果缺失的是数值,可以分析是否是值为0的数据以空白代替。如果无法进行填充,则可删掉该缺失数据。
我拿到的这份数据里,存在国家人口数据、**人数数据空缺的情况,因无法获知准确数据,我选择将该国家字段删除,避免后续数据分析得出错误的结论。
数据是否存在异常值,比如本该是数据的字段里出现了文字,这肯定就是异常数据了,如果无法根据**数据进行修改,建议删除该数据。
3、数据分解拆分-分析目的
在确认数据完整且字段正确的情况下,首先明确自己的分析目的,然后开始数据分解,否则没有目的的分解,到分析的时候就发现怎么跟当初想的不一样啊,无从下手又要重新分解,浪费了很多时间。
我们来看一下我手里的这份数据,字段包括:国家、年份、**别、年龄区间、**人数、国家人口。
从这几个字段来看,我们可以简单的想出以下几个分析方向:
3.1 哪个国家的**率最高?
3.2 随着年份的变化,各个国家**率的变化情况怎样的?
3.3 不同**别的**率有明显差异吗?
3.4 不同国家的男女**率分布有什么特点?
3.5 不同年龄区间,**人数随着年份是如何变化的?
3.6 **率最高的国家中,年龄区间和年份的详细分析
大体我们能拆分出以上几个分析目的,可能有人会问,为什么大部分以**率为指标,而不是**人数呢?因为我们考虑到随着时间的推移,国家人口肯定是增长的,这样**人数也会增长,这样会得出错误的分析结论,所以我们以**率为指标,可以比较可观的对**情况做一个展示。
不知道大家有没有发现一个问题,就是国家人数这一列中,是按照年份、**别、年龄进行拆分的,也就是说我们不能单独在原表中新增一列叫做——**率,通过**人数/国家人口=**率来进行计算。因为这样算的话,算某一年某个国家的**率就会变成百分数相加,计算是不准确的哦!
4、数据分解拆分-分解
好,那我们就先根据以上6个问题来进行数据分解,其中肯定会遇到问题,就详细看看吧:
4.1 哪个国家的**率最高?
这个问题乍一看很简单嘛,不就是按照国家、**人数、国家人口做个数据**表,然后一除就出来了。说干就干,先来个数据**表:
好嘛,数据是**出来了,但是如果你仔细一点,就会发现这数据存在严重的问题。大家看,国家人口排名第一的美国,人口数居然打到了90亿,全球才70亿人口,美国都超出了,难道是数据有问题吗?
其实数据并没有问题,而是分析方法出错了,之前就说过了,这个数据表中是包含了1979-2016年的数据,也就是这个数据**表是把30+年的国家人口做了个累计,妈耶,那肯定是不对的啦。
所以我们第一个问题其实是错的,或者说不完整的,应该是每一年,哪个国家的**率最高,这样就跟我们第二个问题重复了,那就抛弃第一个问题,直接来做第二个吧。
4.2 随着年份的变化,各个国家**率的变化情况怎样的?
根据上一个问题,我们知道,需要在**表中增加年份这个字段,一番**作之后,得到如图所示:
好的,我们将这些数据复制到单独的sheet中,通过分列(分列这里是我用的,根据年份全部以19开头,将19替换成英文标点",然后分列,最后补充19即可,**方式能达成目的均可)将表格清洗成这个样子:
4.3 不同**别的**率有明显差异吗?
好,我们继续来对**别下手,通过数据**表,得到如下样子的图表:
复制-整理格式,得到如下数据表:
4.4 不同国家的男女**占比分布有什么特点?
以上几个问题呢都是比较中规中矩的,这个问题就有意思了,不同国家的男女**占比分布有什么特点,这在分析的时候可能就牵扯到宗教、风俗、工作等的影响了,应该会比较有意思,到时候从图表中具体来分析吧。
还是进行数据**,得到如下图:
复制-整理数据后,得到下图,其中对男女**人数做了比例计算,之所以没有计算**率,还是之前那个问题,没有区分年份,国家人口是总计的,是不准确的,所以以男女**占比来作展示:
4.5 不同年龄区间,**人数随着年份是如何变化的?
这个问题呢,我没有用**率,因为我想看的是不同年龄段的人的**情况,人数和比率趋势应该是一致的,所以我就没有折腾**率了。
数据**表如下:
复制-整理-转成一维表(二维表转一维表就不详述了,百度一下即可):
4.6 **率最高的国家中,年龄区间和年份详细分析
这个数据需要整理的字段有点多,国家、年龄区间、年份、**人数和国家人口,经过数据**后,并整理的数据如下表,但是这个表并不完善,需要**表转一维表,已经超出了excel的简单**作范围,接下来使用tableau进行转置(将第三列到最后一列选中,右键选择转置即可,修改列名称即可成为一维表):
好了,基本上把数据拆成了6个sheet,就能满足我们的基本分析了,到时候看还缺什么数据,等再补充即可。
5、tableau作图
数据已经整理好了,那我们就可以导入到tableau中进行作图分析了。
首先导入excel,根据顺序制作逻辑图表。
5.1 随着年份的变化,各个国家**率的变化情况怎样的?
这个表需要选择地图进行制作,将国家右键,地理信息中心选择国家/地区,自动生成了经纬度数据,然后将其拖动到图表中,生成了一张世界地图;将**率按颜色展示,蓝色的表示**率高,橙色的表示**率低;添加**;既然我们是要按年份来看国家**率的变化情况,那就得想办法能按年来展示吧,又不能老做筛选功能,能不能做成动画展示呢?还别说,tableau还真的能做动画功能哦,就是页面那个框框。
将年份拖动到页面中,即可实现年份的自动播放,也可以手动选择,是不是很方便呢?
因为这里发不了动图啊,我把分析的结果说一下吧,根据显示,俄罗斯的**率在这些有统计数据的国家和地区中,算是较高的,是不是有点颠覆认知呢?而且只要有俄罗斯的年份,基本上就是偏高的。
5.2 不同**别的**率有明显差异吗?
根据年份,我们来看一下男女**率的变化情况,从图中首先可以看出,男****率是女****率的3倍以上,而且随着年份的增加,两者的**率都是向下的趋势,说明整体的**率也是正在降低。
5.3 不同国家的男女**占比分布有什么特点?
不同**别就需要更换到**别国家表,同样的国家拆分出经纬度,生成世界地图,然后将女**比例拖入颜色标记(其实拖男**也一样,分析结果都一样),然后就得到了如下这张图表,你们有没有发现一个很有意思的现象。
颜色越蓝,说明比例越高,那么我们可以发现,在部分中东地区、欧洲国家女****的比例相对来说还是比较高的(因为部分国家数据缺失,灰色的都是没有数据的),反过来说,蒙古国、墨西哥、智利、波兰等几个红色的地区,男****比例要高一些。
5.4 不同年龄区间,**人数随着年份是如何变化的?
再来看一下年龄分布,同5.1,设置年份自动播放,不同年龄段的**人数变化图展示出来,我们可以看出35-54年龄段的**人数是最多的,考虑原因是中年人要面对更多的工作和生活压力,更容易走向**。
5.5 **率最高的国家中,年龄区间和年份详细分析
我们上面说到,俄罗斯联邦的**率一直稳居世界前列,那么我们就深入看一下俄罗斯联邦**年龄区间分布、**率最高的年份,看能不能得到什么有意思的结论。
先来看下**率最高的几个年份吧,从图中发现1992-2002年间,**率是这30年间的高峰期,我们知道俄罗斯联邦前身是苏联,苏联在1991年爆发**,1991年12月苏联解体,而恰恰在第二年,**率开始出现大幅度上涨,经历10年发展后,**率再次下降。推测在这段动荡时期,很多人或者对未来比较迷茫,或者是无法承受苏联解体带来的压力而**。
我们再来看一下这几年不同年龄区间的**人数分布,可以发现同整体趋势一致,35-54年龄区间的**人数是最高的,而这部分人正是在动荡年代承受压力最大的一批人。
以上是我自己对这些数据进行分类分析后的部分方法和结论,可以分析下**的数据来得到更多的分析结果哦。
————————————————
版权声明:本文为CSDN博主「右手画诗」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/fangxiaoyun1/article/details/93994298
|
|