数据分析一定是和业务强相关。所有数据都是为业务服务。但是前提是,你得拿到数据对吧。所以,SQL是必须会的技能。这个是我们拿到数据的主要工具。
那拿到数据了,我们肯定还需要对数据进行一定的作图,对比,处理。这里常用的就是Excel。
其次,大家肯定还会想到Python,R语言。这些就是偏进阶的工具了。后期建议大家学习Python,更通用一些。
我们分别来说下这几个工具所需要了解的基础能力:EXCEL:常用函数vlookup,match,index等,数据透视表功能,图表功能。SQL:聚合函数,窗口函数,表格关联,数据倾斜优化等。Python:循环、字典、字符串、pandas、numpy等常用包的使用。
理论类技能
关于理论,如果要划分一个常用的范围,那么就是数理统计和概率论。
数据有两种指标。一种是均值型指标,比如日活,NU,GMV;一种是比值型指标,比如注册率,渗透率。这些指标,在AB测试中,所需要的检验方式也是不同的。这些就需要统计学的基础。
我们在依据历史数据预测未来数据时,会需要一些概率和数理统计的知识。比如,某功能的渗透率是70%,如果我们想要提升至80%,可以选择哪些用户进行推广。这里,我们就需要计算不同用户组合下的渗透的概率。这时,我们就需要运用概率论,数理统计。
我们来说说统计学和概率论的基础知识:
1、统计推断:置信区间、置信度、假设检验(t检验、z检验、卡方检验),以及这些检验适用的数据类型及样本情况;
2、中心极限定律、大数定律、辛普森悖论等;
3、概率与概率的分布、统计量及抽样分布、参数估计等;
4、回归分析、方差分析、分类分析、时间序列等。
这些基础知识可以去看看浙大出版的《概率论与数理统计》,贾俊平老师写的《统计学》。
再往上,全概率公式、贝叶斯公式、马尔科夫链这些也需要深入的学习和思考一下。因为这些公式,在业务中的应用也非常多。
比如,我们某功能点击率下降了,我们想知道是新用户引起的,还是老用户引起的,我们就可以用全概率公式。
比如,我们在进行内容的小流量实验,想通过用户的点击,评估用户对内容的偏好,我们就可以用贝叶斯公式。
比如,我们想要对用户的APP使用进行引导,我们就需要选择最优使用路径,我们就可以用马尔科夫链。… … 这些,就是比较进阶的内容。推荐看《概率导论》和《线性代数应该这样学》。