总体是一个群体中的所有元素。例如,美国的大学生是包括美国所有大学生的总体。在欧洲25岁的人是一个总体,该总体包括所有符合该描述的人。
由于我们不能收集一个总体的所有数据,因此对总体进行分析有时是不可行或不可能的,因此,可以借助样本进行分析。样本是总体的一个子集。例如,1000名美国大学生是“美国大学生”总体的一个子集。
2. 正态分布
概率分布是表示事件或实验结果概率的函数。考虑数据帧中的一个特性(即列)。这个特征是一个变量,它的概率分布函数显示了可以取值的区间。
概率分布函数在预测分析或机器学习中非常有用。我们可以根据某个总体样本的概率分布函数来预测该总体。
正态(高斯)分布是一个概率分布函数,看起来像一个钟型。下图显示了典型正态分布曲线的形状。
曲线的峰值表示变量最可能采用的值。离峰值越远,取该值的概率就越小。
3.量度集中趋势
中心趋势是概率分布的中心值(或典型值)。最常用的中心趋势度量是平均数、中位数和众数。
· 平均数是一列数值的平均值。
· 中位数是按升序或降序排序时中间的值。
· 众数是最常出现的值。
4.方差与标准差
方差是值之间变化的度量。它的计算方法是求每个值和平均值的平方差,然后将这些平方差相加,最后将总和除以样本数。
标准差是衡量数值分布的一种方法,它是方差的平方根。
5. 协方差和相关性
协方差是一种定量方法,它表示两个变量的变化在多大程度上相互匹配。更具体地说,协方差以其平均值(或预期值)来比较两个变量的偏差。
下图显示了随机变量X和Y的一些值。橙色点表示这些变量的平均值。这些值的变化与变量的平均值类似。因此,X和Y之间存在正值协方差。