0%

统计学与pandas学习(十一)

第十一章《根据“部分”推论“总体”——母群体和统计的估计》。

总结

  • 无限母群体中,各数据以无限个数存在,其“观测的容易性”各不相同。
  • 随机抽样法的假设,是“进行足够多次数的观测做成直方图,再现母群体分布”的假设。
  • 母群体的平均值u叫作总体均值,以下面的方法进行计算:
    u=数据的数值x相对频数的和(=数据的数值x池子大小的和)

练习

按照下面的情况考虑母群体:

数字(作为数据出现的) 3 5 6 9
相对频数(池子的面积=抽取概率) 0.3 0.3 0.2 0.2
  • 为了求这个母群体的总体均值,可以用数字乘以相对频数,再进行合计。
数字 相对频数 数字x相对频数
3 0.3 0.9
5 0.3 1.5
6 0.2 1.2
9 0.2 1.8
合计 5.4
  • 据此,总体均值u=5.4.
  • 从这个母群体抽取近似于无数的数据制作直方图,
1
2
3
4
5
import pandas as pd
df = pd.DataFrame([[3,0.3],[5,0.3],[6,0.2],[9,0.2]],columns=['a','b'])
%matplotlib inline

df.plot(kind='bar',width=0.99,x=['a'],y=['b'])