抽样通常用于:(1)探索性分析大数据和在大数据分析中扩大算法;(2)变换数据的分布以度量其中的不确定性。抽样有多种抽样方法,如:有放回抽样、无放回抽样等。有放回的抽样有可能对同一个个体抽中了多次,无放回的抽样则将抽出来的个体从抽样对象中去除,因此不会有重复的个体。在下面的例子中,我们将有放回抽样与无放回抽样用于肺癌数据。
让我们首先来看看数据的前5行。
In [13]:
data.head()
Out[13]:
在下面的代码中,一个样本量为3的样本从原始数据中由有放回的简单随机抽样得到。
In [14]:
sample = data.sample(n=3)
sample
Out[14]:
无放回的从数据中抽取1%的数据,并且显示选中的样品。sample方法中的参数random_state给出随机数产生时需要的种子值。
In [15]:
sample = data.sample(frac=0.01, random_state=1)
sample
最后,我们执行一个样本量等于整个数据的1%的有放回抽样例句。通过增加样本容量,你应该能够观察到样本中有重复的个体。
In [16]:
sample = data.sample(frac=0.01, replace=True, random_state=1)
sample
请自行运行程序并查看相关结果。