在线报名
报名咨询
全站搜索未启用
跳到主要内容

抽样通常用于:(1)探索性分析大数据和在大数据分析中扩大算法;(2)变换数据的分布以度量其中的不确定性。抽样有多种抽样方法,如:有放回抽样、无放回抽样等。有放回的抽样有可能对同一个个体抽中了多次,无放回的抽样则将抽出来的个体从抽样对象中去除,因此不会有重复的个体。在下面的例子中,我们将有放回抽样与无放回抽样用于肺癌数据。

让我们首先来看看数据的前5行。

In [13]:

data.head()

Out[13]:

在下面的代码中,一个样本量为3的样本从原始数据中由有放回的简单随机抽样得到。

In [14]:

sample = data.sample(n=3)

sample

Out[14]:

无放回的从数据中抽取1%的数据,并且显示选中的样品。sample方法中的参数random_state给出随机数产生时需要的种子值。

In [15]:

sample = data.sample(frac=0.01, random_state=1)

sample

最后,我们执行一个样本量等于整个数据的1%的有放回抽样例句。通过增加样本容量,你应该能够观察到样本中有重复的个体。

In [16]:

sample = data.sample(frac=0.01, replace=True, random_state=1)

sample

请自行运行程序并查看相关结果。

最后修改: 2020年07月24日 Friday 09:21