我有一个属性为A,B,C的数据集。C是具有2个标签zz和z的因子。number of (z) > number of (zz)
,我想下样本我的数据集,以便在新的数据中有相同的zz和z值。不能使用任何外部包。* 最好使用sample
函数 *
--------------------------------------------------
| Attribute A | Attribute B . | Attribute c |
--------------------------------------------------
| xx | y1 | zz |
--------------------------------------------------
| mm | r1 | z |
--------------------------------------------------
| ab | 1r | z |
--------------------------------------------------
| ry | cm | zz |
--------------------------------------------------
| ca | rx | z |
--------------------------------------------------
| mm | zr | z |
--------------------------------------------------
结果应该是-
| Attribute A | Attribute B . | Attribute c |
--------------------------------------------------
| xx | y1 | zz |
--------------------------------------------------
| mm | r1 | z |
--------------------------------------------------
| ab | 1r | z |
--------------------------------------------------
| ry | cm | zz |
--------------------------------------------------
这里zz的概率= z = 0.5的概率
1条答案
按热度按时间2wnc66cl1#
假设您的数据位于名为
data
的数据框中,列为A
、B
和C
,您可以执行以下操作: