假设我们有一个表,其中有A列和B列。B是A列中的值的计数。例如,
| 色谱柱A|B栏|
| - ------|- ------|
| 一千|二十三|
| 二○ ○ ○年|五十|
| 四千|二十个|
| 七千|七十|
| 三千|六十四|
如何拆分B列8:1:1比例的数据。
示例:B为23。因此,B的8:1:1将为~18,2,3。将有18行用于训练,2行用于测试,3行用于值。
类似地,20的8:1:1等于16,2,2。
预期输出表:
| 色谱柱A|B栏|C栏|
| - ------|- ------|- ------|
| 一千|1个|火车|
| 一千|。|火车|
| 一千|。|火车|
| 一千|十八|火车|
| 一千|1个|试验|
| 一千|第二章|试验|
| 一千|1个|瓦尔|
| 一千||瓦尔|
| 一千|三个|瓦尔|
| 二○ ○ ○年|1个|火车|
| 二○ ○ ○年|。|火车|
| 二○ ○ ○年|四十|火车|
| 二○ ○ ○年|1个|试验|
| 二○ ○ ○年|。|试验|
| 二○ ○ ○年|五个|试验|
| 二○ ○ ○年|1个|瓦尔|
| 二○ ○ ○年|。|瓦尔|
| 二○ ○ ○年|五个|瓦尔|
| 四千|1个|火车|
| 四千|。|火车|
| 四千|。|火车|
| 四千|十六|火车|
| 四千|1个|试验|
| 四千|第二章|试验|
| 四千|1个|瓦尔|
| 四千|第二章|瓦尔|
| 三千|1个|火车|
| 三千|。|火车|
| 三千|五十一|火车|
| 三千|1个|试验|
| 三千|。|试验|
| 三千|。|试验|
| 三千|六个|试验|
| 三千|1个|瓦尔|
| 三千|。|瓦尔|
| 三千|七|瓦尔|
不久,我想使用列B的值按8:1:1的比例拆分train、test、val集合中的行。
我试着用Pandas来计算上面提到的行的总数,但是我不能把计数分解成比率。
1条答案
按热度按时间but5z9lq1#
输出:
如果这是你的 Dataframe :
输出:
我们可以通过以下方式获得所需的 Dataframe :
输出: