输入 Dataframe 如下所示
options text
1 Stem I am good
2 Option1 Yes
3 Option2 No
4 Option3 Maybe
5 Option4 ok
输出 Dataframe 应如下所示-
Stem Stem_Value All_4_Options_Appended
Stem1 I am Good 'Yes','No','Maybe','ok'
我有超过百万个这样的项目,所以正在寻找一个功能类的东西
2条答案
按热度按时间wnavrhmk1#
这里的主要技巧是,当你能够创建
g
,为所需的行创建一个分组列/序列之后,你可以把每个组中的所有text
值组合成一个列表,然后你可以用一个矢量化方法.str.join(' ')
来组合它们。.agg
或.apply
方法(编辑)更快**尝试以下步骤。(* 一步一步-评论中提到的解释 *)-
基准
@Akshay Sehgal提供的解决方案
@Mozway解决方案
EDIT:运行以上设置-
根据您预期的输出,您似乎要求每个字符串都是独立的。所以这个版本可能更适合您。
b4lqfgs42#
使用具有
groupby.agg
和cumsum
的自定义groupby聚合来生成公共grouper输出(原始示例):
输出(新示例):