我在一个大的日期框架中得到了一个成绩单列,我想从成绩单的开头删除/删除无用的消息,如果用户输入的话,比如hi或hello。
成绩单示例:
“用户:您好\n机器人:你好。\用户:订单状态。\n机器人:您的订单状态是您的订单选项卡。\n用户:代表。”
“用户:代理。\n机器人:等待时间比平时长”
输出应删除转录中无用的部分,包括bot响应,并获得以下输出:
“用户:订单状态。\n机器人:您的订单状态是您的订单选项卡。\n用户:代表。”
“用户:代理。\n机器人:等待时间比平时长”
第二个记录保持不变,因为它没有Hi或hello。
这是我到目前为止所拥有的:
df['Transcript'].str.split('\User').str.contains('hi|hello')
2条答案
按热度按时间ecr0jaav1#
可能的解决方案:
输出:
twh00eeo2#
首先,您可以将消息的拆分保存到一个var中,并使用正则表达式来完成这项工作。
所以使用纯Python,你可以尝试这样做:
输出应为: