我正在尝试提取单词和符号之间的文本。下面是输入表。
而我的预期输出是这样的。
我不希望在输出中出现单词"Team:"和"〈〉"。我尝试了类似的方法,但它在输出中保留了'Team:'和'〈〉':data [new col]=数据['团队'].字符串提取(r'(团队:\s [a-zA-Z\s]+〈〉)谢谢你。
rta7y2nd1#
将regex捕获的组用于str.extract方法:
str.extract
df['Team'].str.extract(r'^Team: ([^<>]+)')
[^<>]+
<
>
3mpgtkmj2#
您可以使用正则表达式来实现这一点,因为这将考虑具有空格和任意N长度的国家。
import re row_string = "Team: United States <>" country_name = re.search(r'Team: (.*) <>', row_string).group(1)
2条答案
按热度按时间rta7y2nd1#
将regex捕获的组用于
str.extract
方法:[^<>]+
-匹配除<
和>
字符之外的任何字符3mpgtkmj2#
您可以使用正则表达式来实现这一点,因为这将考虑具有空格和任意N长度的国家。