删除Pandas Dataframe 单元格中杂乱字符串中的换行符?

ibrsph3r  于 2022-12-28  发布在  其他
关注(0)|答案(5)|浏览(288)

我已经使用了多种方法来拆分和剥离我的panda Dataframe 中的字符串,以删除所有的'\n'字符,但出于某种原因,它只是不想删除附加到其他单词的字符,即使我拆分它们。我有一个panda Dataframe ,其中一列使用Beautifulsoup从网页中捕获文本。文本已经被beautifulsoup清理了一点,但是它在删除附加到其他字符的换行符时失败了。我的字符串看起来有点像这样:
“游戏开发实践。我们将学习与游戏相关的各种软件技术,包括编程语言、脚本语言、操作系统、文件系统、网络、模拟引擎和多媒体设计系统。我们还将学习计算机科学和相关领域的一些基本科学概念,包括”
有没有一种简单的python方法可以删除这些“\n”字符?

o4hqfura

o4hqfura1#

编辑:这个问题的正确答案是:

df = df.replace(r'\n',' ', regex=True)

我认为您需要replace

df = df.replace('\n','', regex=True)

或者:

df = df.replace('\n',' ', regex=True)

或者:

df = df.replace(r'\\n',' ', regex=True)

样品:

text = '''hands-on\ndev nologies\nrelevant scripting\nlang
'''
df = pd.DataFrame({'A':[text]})
print (df)
                                                   A
0  hands-on\ndev nologies\nrelevant scripting\nla...

df = df.replace('\n',' ', regex=True)
print (df)
                                                A
0  hands-on dev nologies relevant scripting lang
6psbrbz9

6psbrbz92#

df.replace(to_replace=[r"\\t|\\n|\\r", "\t|\n|\r"], value=["",""], regex=True, inplace=True)

对我有用。
资料来源:
https://gist.github.com/smram/d6ded3c9028272360eb65bcab564a18a

jvlzgdj9

jvlzgdj93#

删除回车符(\r)、新行(\n))和制表符(\t

df = df.replace(r'\r+|\n+|\t+','', regex=True)
fgw7neuy

fgw7neuy4#

在杂乱的数据中,去除所有的空白df.replace(r'\s', '', regex = True, inplace = True)可能是一个好主意。

kjthegm6

kjthegm65#

df = 'Sarah Marie Wimberly So so beautiful!!!\nAbram Staten You guys look good man.\nTJ Sloan I miss you guys\n'

   df = df.replace(r'\\n',' ', regex=True)

这对我所拥有的杂乱数据很有效。

相关问题