删除Pandas Dataframe 单元格中杂乱字符串中的换行符？

ibrsph3r 于 2022-12-28 发布在其他

关注(0)|答案(5)|浏览(287)

我已经使用了多种方法来拆分和剥离我的panda Dataframe 中的字符串，以删除所有的'\n'字符，但出于某种原因，它只是不想删除附加到其他单词的字符，即使我拆分它们。我有一个panda Dataframe ，其中一列使用Beautifulsoup从网页中捕获文本。文本已经被beautifulsoup清理了一点，但是它在删除附加到其他字符的换行符时失败了。我的字符串看起来有点像这样：
“游戏开发实践。我们将学习与游戏相关的各种软件技术，包括编程语言、脚本语言、操作系统、文件系统、网络、模拟引擎和多媒体设计系统。我们还将学习计算机科学和相关领域的一些基本科学概念，包括”
有没有一种简单的python方法可以删除这些“\n”字符？

pandas

来源：https://stackoverflow.com/questions/44227748/removing-newlines-from-messy-strings-in-pandas-dataframe-cells

5条答案

按热度按时间

o4hqfura1#

编辑：这个问题的正确答案是：

df = df.replace(r'\n',' ', regex=True)

我认为您需要replace：

df = df.replace('\n','', regex=True)

或者：

df = df.replace('\n',' ', regex=True)

或者：

df = df.replace(r'\\n',' ', regex=True)

样品：

text = '''hands-on\ndev nologies\nrelevant scripting\nlang
'''
df = pd.DataFrame({'A':[text]})
print (df)
                                                   A
0  hands-on\ndev nologies\nrelevant scripting\nla...

df = df.replace('\n',' ', regex=True)
print (df)
                                                A
0  hands-on dev nologies relevant scripting lang

赞(0）回复(0）举报 2022-12-28

6psbrbz92#

df.replace(to_replace=[r"\\t|\\n|\\r", "\t|\n|\r"], value=["",""], regex=True, inplace=True)

对我有用。
资料来源：
https://gist.github.com/smram/d6ded3c9028272360eb65bcab564a18a

赞(0）回复(0）举报 2022-12-28

jvlzgdj93#

删除回车符（\r）、新行（\n)）和制表符（\t）

df = df.replace(r'\r+|\n+|\t+','', regex=True)

赞(0）回复(0）举报 2022-12-28

fgw7neuy4#

在杂乱的数据中，去除所有的空白df.replace(r'\s', '', regex = True, inplace = True)可能是一个好主意。

赞(0）回复(0）举报 2022-12-28

kjthegm65#

df = 'Sarah Marie Wimberly So so beautiful!!!\nAbram Staten You guys look good man.\nTJ Sloan I miss you guys\n'

   df = df.replace(r'\\n',' ', regex=True)

这对我所拥有的杂乱数据很有效。

赞(0）回复(0）举报 2022-12-28

我来回答

删除Pandas Dataframe 单元格中杂乱字符串中的换行符？

5条答案

相关问题

热门标签

最新问答