我已经使用了多种方法来拆分和剥离我的panda Dataframe 中的字符串,以删除所有的'\n'字符,但出于某种原因,它只是不想删除附加到其他单词的字符,即使我拆分它们。我有一个panda Dataframe ,其中一列使用Beautifulsoup从网页中捕获文本。文本已经被beautifulsoup清理了一点,但是它在删除附加到其他字符的换行符时失败了。我的字符串看起来有点像这样:
“游戏开发实践。我们将学习与游戏相关的各种软件技术,包括编程语言、脚本语言、操作系统、文件系统、网络、模拟引擎和多媒体设计系统。我们还将学习计算机科学和相关领域的一些基本科学概念,包括”
有没有一种简单的python方法可以删除这些“\n”字符?
5条答案
按热度按时间o4hqfura1#
编辑:这个问题的正确答案是:
我认为您需要
replace
:或者:
或者:
样品:
6psbrbz92#
对我有用。
资料来源:
https://gist.github.com/smram/d6ded3c9028272360eb65bcab564a18a
jvlzgdj93#
删除回车符(
\r
)、新行(\n)
)和制表符(\t
)fgw7neuy4#
在杂乱的数据中,去除所有的空白
df.replace(r'\s', '', regex = True, inplace = True)
可能是一个好主意。kjthegm65#
这对我所拥有的杂乱数据很有效。