我有一个数据集,我在那里阅读一些推文,我必须删除标点符号和非ascii字符,并转换成小字母的文本。如何在Dataframe中实现这一点?有没有一种方法可以使用sparksql。
scala> data.show
+-----+--------------------+
| id| tweet|
+-----+--------------------+
|31963|#studiolife #aisl...|
|31964| @user #white #su...|
|31965|safe ways to heal...|
|31966|is the hp and the...|
|31967| 3rd #bihday to ...|
|31968|choose to be :)...|
|31969|something inside ...|
|31970|#finished#tattoo#...|
|31971| @user @user @use...|
2条答案
按热度按时间8mmmxcuj1#
更通用的方法-替换
non-word
字符除外space
如下所示-zyfwsgd62#
对于df列,请尝试以下操作:用单个字符替换字符串列:
列的字符串类型为:
工作正常