使用正则表达式scala标记每个单词只包含字母的句子

ghhkc1vu 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(309)

我将spark与scala结合使用，并尝试将每个单词只包含字母的句子标记化。这是我的密码

def tokenization(extractedText: String): DataFrame = {

    val existingSparkSession = SparkSession.builder().getOrCreate()
    val textDataFrame = existingSparkSession.createDataFrame(Seq(
      (0, extractedText))).toDF("id", "sentence")
    val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
    val regexTokenizer = new RegexTokenizer()
      .setInputCol("sentence")
      .setOutputCol("words")
      .setPattern("\\W")
    val regexTokenized = regexTokenizer.transform(textDataFrame)
    regexTokenized.select("sentence", "words").show(false)
    return regexTokenized;
  }

如果我在标记化后提供“我要去学校5”的感觉，它应该只有[我，正在，要去]，应该放弃学校5。但以我目前的模式，它不会忽略单词中的数字。我该如何删除带数字的单词？

scala apache-spark regex tokenize

来源：https://stackoverflow.com/questions/66265080/tokenize-a-sentence-where-each-word-contains-only-letters-using-regextokenizer-s

1条答案

按热度按时间

mspsb9vt1#

您可以使用下面的设置来获得所需的标记化。基本上，您可以使用适当的regex模式提取只包含字母的单词。

val regexTokenizer = new RegexTokenizer().setInputCol("sentence").setOutputCol("words").setGaps(false).setPattern("\\b[a-zA-Z]+\\b")

val regexTokenized = regexTokenizer.transform(textDataFrame)

regexTokenized.show(false)
+---+---------------------+------------------+
|id |sentence             |words             |
+---+---------------------+------------------+
|0  |I am going to school5|[i, am, going, to]|
+---+---------------------+------------------+

因为我要 gaps 至 false ，见文件：
一种基于regex的标记器，通过使用提供的regex模式（用java方言）分割文本（默认）或重复匹配regex（如果gaps为false）来提取标记。可选参数还允许使用最小长度过滤令牌。它返回一个可以为空的字符串数组。
您希望重复匹配正则表达式，而不是用给定的正则表达式拆分文本。

赞(0）回复(0）举报 2021-07-13

我来回答

使用正则表达式scala标记每个单词只包含字母的句子

1条答案

相关问题

热门标签

最新问答