BERTopic 语义句子分割 ```markdown 语义句子分割 ```

dbf7pr2w 于 5个月前发布在其他

关注(0)|答案(1)|浏览(76)

我正在处理一个主要由较长文档组成的语料库。我正在寻求对它们进行语义分词的最有效方法的建议。
示例：

Original Text: "I like the ambiance but the food was terrible."
Desired Output: ["I like the ambiance"] ["but the food was terrible."]

Original Text: "I don't know. I like the restaurant but not the food."
Desired Output: ["I don't know."] ["I like the restaurant"] ["but not the food."]

对于如何实现这一点，任何建议或建议都将非常感谢！

BERTopic

来源：https://github.com/MaartenGr/BERTopic/issues/1936

1条答案

按热度按时间

3bygqnnd1#

你好！我可能弄错了，但我不认为有一种通用的技术用于这类语义句子分词，因为原始的分离高度依赖于语义分离的抽象水平。有一些小技巧，比如使用连词和句子分隔符来创建候选分割，然后使用嵌入技术来表示它们之间的潜在差异。
例如，你可以使用句子分隔器将输入进行分割，然后根据这些句子中是否存在连词进一步分割句子。然后，使用任何嵌入技术对生成的候选短语/句子进行嵌入。最后，如果顺序候选短语足够相似(用户指定的阈值),则将它们合并。
这并不完美，但总体原则(至少在我脑海中)似乎确实可行。

赞(0）回复(0）举报 5个月前

我来回答

BERTopic 语义句子分割 ```markdown 语义句子分割 ```

1条答案

相关问题

热门标签

最新问答