我正在处理一个主要由较长文档组成的语料库。我正在寻求对它们进行语义分词的最有效方法的建议。
示例:
Original Text: "I like the ambiance but the food was terrible."
Desired Output: ["I like the ambiance"] ["but the food was terrible."]
Original Text: "I don't know. I like the restaurant but not the food."
Desired Output: ["I don't know."] ["I like the restaurant"] ["but not the food."]
对于如何实现这一点,任何建议或建议都将非常感谢!
1条答案
按热度按时间3bygqnnd1#
你好!我可能弄错了,但我不认为有一种通用的技术用于这类语义句子分词,因为原始的分离高度依赖于语义分离的抽象水平。有一些小技巧,比如使用连词和句子分隔符来创建候选分割,然后使用嵌入技术来表示它们之间的潜在差异。
例如,你可以使用句子分隔器将输入进行分割,然后根据这些句子中是否存在连词进一步分割句子。然后,使用任何嵌入技术对生成的候选短语/句子进行嵌入。最后,如果顺序候选短语足够相似(用户指定的阈值),则将它们合并。
这并不完美,但总体原则(至少在我脑海中)似乎确实可行。