R语言 是否有机会将散列标签标记为多词标记?

gr8qqesn  于 2023-01-10  发布在  其他
关注(0)|答案(2)|浏览(125)

我目前正在分析Instagram上的帖子,这些帖子的标签通常包含不止一个单词(例如#pictureoftheday)。
然而,在R包tidytext中对它们进行标记只会产生一个标记。相反,我希望有多个标记,如"the""day"的"picture"。不幸的是,我还没有找到一个包能够做到这一点。你知道有哪个R包允许这种方法吗?
先谢了!

h6my8fg2

h6my8fg21#

据我所知,你不可能在不知道它们是单词的情况下就把它们分开,如果标签是用分隔符分开的话,那就很容易了;如果没有它,它就会变得非常复杂。你需要一个与语言相关的词典。
您可能需要单独处理数据。创建自己的基于字典的方法通常是一个很好的解决方案,但它非常耗时。
另见:
定量文本分析最基本的形式是单词计数技术和基于词典的方法,这篇文章将涵盖这两个主题,以及情感分析,这是一种基于词典的文本分析。

c90pui9n

c90pui9n2#

试试这个Python存储库:ekphrasis

from ekphrasis.classes.segmenter import Segmenter
    seg = Segmenter(corpus="mycorpus") 
    print(seg.segment("smallandinsignificant"))

输出:

> small and insignificant

相关问题