R academictwitteR -下载至少包含每个向量的一个单词的tweet

vu8f3i0k  于 2023-01-15  发布在  其他
关注(0)|答案(1)|浏览(109)

对于我的研究问题,我正在寻找包含topic1topic2的单词的tweet。如果我一次只寻找一个主题,这是相当直接的。

vec_topic1 <- c("word_1","word_2","word_3")
vec_topic2 <- c("word_a","word_b","word_c")

tweets_topic1 <-  get_all_tweets(query = vec_topic1,
                                 start_tweets = "2020-01-01T00:00:00Z",
                                 end_tweets = "2020-12-31T00:00:00Z",
                                 file = "tweets_topic1",
                                 data_path = "data/",
                                 n = 500,
                                 )

tweets_topic2 <-  get_all_tweets(query = vec_topic2,
                                 start_tweets = "2020-01-01T00:00:00Z",
                                 end_tweets = "2020-12-31T00:00:00Z",
                                 file = "tweets_topic2",
                                 data_path = "data/",
                                 n = 500,
                                 )

这样做很好,向量中包含的每个单词都用OR连接,控制台输出如下:

query: (word_1 OR word_2 OR word_3)

基本上,我现在要做的是用AND连接这两个向量,所以我希望输出中至少包含一个来自vec_topic1的单词和一个来自vec_topic2的单词。
我尝试了以下方法:

tweets_both_topics <- get_all_tweets(query = c(vec_topic1, "AND", vec_topic2),
                                     start_tweets = "2020-01-01T00:00:00Z",
                                     end_tweets = "2020-12-31T00:00:00Z",
                                     file = "tweets_both_topics",
                                     data_path = "data/",
                                     n = 500,
                                     )

查询的控制台输出看起来很有希望。

query: (word_1 OR word_2 OR word_3 AND word_a OR word_b OR word_c)

我确实得到了一个包含两个向量的单词的数据集,但是每条tweet中两个向量的单词都不超过一个,所以,它似乎忽略了AND,或者至少不理解我试图从每条tweet的每个向量中寻找至少一个单词。
我希望我能解释我的问题。有人对如何解决这个问题有建议吗?

dsekswqp

dsekswqp1#

尽管这不是一个优雅的解决方案,但以下方法对我很有效:

tweets_both_topics <- get_all_tweets(query = "(word_1,word_2,word_3)
                                              (word_a,word_b,word_c)",        
                                     start_tweets = "2020-01-01T00:00:00Z",
                                     end_tweets = "2020-12-31T00:00:00Z",
                                     file = "tweets_both_topics",
                                     data_path = "data/",
                                     n = 500,
                                     )

这样我就得到了包含每个向量的一个单词的tweet。

相关问题