对于我的研究问题,我正在寻找包含topic1和topic2的单词的tweet。如果我一次只寻找一个主题,这是相当直接的。
vec_topic1 <- c("word_1","word_2","word_3")
vec_topic2 <- c("word_a","word_b","word_c")
tweets_topic1 <- get_all_tweets(query = vec_topic1,
start_tweets = "2020-01-01T00:00:00Z",
end_tweets = "2020-12-31T00:00:00Z",
file = "tweets_topic1",
data_path = "data/",
n = 500,
)
tweets_topic2 <- get_all_tweets(query = vec_topic2,
start_tweets = "2020-01-01T00:00:00Z",
end_tweets = "2020-12-31T00:00:00Z",
file = "tweets_topic2",
data_path = "data/",
n = 500,
)
这样做很好,向量中包含的每个单词都用OR连接,控制台输出如下:
query: (word_1 OR word_2 OR word_3)
基本上,我现在要做的是用AND连接这两个向量,所以我希望输出中至少包含一个来自vec_topic1的单词和一个来自vec_topic2的单词。
我尝试了以下方法:
tweets_both_topics <- get_all_tweets(query = c(vec_topic1, "AND", vec_topic2),
start_tweets = "2020-01-01T00:00:00Z",
end_tweets = "2020-12-31T00:00:00Z",
file = "tweets_both_topics",
data_path = "data/",
n = 500,
)
查询的控制台输出看起来很有希望。
query: (word_1 OR word_2 OR word_3 AND word_a OR word_b OR word_c)
我确实得到了一个包含两个向量的单词的数据集,但是每条tweet中两个向量的单词都不超过一个,所以,它似乎忽略了AND,或者至少不理解我试图从每条tweet的每个向量中寻找至少一个单词。
我希望我能解释我的问题。有人对如何解决这个问题有建议吗?
1条答案
按热度按时间dsekswqp1#
尽管这不是一个优雅的解决方案,但以下方法对我很有效:
这样我就得到了包含每个向量的一个单词的tweet。