pandas 我应该在生成Word2Vec嵌入之前删除Dataframe中的所有空行吗？

q8l4jmvw 于 2023-04-19 发布在其他

关注(0)|答案(1)|浏览(99)

我用来创建Word 2 Vec嵌入的Pandas Dataframe列包含一些空行。标记化后看起来像这样---〉[]。我应该删除所有这样的样本吗？
我在下面分享了标记化和Word 2 Vec生成的代码：

nltk.download('punkt')
df['tweet_text'] = df['tweet_text'].apply(nltk.word_tokenize)
    
model = Word2Vec(df['tweet_text'], vector_size=300, window=10, hs=0, negative = 1)

如果我不删除这样的空行，会不会导致严重的问题？如果是，什么样的问题？

pandas

来源：https://stackoverflow.com/questions/75997045/should-i-remove-all-the-empty-rows-in-a-dataframe-before-generating-word2vec-emb

1条答案

按热度按时间

46qrfjad1#

是的。话虽如此，你可能想使用为twitter制作的预训练嵌入层。你可以下载它here on huggingface。

赞(0）回复(0）举报 2023-04-19

我来回答

pandas 我应该在生成Word2Vec嵌入之前删除Dataframe中的所有空行吗？

1条答案

相关问题

热门标签

最新问答