pandas 我应该在生成Word2Vec嵌入之前删除Dataframe中的所有空行吗?

q8l4jmvw  于 2023-04-19  发布在  其他
关注(0)|答案(1)|浏览(99)

我用来创建Word 2 Vec嵌入的Pandas Dataframe列包含一些空行。标记化后看起来像这样---〉[]。我应该删除所有这样的样本吗?
我在下面分享了标记化和Word 2 Vec生成的代码:

nltk.download('punkt')
df['tweet_text'] = df['tweet_text'].apply(nltk.word_tokenize)
    
model = Word2Vec(df['tweet_text'], vector_size=300, window=10, hs=0, negative = 1)

如果我不删除这样的空行,会不会导致严重的问题?如果是,什么样的问题?

46qrfjad

46qrfjad1#

是的。话虽如此,你可能想使用为twitter制作的预训练嵌入层。你可以下载它here on huggingface

相关问题