我用来创建Word 2 Vec嵌入的Pandas Dataframe列包含一些空行。标记化后看起来像这样---〉[]
。我应该删除所有这样的样本吗?
我在下面分享了标记化和Word 2 Vec生成的代码:
nltk.download('punkt')
df['tweet_text'] = df['tweet_text'].apply(nltk.word_tokenize)
model = Word2Vec(df['tweet_text'], vector_size=300, window=10, hs=0, negative = 1)
如果我不删除这样的空行,会不会导致严重的问题?如果是,什么样的问题?
1条答案
按热度按时间46qrfjad1#
是的。话虽如此,你可能想使用为twitter制作的预训练嵌入层。你可以下载它here on huggingface。