tokenize.fit_on_text,tokenize.text_to_sequence和word embeddings的区别?尝试在各种平台上搜索,但没有得到合适的答案。
tokenize.fit_on_text
tokenize.text_to_sequence
word embeddings
vatpfxk51#
单词嵌入是一种表示单词的方式,使得具有相同/相似含义的单词具有相似的表示。两种常用的学习单词嵌入的算法是Word 2 Vec和GloVe。注意,单词嵌入也可以从零开始学习,同时训练你的神经网络进行文本处理,在你的特定的NLP问题。你也可以使用迁移学习;在这种情况下,这意味着要从你的问题上的巨大数据集中转移所学习的单词表示。至于tokenizer(我假设我们说的是Keras),从文档中可以看出:
tokenize.fit_on_text()
word_index["dog"] = 0
word_index["is"] = 1
tokenize.text_to_sequence()
tokenizer.word_index()
1条答案
按热度按时间vatpfxk51#
单词嵌入是一种表示单词的方式,使得具有相同/相似含义的单词具有相似的表示。两种常用的学习单词嵌入的算法是Word 2 Vec和GloVe。
注意,单词嵌入也可以从零开始学习,同时训练你的神经网络进行文本处理,在你的特定的NLP问题。你也可以使用迁移学习;在这种情况下,这意味着要从你的问题上的巨大数据集中转移所学习的单词表示。
至于tokenizer(我假设我们说的是Keras),从文档中可以看出:
tokenize.fit_on_text()
-->根据词频创建词汇表索引。例如,如果你有短语“我的狗和你的狗不一样,我的狗更漂亮”,word_index["dog"] = 0
,word_index["is"] = 1
(狗出现3次,是出现2次)tokenize.text_to_sequence()
-->将每个文本转换为一个整数序列。基本上,如果你有一个句子,它会给你句子中的每个单词分配一个整数。您可以访问tokenizer.word_index()
(返回一个字典)来验证为单词指定的整数。