我有一个包含两个变量的数据集,如附件中的照片。我试图用数字表示这些变量,以便我可以预测目标变量sectionName。每当我使用keras的texts_to_sequences函数时,它都会创建一个对象数组,例如[1,2,3,4,5,6,7,8]。
这会产生错误:ValueError:无法将NumPy数组转换为Tensor(不支持的对象类型tensorflow.python.framework.ops.EagerTensor)。
有什么建议吗?或者这是否是用数字表示这些字符串的最佳方法?
我有一个包含两个变量的数据集,如附件中的照片。我试图用数字表示这些变量,以便我可以预测目标变量sectionName。每当我使用keras的texts_to_sequences函数时,它都会创建一个对象数组,例如[1,2,3,4,5,6,7,8]。
这会产生错误:ValueError:无法将NumPy数组转换为Tensor(不支持的对象类型tensorflow.python.framework.ops.EagerTensor)。
有什么建议吗?或者这是否是用数字表示这些字符串的最佳方法?
1条答案
按热度按时间li9yvcax1#
通常,你可以用一个分词器来表示文本的数字。一个基本的分词器会把每个单词转换成一个数字。像这样:
所以,基本上你需要首先将tokenizer与你的数据集相匹配,然后你可以用它来进行tokenize。