使用paddle对特征目前最常用的两种处理方式为1)word_emb,即fluid.layers.embedding,我理解这种特征比较适合单特征2)text_cnn,即先fluid.layers.embedding后进行fluid.nets.sequence_conv_pool,目前字符串、多值特征多用该种处理方式
目前有这么一类多值特征,每个值有不同的权重,对这样的特征如何设计embedding更合理?是否有按权融合多值特征embedding的方法呢?谢谢
uxh89sit1#
可以为每个值学习一个 embeddding 表?然后加权求和即可
类似于 BERT 的 word/position/sentence embedding,只是这里的权重为 1
https://github.com/PaddlePaddle/models/blob/eb7eb9cd5f2bffe5edd8b7d6a35b46f38a6db498/PaddleNLP/pretrain_language_models/BERT/model/bert.py#L106
0ejtzxu12#
类似这样 是否可以 paddle本地跑没问题求和融合以及concat融合方式
2条答案
按热度按时间uxh89sit1#
可以为每个值学习一个 embeddding 表?然后加权求和即可
类似于 BERT 的 word/position/sentence embedding,只是这里的权重为 1
https://github.com/PaddlePaddle/models/blob/eb7eb9cd5f2bffe5edd8b7d6a35b46f38a6db498/PaddleNLP/pretrain_language_models/BERT/model/bert.py#L106
0ejtzxu12#
类似这样 是否可以 paddle本地跑没问题
求和融合以及concat融合方式