PaddleHub PairwiseTextMatchingTask提示训练数据要求4列?

5jvtdoz2  于 5个月前  发布在  其他
关注(0)|答案(3)|浏览(49)

使用PaddleHub 1.8.0自带的PairwiseTextMatchingTask进行训练时,提示训练数据需要4列。然而,pairwise应该是3列(query, positive_title, negative_title),这里是否存在一个BUG?后来在后面随意添加了一个0/1列。

46qrfjad

46qrfjad1#

你好!PaddleHub 由于 PairwiseTextMatchingTask 的损失计算使用的是 rank_loss,需要 label 参与计算。因此,PairwiseTextMatchingTask 的训练样本需要 queryleftrightlabel 这四个 slot。

fkaflof6

fkaflof62#

但是,这不合理呀,这个label到底表示什么意思呢?要知道pairwise里面,left表示相同的,right表示不同的。这个label该如何给出呢?这个loss计算还有什么意义?

eoxn13cs

eoxn13cs3#

你好!
left表示相同的,right表示不同的。这只是pairwise的一种形式。PaddleHub中的PairwiseTextMatchingTask的loss计算使用的是rank_loss。ranking loss的目的是去预测输入样本之间的相对距离。当label=0时,表示query和left语义距离相对更近,当label=1时,表示query和right语义距离相对更近。具体可以查找下rank loss的相关信息。

相关问题