我使用Bert文档嵌入在CACM数据集上执行信息检索。我获得了非常低的准确率分数,大约6%。然而,当我使用传统的BM-25方法时,结果非常接近40%,这接近于文献中发现的该数据集的平均准确率。这一切都是在Apache Solr中执行的。我也尝试过使用Doc 2 Vec进行信息检索,但结果和BERT一样糟糕。对于像这样的IR任务,使用文档嵌入是否不可取?
5f0d552i1#
许多人发现文档嵌入对于他们的目的来说工作得非常好!如果他们不为你工作,可能的原因包括:
如果没有更多关于你的目标和行动的细节,就不可能说出是什么影响了你的过程,以及对它的有用性的原始感知。最值得注意的是,如果有其他已发表的工作使用相同的数据集,并且对“准确性”有类似的定义,而其他已发表的工作声称使用相同的方法得到更好的结果,而对你来说却给予更差的结果,那么你的实现中更有可能存在错误。你必须命名你试图匹配的结果(理想的是与确切的文章链接),并显示你的代码做什么的细节,让其他人有任何机会猜测你发生了什么。
1条答案
按热度按时间5f0d552i1#
许多人发现文档嵌入对于他们的目的来说工作得非常好!
如果他们不为你工作,可能的原因包括:
如果没有更多关于你的目标和行动的细节,就不可能说出是什么影响了你的过程,以及对它的有用性的原始感知。
最值得注意的是,如果有其他已发表的工作使用相同的数据集,并且对“准确性”有类似的定义,而其他已发表的工作声称使用相同的方法得到更好的结果,而对你来说却给予更差的结果,那么你的实现中更有可能存在错误。
你必须命名你试图匹配的结果(理想的是与确切的文章链接),并显示你的代码做什么的细节,让其他人有任何机会猜测你发生了什么。