HanLP语义相似度，希望可以输出句子的embedding以便做存储，提高效率

mwg9r5ms 于 6个月前发布在其他

关注(0)|答案(2)|浏览(99)

描述功能和当前行为/状态。

当前使用sts,输入两个句子，对于大量句子比较，效率太低，虽然可以batch来做，但效率还是不够

这个功能会改变当前的API吗？如何改变？

可以在sts里增加一个输出

哪些人会从这个功能中受益？

sts使用者

你愿意为此贡献(是/否):

否

系统信息

HanLP语义相似度比较的效果不错，非常感谢作者的贡献，但现在有大量句子需要比较，希望HanLP能增加输出句子embedding的功能，先存储，使用时算cos距离，提高实际使用中的比较效率

2条答案

你好，目前的STS模型需要同时输入一对句子来计算相似度，不支持输出embedding。我们正在研发用于检索的句子embedding,敬请关注后续更新。

同样期待高效率的方法，目前可以使用simhash和bert的方法，但simhash准确率一般，bert计算量又大。