HanLP语义相似度,希望可以输出句子的embedding以便做存储,提高效率

mwg9r5ms  于 6个月前  发布在  其他
关注(0)|答案(2)|浏览(100)

描述功能和当前行为/状态。

当前使用sts,输入两个句子,对于大量句子比较,效率太低,虽然可以batch来做,但效率还是不够

这个功能会改变当前的API吗?如何改变?

可以在sts里增加一个输出

哪些人会从这个功能中受益?

sts使用者

你愿意为此贡献(是/否):

系统信息

  • 操作系统平台和发行版(例如:Linux Ubuntu 16.04):```
  • Python版本:```
  • HanLP版本:```
    其他信息

HanLP语义相似度比较的效果不错,非常感谢作者的贡献,但现在有大量句子需要比较,希望HanLP能增加输出句子embedding的功能,先存储,使用时算cos距离,提高实际使用中的比较效率

  • 我已仔细填写了此表单。
dluptydi

dluptydi1#

你好,目前的STS模型需要同时输入一对句子来计算相似度,不支持输出embedding。我们正在研发用于检索的句子embedding,敬请关注后续更新。

laawzig2

laawzig22#

同样期待高效率的方法,目前可以使用simhash和bert的方法,但simhash准确率一般,bert计算量又大。

相关问题