bert 为什么TFRecordWriter如此慢？我有800万个句子，处理数据花了一天时间，这是正常的吗？

6ovsh4lw 于 2个月前发布在其他

关注(0)|答案(6)|浏览(46)

没有提供描述。

6条答案

慢，但不是因为TFRecordWriter。将split拆分为token和token到id太慢了。

慢，但不是因为TFRecordWriter。将句子拆分为token和将token转换为id太慢了
感谢您的回复，但是为什么将句子拆分为token和将token转换为id如此缓慢？如果我们使用简单的Python脚本，它不会浪费那么多时间吗？

慢，但不是因为TFRecordWriter。将token拆分为id太慢了。我想我知道原因了，因为使用了TFRecord,每次只预处理一个样本。convert_single_example函数也显示了这一点。

如果你的主要目标是高效地获取句子嵌入，你可以尝试使用bert-as-service。它专门针对速度进行了优化。

如何获取不同标签的相似度？@hanxiao

BERT的第一个版本处理数据非常快，大约是30倍。这是因为它没有使用convert_single_example函数。