bert 为什么TFRecordWriter如此慢?我有800万个句子,处理数据花了一天时间,这是正常的吗?

6ovsh4lw  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(45)

没有提供描述。

0h4hbjxa

0h4hbjxa1#

慢,但不是因为TFRecordWriter。将split拆分为token和token到id太慢了。

ccrfmcuu

ccrfmcuu2#

慢,但不是因为TFRecordWriter。将句子拆分为token和将token转换为id太慢了
感谢您的回复,但是为什么将句子拆分为token和将token转换为id如此缓慢?如果我们使用简单的Python脚本,它不会浪费那么多时间吗?

kg7wmglp

kg7wmglp3#

慢,但不是因为TFRecordWriter。将token拆分为id太慢了。我想我知道原因了,因为使用了TFRecord,每次只预处理一个样本。convert_single_example函数也显示了这一点。

wnvonmuf

wnvonmuf4#

如果你的主要目标是高效地获取句子嵌入,你可以尝试使用bert-as-service。它专门针对速度进行了优化。

j8yoct9x

j8yoct9x5#

如何获取不同标签的相似度?@hanxiao

mi7gmzs6

mi7gmzs66#

BERT的第一个版本处理数据非常快,大约是30倍。这是因为它没有使用convert_single_example函数。

相关问题