现在我的数据集顺序是:TFRecordDataset->batch->map->copy_to_devicemap会输出很多小Tensor,小Tensor的memcpyH2D太慢了。数据由nsys提供:
TFRecordDataset->batch->map->copy_to_device
TFRecordDataset->batch->map->merge->copy_to_device->split也许性能会不错。如果需要的话,我可以贡献这部分代码。
TFRecordDataset->batch->map->merge->copy_to_device->split
inn6fuwd1#
在相同的数据H2D测试中:小H2D:
大H2D:
H2D性能:大H2D速度:18.8862 GB/s(13%) 小H2D速度:16.6752GB/s。
1条答案
按热度按时间inn6fuwd1#
在相同的数据H2D测试中:
小H2D:
大H2D:
H2D性能:大H2D速度:18.8862 GB/s(13%) 小H2D速度:16.6752GB/s。