tensorflow TPU上的不确定性结果

gcuhipw9  于 2022-10-29  发布在  其他
关注(0)|答案(3)|浏览(184)

问题类型

错误

来源

二进制的

tensorflow 版本

2.9

自定义代码

是的

操作系统平台和分发

Linux操作系统Ubuntu 20.04

移动的设备

  • 没有回应 *

Python版本

3.9

Bazel版本

  • 没有回应 *

GCC/编译器版本

  • 没有回应 *

CUDA/cuDNN版本

  • 没有回应 *

GPU型号和内存

TPU第3 -8版

当前行为?

Use "TF_DETERMINISTIC_OPS = 1" or "tf.config.experimental.enable_op_determinism()" can get determistic result on GPU.

But the results are nondetermistic on cloud TPU.

重现问题的独立代码

https://github.com/edwardyehuang/CAR

The code on repo above can get determistic result on GPU, but the result is nondetermistic on TPU.

相关日志输出

TPU 1st RUN (1000 steps):

1000/1000 [==============================] - 506s 395ms/step - loss: 1.6268 - IOU: 0.3178 - g_1_orl: 0.6300 - g_1_sal: 0.0168 - val_loss: 1.3395 - val_IOU: 0.2370

TPU 2nd RUN (1000 steps):

1000/1000 [==============================] - 645s 448ms/step - loss: 1.6488 - IOU: 0.3095 - g_1_orl: 0.6314 - g_1_sal: 0.0162 - val_loss: 1.7416 - val_IOU: 0.1793
uyhoqukh

uyhoqukh1#

注意,我也试过

export PYTHONHASHSEED=0

tf.config.threading.set_intra_op_parallelism_threads(1)
 tf.config.threading.set_inter_op_parallelism_threads(1)

但是,它们都不起作用。我认为TensorFlow中的一些操作在TPU上是不确定的。

kuhbmx9i

kuhbmx9i2#

@ edwardyhuang很抱歉给您带来不便。请使用TPU在google colab中重现此问题。谢谢!!

qnakjoqk

qnakjoqk3#

https://colab.research.google.com/drive/1ZseRCfIQmzpLBd4HsFgovI_qo-m8kOYe?usp=sharing的最大值
@gowthamkpr您可以使用上面的链接尝试。
请注意,您必须使用自己的google cloud帐户来访问数据集。
你应该会发现每次运行中的loss/mIOU都是不同的。(确保你先删除了ckpts)

相关问题