从tf-yarn库创建pex进行分布式训练时出错

nkoocmlb  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(484)

因为我们的数据是在hadoop中,所以我们正在尝试使用tf-yarn库来训练tendorflow上的dl。但是我们在集群\u pack.upload\u env()中遇到错误
以下是完整的错误:
error:cluster_pack.packaging:cannot create pex traceback(last recent call last):file“/data1/python3.6.10/lib/python3.6/site packages/cluster\u pack/packaging.py”,第144行,在pack\u in\u pex indexes=[criteo\u pypi\u url]if\u is\u criteo()else none)file“/data1/python3.6.10/lib/python3.6/site packages/pex/resolver.py”,第803行,在resolve\u multi return list(resolve\u request.resolve\u distributions(ignore\u errors=ignore\u errors))file“/data1/python3.6.10/lib/python3.6/site packages/pex/resolver.py”第500行中,在resolve\u distributions raise\u type=unsatisfiable:file“/data1/python3.6.10/lib/python3.6/site packages/pex/resolver.py”第370行中,在第219行的“run\u parallel max\u jobs=self.\u max\u parallel\u jobs file”/data1/python3.6.10/lib/python3.6/site packages/pex/jobs.py”中,在execute\u parallel raise error pex.resolver.unsatisable:pid:6749->/data1/python3.6.10/bin/python3.6/tmp/tmpirzknr9r--禁用pip版本检查--隔离--存在操作i-q--无缓存目录下载--dest/tmp/tmp1ezcnpuj/已解析的\u dists/cp36-cp36m absl py==0.9.0 alembic==1.4.2 astor==0.8.1 astunbase==1.6.3异步生成器==1.1019.3.3.0回召==19.3.3.0回召==0.1.0漂白==3.1.5缓存工具==4.1.1 Certfi==2020.4.5.5.1 certipy==0.1.1 Certpy==0.1.3.0回召==19.3.0回召==0.1.1.0漂白==3.1.1.1 Certfififififi==2020.4.4.5.5.5.1 Certpy.1 Certpy==0.1.1 Certpy==0.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.0密码0密密密密密码学==2.9.2 cx.2 cx甲甲骨文==2.2 cx甲骨量==7.3.3你知道吗谷歌意面==0.2.0 0.2.0 GrafFrames==0.6 grpcio==1.30.0 h5py==2.10.0 icc rt==2020.0.0.133 idna===2.9进口lib元数据==2.9进口lib元数据==1.6.0英特尔openmp==2020.0 0.2.0 GrafFra==0.6.6.0 H5pypy==2.10.0 ICICC rt==2020.0 icc rt rt==2020.0.0.133 idna==2.13 idna==2.9进口进口lib元数据==2.9进口lib元数据==2.9.6.0英特尔元数据元数据元数据==1.6.6.6.6.6.6.6.0英特尔0 ipython===7.14.7.14.14.0 ipython==7.14.14.0 ipython你知道吗jupyter遥测==0.1.0 jupyter tensorboard==0.2.0 jupyterhub==1.1.0 jupyterlab==2.1.2 jupyterlab服务器==1.1.4 keras==2.4.3 keras应用程序==1.0.8 keras预处理==1.1.2 kiwisolver==1.2.0 mako==1.1.2 markupsafe==3.2.1 matplotlib==3.2.2失谐==0.8.4 mkl==2019.0 mkl random==1.0.1 nbconvert==5.6.1 nbformat==5.0.62.4鼻子=2.4鼻子=2.4鼻子=2.4鼻子=1.3.7笔记本==6.0.3努皮==1.18.5非统组织==3.1.0 opt einsum==3.1.0 opt einsum==3.2.4鼻子=2.4鼻子=1.4鼻子=1.3.7笔记本==6.0.3笔记本==6.0.3努皮==1.18.5非统统统组织==3.1.1.1.1.1.1.0 opt eiiiiiiiIb==3.2.1 Package ==2.4.4帕梅拉==1.4.4鼻子=1.4鼻子=1.4鼻子鼻子=1.3.3.3.3.3笔记本==1.3.3.3.3.3.3.0.0.0.0鼻子=1Pandas==1.0.0.0Pandas===0.4.8pyasn1 modules==0.2.8 pycparser==2.20 pygments==2.6.1 pyopenssl==19.1.0 pyparsing==2.4.7 pyresistent==0.16.0 pyspark==2.4.6 python dateutil==2.8.1 python editor==1.0.4 python json logger==0.1.11 pytz==2020.1 pyyaml==5.3.1 pyzmq==19.0.1 requests==2.23.0 requests oauthlib==1.3.0 rsa==4.6 ruamel.yaml==0.16.10 ruamel.yaml.clib==0.2.0scikit learn==0.23.1 scipy==1.4.1 seaborn==0.10.1 send2trash==1.5.0 six==1.15.0 skein==0.8.0 sklearn==0.0 sqlalchemy==1.3.17 tbb==2019.0 tbb4py==2019.0 tensorboard==2.2.2 tensorboard插件wit==1.7.0 tensorflow==2.2.0 tensorflow估计器==2.2.0 tensorflowpark==2.2.1 termcolor==1.1 terminado==0.8.3 testpath==0.4 tf yarn==0.5.1threadpoolctl==2.1.0 tornado==6.0.4 traitlets==4.3.3 urllib3==1.25.9 wcwidth==0.1.9 webencodings==0.5.1 werkzeug==1.0.1 widgetsnbextension==3.5.1 wrapt==1.12.1 zipp==3.1.0/data1/python3.6.10/bin/python3.6/tmp/tmpirzknr9r--禁用pip版本检查--隔离--存在操作i-q--无缓存目录下载--dest/tmp/tmp/tmp1ezcnpuuj/tmp/tmp1ezcnpuuj/resolved/dists/cp36-cp36m/cp36-cp36-cp36m-dists/cp36-cp36-cp36-cp36-cp36m-dists/spp/tmp1ezcnpuuj/resolved/dists/cp36-cp36-cp36m-dist-cp36-cp36m-abs-py-0.9.0 alemembic==1.4.4.2 astor.2 astor==1.4.2 astorr==0.2.2.2.1.2.1.1.1.1.1.1.1 certipy==0.1.1.3 cffi==1.1.1.1.3.1.3.1.0.1.0.0.0 chardet==3.4.3.4云云泡客==3你知道吗cycler==0.10.0 decorator==4.4.2 defusedxml==0.6.0 entrypoints==0.3 gast==0.3.3 google auth==1.18.0 google auth oauthlib==0.4.1 google pasta==0.2.0 graphframes==0.6 grpcio==1.30.0 h5py==2.10.0 icc rt==2020.0.133 idna==2.9 importlib metadata==1.6.0 intel openmp==2020.0.133 ipykernel==5.3.0 ipython==7.14.0 ipython genutils==0.2.0 ipywidgets==7.5.1jedi==0.17.0 jinja2==2.11.2 joblib==0.16.0 json5==0.9.4 jsonschema==3.2.0 jupyter客户端==6.1.3 jupyter核心==4.6.3 jupyter遥测==0.1.0 jupyter张力板==0.2.0 jupyterhub==1.1.0 jupyterlab==2.1.2 jupyterlab服务器==1.1.4 keras==2.4 keras应用==1.0.8 keras预处理==1.1.2 kiwisolver==1.2 mako==1.1.2 markdown==3.2.21.1.1.1 matplotlib==1.1.1 matplotlib==3.2.2 mistun==0.8.4 mkl==2019.0 mkl随机==1.0.1.1 nbconvert==1.1.1.1.1 nbconvert==1.1.1.1.1 MatPlotLiLib==1.1.1.1.2.2 mkl mkl==2019.0 mkl随机==1.0.1.1.1.1.1.1.1 NBconconconvert==5.6.1 NBconconconconconvert==5.6.6.1 NBformform==5.6.1 N格式==5.6.6.6.6网络,网络X==2.6网络X==2.4鼻鼻=2.4鼻子==2.4鼻子鼻子==2.4鼻鼻==1=0.7.5prometheus客户端==0.7.1 prompt toolkit==3.0.5 protobuf==3.12.2 ptyprocess==0.6.0 py4j==0.10.7 pyarrow==1.0.0 pyasn1==0.4.8 pyasn1模块==0.2.8 pycparser==2.20 pygments==2.6.1 pyopenssl==19.1.0 pyparsing==2.4.7 pyresistent==0.16.0 pyspark==2.4.6 python dateutil==2.8.1 python编辑器==1.0.4 python json记录器==0.1.11 pytz==2020.1 pyyaml==5.3.1pyzmq==19.0.1请求==2.23.0请求oauthlib==1.3.0 rsa==4.6 ruamel.yaml==0.16.10 ruamel.yaml.clib==0.2.0 scikit learn==0.23.1 scipy==1.4.1 seaborn==0.10.1 send2trash==1.5.0 six==1.15.0 skein==0.8.0 sklearn==0.0 sqlalchemy==1.3.17 tbb==2019.0 tbb4py==2019.0 tensorboard==2.2 tensorboard plugin==1.7.0 tensorflow==2.0tensorflow estimator==2.2.0 tensorflowonspark==2.2.1 termcolor==1.1.0 TermADO==0.8.3 testpath==0.4.4 tf yarn==0.5.1 threadpoolctl==2.1.0 tornado==6.0.4 traitlets==4.3.3 urllib3==1.25.9 wcwidth==0.1.9 webencodings==0.5.1 werkzeug==1.0.1 widgetsnbextension==3.5.1 wrapt==1.12.1 Zip==3.1.0失败,120

6bc51xsx

6bc51xsx1#

什么是失败的pex创建与您的依赖之一。你真的有很多依赖性。最好的方法是为您拥有的每个用例隔离您的依赖关系,并创建一个更小的虚拟环境,或者只使用tensorflow进行尝试。
您可以尝试使用不同的需求执行pex cli命令,并查看到底是哪个需求产生了问题。同样重要的是要检查它是否适用于更新的pex版本(目前tf yarn使用pex==2.1.1)

pex -r requirements -o myarchive.pex

作为一种选择,你也可以尝试,如果它与康达工作。
如果您创建了一个包含绝对需要的需求的requirements.txt文件,并在https://github.com/criteo/tf-yarn/issues 我可以看看。

相关问题