如何构建测试环境(linux,spark,jupyterhub)

nukf8bse  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(314)

我正在写我的论文,我有机会建立一个工作环境来测试它的功能和工作原理。
应包括以下几点:
jupyterhub(私有云内)
Pandas,numpy,sql,nbconvert,nbviewer
将数据放入Dataframe(csv),分析数据,存储数据(rdd?、hdf5?、hdfs?)
未来分析的Spark
测试场景将包括:
多用户环境,带有用户/主题笔记本
使用pandas、numpy和spark(sparksql)、matplotlib…以3路匹配方式分析具有数百万行的结构化表(rseg、mseg、ekpo)。。。。在这3个表中大约有3gb的数据。
使用nbconvert、nbviewer将笔记本导出为pdf、只读notbook和/或reveal.js
你们能不能给我一些提示或经验,我应该用多少笔记来进行测试,哪个linux发行版是个好的开始?我相信还有很多问题,我有问题想办法或信息如何评估可能的答案。
提前谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题