我正在写我的论文,我有机会建立一个工作环境来测试它的功能和工作原理。
应包括以下几点:
jupyterhub(私有云内)
Pandas,numpy,sql,nbconvert,nbviewer
将数据放入Dataframe(csv),分析数据,存储数据(rdd?、hdf5?、hdfs?)
未来分析的Spark
测试场景将包括:
多用户环境,带有用户/主题笔记本
使用pandas、numpy和spark(sparksql)、matplotlib…以3路匹配方式分析具有数百万行的结构化表(rseg、mseg、ekpo)。。。。在这3个表中大约有3gb的数据。
使用nbconvert、nbviewer将笔记本导出为pdf、只读notbook和/或reveal.js
你们能不能给我一些提示或经验,我应该用多少笔记来进行测试,哪个linux发行版是个好的开始?我相信还有很多问题,我有问题想办法或信息如何评估可能的答案。
提前谢谢!
暂无答案!
目前还没有任何答案,快来回答吧!