我最近开始与一个团队合作,这个团队一直在构建一个涉及并行计算和数据爆炸的解决方案
系统的输入以一组excel文件的形式提供。表示有5组数据a、b、c、d和e。计算的输出是a、b、c、d和e的倍数。这一产出也随着年份的增长而增长——即,如果数据分布在5年内——则yr1的产出最小,yr5的产出最大(约30亿行)
我们目前使用microsoftsqlserver存储输入,使用microsoftorleans进行计算,并将计算出的输出存储在hadoop中。我在这里担心的是——我们现在所做的似乎与map reduce相反,我们团队的大数据技能有限。
我想看看是否有人有在类似系统上工作的经验,以及使用了什么样的解决方案堆栈
谢谢
暂无答案!
目前还没有任何答案,快来回答吧!