我想有更多关于Apache Ignite(集群IGFS)和HDFS配置的细节。我找不到任何官方的参考资料,所以我怀疑这是不可能做到这一点与apache点燃的开源版本,我需要切换到像gridgain。是真的吗?我想使用apache ignite来执行spark的内存计算,我想与hadoop hdfs作为后端存储进行一种“自动”同步,因为我不想从hdfs执行任何手动加载。谢谢
gdrx4gfi1#
您仍然可以使用Apache Ignite与Spark的集成来使用HDFS:https://ignite.apache.org/docs/latest/extensions-and-integrations/ignite-for-spark/overview#supported-spark-version目前有Spark 2.3、2.4和3.0的集成。后者是不久前添加的,由于某种原因,它不在文档中。但它在这里:https://downloads.apache.org/ignite/ignite-extensions/ignite-spark-ext/3.0.0/无论如何,你也可以查看我关于这个集成的网络研讨会:https://www.youtube.com/watch?v=lkRh2TO8VSU你也可以在这里看到例子:https://github.com/GridGain-Demos/spark-hdfs-ignite-aws-deployment-demo/blob/master/spark_example_project/src/main/java/test/SparkIgniteLoaderFromHdfs.java
x8diyxa72#
Igfs在2019年被删除,专注于高性能内存计算和查询。Apache HDFS项目更适合作为文件系统(en.wikipedia.org/wiki/Apache_Hadoop#HDFS)。
2条答案
按热度按时间gdrx4gfi1#
您仍然可以使用Apache Ignite与Spark的集成来使用HDFS:
https://ignite.apache.org/docs/latest/extensions-and-integrations/ignite-for-spark/overview#supported-spark-version
目前有Spark 2.3、2.4和3.0的集成。后者是不久前添加的,由于某种原因,它不在文档中。但它在这里:
https://downloads.apache.org/ignite/ignite-extensions/ignite-spark-ext/3.0.0/
无论如何,你也可以查看我关于这个集成的网络研讨会:
https://www.youtube.com/watch?v=lkRh2TO8VSU
你也可以在这里看到例子:
https://github.com/GridGain-Demos/spark-hdfs-ignite-aws-deployment-demo/blob/master/spark_example_project/src/main/java/test/SparkIgniteLoaderFromHdfs.java
x8diyxa72#
Igfs在2019年被删除,专注于高性能内存计算和查询。Apache HDFS项目更适合作为文件系统(en.wikipedia.org/wiki/Apache_Hadoop#HDFS)。