apache spark graphx java.lang.arrayindexoutofboundsexception异常

wlsrxk51 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(819)

我试图了解如何使用spark graphx，但总是有一些问题，所以也许有人可以建议我读什么等。我试图阅读spark文档和学习spark-o'reilly媒体书，但找不到任何解释我们需要多少内存来处理不同大小的网络等。
对于我的测试，我使用了几个示例数据集。我在spark shell的1个主节点（~16gb ram）上运行它们：

./bin/spark-shell --master spark://192.168.0.12:7077 --executor-memory 2900m --driver-memory 10g

以及3-5个工人（每台单独的机器1个工人，内存为4gb）：

./bin/spark-class org.apache.spark.deploy.worker.Worker spark://192.168.0.12:7077

然后从spark shell运行scala脚本（未编译）：

:load /home/ubuntu/spark-1.2.1/bin/script.scala

我还没有使用hdfs，只是将数据集文件复制到每台机器上（当然路径名相同）。在像zachary club这样的小型网络或更大的~256MB网络（在增加驱动程序内存参数后）上，我能够计算三角形、楔块等。
现在尝试处理750+mb的网络，并出现错误。例如，我有两列格式的wikipedia链接数据集（link\ from link\ to），750mb。尝试加载：

val graph = GraphLoader.edgeListFile(sc, "graphx/data/dbpidia")

并得到一个错误：

[Stage 0:==============================================>     (22 + 1) / 23]
15/04/30 22:52:46 WARN TaskSetManager: Lost task 22.0 in stage 0.0 (TID 22, host-192-168-0-18.openstacklocal): java.lang.ArrayIndexOutOfBoundsException: 1
at org.apache.spark.graphx.GraphLoader$$anonfun$1$$anonfun$apply$1.apply(GraphLoader.scala:83)
at org.apache.spark.graphx.GraphLoader$$anonfun$1$$anonfun$apply$1.apply(GraphLoader.scala:76)
at scala.collection.Iterator$class.foreach(Iterator.scala:727)
at scala.collection.AbstractIterator.foreach(Iterator.scala:1157)
at org.apache.spark.graphx.GraphLoader$$anonfun$1.apply(GraphLoader.scala:76)
at org.apache.spark.graphx.GraphLoader$$anonfun$1.apply(GraphLoader.scala:74)
at org.apache.spark.rdd.RDD$$anonfun$15.apply(RDD.scala:631)
at org.apache.spark.rdd.RDD$$anonfun$15.apply(RDD.scala:631)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:280)
at org.apache.spark.CacheManager.getOrCompute(CacheManager.scala:61)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:245)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:61)
at org.apache.spark.scheduler.Task.run(Task.scala:56)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:200)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)
15/04/30 22:52:47 WARN TaskSetManager: Lost task 22.2 in stage 0.0 (TID 24, host-192-168-0-18.openstacklocal): java.lang.ArrayIndexOutOfBoundsException

实际上，我需要处理大小>>1tb的数据集，但即使在较小的数据集上也会出现错误。我做错什么了？内存限制是什么？对于>>1tb的文件，您可以提出什么策略，如何更好地存储它们？谢谢。

Java hadoop scala apache-spark spark-graphx

来源：https://stackoverflow.com/questions/30028626/apache-spark-graphx-java-lang-arrayindexoutofboundsexception