我刚接触spark和neo4j,需要帮助设置它们。
我的目标是在spark中读取hdfs文件,并在neo4j中放置/表示它。有人能帮我在spark和neo4j之间创建一个连接器,但neo4j是一个容器吗?我有点迷失在我在互联网上找到的一切,我没有得到结果在我的容器。
我试着跟踪这个链接https://github.com/neo4j-contrib/neo4j-spark-connector. 但例如,我找不到pom.xml文件来更改它。我必须创建一个新的,把它放在neo4j上吗?
对于这种连接,Spark必须在neo4j容器内?或者它能在集群中,容器外,它们能相互识别吗?
任何帮助都是好的!谢谢您!
1条答案
按热度按时间js4nwp541#
您只需要按照自述文件中的描述使用它
spark-shell
或者spark-submit
与--packages neo4j-contrib:neo4j-spark-connector:2.4.5-M1
参数-它将拉必要的jar和使连接器可用。spark可能(也应该)在neo4j容器外运行,您需要通过
--conf spark.neo4j.url=Neo4j_URL
指定neo4j的连接端点,必要时通过提供用户名和密码--conf spark.neo4j.user=username
以及--conf spark.neo4j.password=password
(尽管您也可以在neo4jurl中指定它们。。。