Pyspark代码使用多个连接向SQL Server或Oracle数据库中插入框架数据

c3frrgcw 于 2023-10-15 发布在 Spark

关注(0)|答案(1)|浏览(150)

我们有一个包含10亿条记录的数据库框架，我们希望先将它们插入到SQL Server中，然后再插入到Oracle中。
我们计划使用多个连接将数据插入到sql server中，这样数据插入会更快（并行），然后我们将对oracle做同样的事情。
如何使用多个连接来实现这一点？

pyspark

来源：https://stackoverflow.com/questions/76958238/pyspark-code-to-insert-dataframe-data-into-sql-server-or-oracle-database-using-m

1条答案

按热度按时间

6ovsh4lw1#

我会这样做：步骤1：对DataFrame进行分区

num_partitions = 10 
partitions = dataframe.randomSplit([1.0] * num_partitions)

第2步：为SQL Server和Oracle定义插入函数

from pyspark.sql import DataFrame

def insert_to_sql_server(df: DataFrame):
    jdbc_url = "jdbc:sqlserver://YOUR_SQL_SERVER_HOST:1433;databaseName=YOUR_DB_NAME;"
    properties = {
        "user": "YOUR_USERNAME",
        "password": "YOUR_PASSWORD",
        "driver": "com.microsoft.sqlserver.jdbc.SQLServerDriver"
    }
    df.write.jdbc(jdbc_url, "YOUR_TABLE_NAME", mode="append", properties=properties)

def insert_to_oracle(df: DataFrame):
    jdbc_url = "jdbc:oracle:thin:@YOUR_ORACLE_HOST:1521:YOUR_SID"
    properties = {
        "user": "YOUR_USERNAME",
        "password": "YOUR_PASSWORD",
        "driver": "oracle.jdbc.driver.OracleDriver"
    }
    df.write.jdbc(jdbc_url, "YOUR_TABLE_NAME", mode="append", properties=properties)

步骤3：使用ThreadPool并行插入

from concurrent.futures import ThreadPoolExecutor

with ThreadPoolExecutor(max_workers=num_partitions) as executor:
    futures = [executor.submit(insert_to_sql_server, partition) for partition in partitions]
    for future in futures:
        future.result()

with ThreadPoolExecutor(max_workers=num_partitions) as executor:
    futures = [executor.submit(insert_to_oracle, partition) for partition in partitions]
    # Ensure all futures are done
    for future in futures:
        future.result()

赞(0）回复(0）举报 2023-10-15

我来回答

Pyspark代码使用多个连接向SQL Server或Oracle数据库中插入框架数据

1条答案

相关问题

热门标签

最新问答