从CSV文件中激发DF，列值中的分隔符由引号字符包围

mlnl4t2r 于 2023-09-27 发布在其他

关注(0)|答案(2)|浏览(108)

我在S3存储桶中有一个CSV文件（^分隔）。CSV文件看起来像这样：

id^"name"^"address" 
   1^"sam"^"TN" 
   2^"giri"^"Dummy"^"Value"

预期O/P：

id | name | address
1  | sam  | TN
2  | giri | Dummy"^"Value

但是Dummy”^“Value-这个值被分成两个不同的列。我已经尝试了所有的CSV选项，但没有任何工作。我无法控制源数据。
代码：

df = spark.read.option("header",True)\
.option("delimiter",'^') \
.option("quote", "\"")   \
.option("escape", "\"")  \
.csv(<filepath>)

请分享如果周围有任何工作。谢谢.

csv

来源：https://stackoverflow.com/questions/77105539/spark-df-from-csv-file-with-separator-surrounded-by-quotes-character-in-column-v

2条答案

按热度按时间

b4qexyjb1#

from pyspark.sql import SparkSession
from pyspark.sql.functions import regexp_replace

# Create a Spark session
spark = SparkSession.builder.appName("CSV_Read").getOrCreate()

# Read the CSV file
df = spark.read.option("header", True) \
    .option("delimiter", "^") \
    .option("quote", "\"") \
    .option("escape", "\"") \
    .csv("s3://your-bucket/your-file.csv")

# Replace the delimiter within quotes with a custom separator (e.g., '|')
df = df.withColumn("address", regexp_replace("address", '\\^', '|'))

# Show the DataFrame
df.show(truncate=False)

我首先使用您提供的相同选项读取CSV文件。阅读文件后，我使用regexp_replace函数将双引号内的^字符替换为自定义分隔符（例如，|）.
输出应为：

+---+----+----------+
|id |name|address   |
+---+----+----------+
|1  |sam |TN        |
|2  |giri|Dummy^Value|
+---+----+----------+

赞(0）回复(0）举报 2023-09-27

brgchamk2#

可以使用文本读取数据，然后进行转换
这就是Scala代码

ss.read
      .text(path)
      .createTempView("tb_tmp")

    ss.sql(
      """
        |with tb_base as (
        |select split(replace(value, '"'), '\\^') as list
        |from tb_tmp
        |where value not like 'id%'
        |)
        |select list[0] as id
        |, list[1] as name
        |, array_join(slice(list, 3, size(list) - 1), '\^') as address
        |from tb_base
        |where size(list) >= 3
        |""".stripMargin)
    .show()

你可以得到

+---+----+-----------+
| id|name|    address|
+---+----+-----------+
|  1| sam|        TN |
|  2|giri|Dummy^Value|
+---+----+-----------+

赞(0）回复(0）举报 2023-09-27

我来回答

从CSV文件中激发DF，列值中的分隔符由引号字符包围

2条答案

相关问题

热门标签

最新问答