ArangoDB Bash XSV使用CSV列自动填充空值

des4xlb0  于 2022-12-09  发布在  Go
关注(0)|答案(1)|浏览(133)

我有一个CSV导出,我需要Map到新值,以便导入到不同的系统。我正在使用ArangoDB创建此数据迁移Map。
下面是使用的完整脚本:

#!/bin/bash

execute () {
    filepath=$1
    prefix=$2
    keyField=$3
    filename=`basename "${filename%.csv}"`
    collection="$prefix$filename"
    filepath="/data-migration/$filepath"

    # Check for "_key" column
    if ! xsv headers "$1" | grep -q _key
    # Add "_key" column using the keyfield provided
    then
        xsv select $keyField "$1" | sed -e "1s/$keyField/_key/" > "$1._key"
        xsv cat columns "$1" "$1._key" > "$1.cat"
        mv "$1.cat" "$1"
        rm "$1._key"
    fi

    # Import CSV into Arango Collection
    docker exec arango arangoimp --collection "$collection" --type csv "$filepath" --server.password ''
}

# This single line runs the execute() above
execute 'myDirectory/myFile.csv' prefix_ OLD_ORG_ID__C

到目前为止,我已经推导出了传递给execute()函数的$keyFieldOLD_ORG_ID__C 参数,它在脚本循环中使用。它查找$keyField列,然后使用XSV toolkit将值迁移到新创建的_key列。

OLD_ORG_ID__C | _key
  A123        ->  A123
  B123        ->  B123
              ->  ##    <-auto populate

不幸的是,并非每一行都有OLD_ORG_ID__C列的值,因此该行的_key也为空,这将导致导入到Arango失败。

***注意:****此_key字段是AQL脚本正常工作所必需得 *

如何重写循环以自动索引空白值?

then
    xsv select $keyField "$1" | sed -e "1s/$keyField/_key/" > "$1._key"
    xsv cat columns "$1" "$1._key" > "$1.cat"
    mv "$1.cat" "$1"
    rm "$1._key"
fi

有没有更好的方法来解决这个问题?也许xsv sortkeyField,然后自动填充从空白行到结尾?

**更新:**根据评论/回答,我尝试了一些沿着的方法,但到目前为止仍然不起作用

#!/bin/bash

execute () {
    filepath=$1
    prefix=$2
    keyField=$3
    filename=`basename "${filename%.csv}"`
    collection="$prefix$filename"
    filepath="/data-migration/$filepath"

    # Check for "_key" column
    if ! xsv headers "$1" | grep -q _key
    # Add "_key" column using the keyfield provided
    then

        awk -F, 'NR==1 { for(i=1; i<=NF;++i) if ($i == "'$keyField'") field=i; print; next }
    $field == "" { $field = "_generated_" ++n }1' $1 > $1-test.csv

    fi

}
# import a single collection if needed
execute 'agas/Account.csv' agas_ OLD_ORG_ID__C

这将创建一个Account-test.csv文件,但不幸的是,它没有“_key”列或对OLD_ORG_ID__C值的更改。最好是,我只希望在OLD_ORG_ID__C为空时看到用自动编号值填充的“_key”值,否则它们应该复制提供的值。

cunj1qz1

cunj1qz11#

如果您的问题是“如何从CSV文件的第一个标题行中找到名为OLD_ORG_ID__C的字段,然后在后续行中,如果此列为空,则在此列中输入唯一值”,请尝试类似以下内容

awk -F, 'NR==1 { for(i=1; i<=NF;++i) if ($i == "OLD_ORG_ID__C") field=i ; print; next }
    $field == "" { $field = "_generated_" ++n }1' file >newfile

它没有处理复杂性的规定,比如带引号的字段和嵌入的逗号。(我不知道xsv是什么,但也许它会更好地适应这样的场景?)
如果我能猜出这段代码的作用

xsv select $keyField "$1" |
sed -e "1s/$keyField/_key/" > "$1._key"

那么你可以用类似于

xsv select "$keyField" "$1" |
awk -v field="$keyField" 'NR==1 { $0 = field }
    /^$/ { $0 = NR } 1' >"$1._key"

$keyField的值取代第一行,并以其行号取代任何后续的空行。

相关问题