csv 如何使用DocArray导入TSV文件?

kiz8lqtg  于 2023-05-04  发布在  其他
关注(0)|答案(1)|浏览(141)

我有一些数据存储在TSV中。我看到DocArray提供了from_csv()方法来导入它,但我找不到任何关于它的好文档。是否有参数将分隔符从逗号更改为制表符?
我在文档中找到的唯一一件事是:docarray.document.generators.from_csv

xqkwcwgp

xqkwcwgp1#

你找到的文档提到了一个参数dialect
定义一组特定于特定CSV方言的参数。可以是表示系统中预定义方言的字符串,也可以是将特定格式参数组合在一起的csv.Dialect类。如果你不知道方言和默认的一个不为你工作,你可以尝试将其设置为自动。
实际上,值auto可以成功推断tsv文件类型和delimeter,您只需要做:

# run this command to download a sample file
# wget https://gist.githubusercontent.com/alaeddine-13/76b4aa7805a347cf2cdf12db78e0a81c/raw/a7df1a867e8cf80b4c226f72f219d0b6f2cea8a2/sample.tsv
da = DocumentArray.from_csv('sample.tsv', dialect='auto')

如果您需要一个特定的方言,您可以提供一个Dialect类,或者在Python的方言列表中提供一个方言名称。

相关问题