我有一些数据存储在TSV中。我看到DocArray提供了from_csv()方法来导入它,但我找不到任何关于它的好文档。是否有参数将分隔符从逗号更改为制表符?我在文档中找到的唯一一件事是:docarray.document.generators.from_csv
from_csv()
xqkwcwgp1#
你找到的文档提到了一个参数dialect:定义一组特定于特定CSV方言的参数。可以是表示系统中预定义方言的字符串,也可以是将特定格式参数组合在一起的csv.Dialect类。如果你不知道方言和默认的一个不为你工作,你可以尝试将其设置为自动。实际上,值auto可以成功推断tsv文件类型和delimeter,您只需要做:
dialect
auto
# run this command to download a sample file # wget https://gist.githubusercontent.com/alaeddine-13/76b4aa7805a347cf2cdf12db78e0a81c/raw/a7df1a867e8cf80b4c226f72f219d0b6f2cea8a2/sample.tsv da = DocumentArray.from_csv('sample.tsv', dialect='auto')
如果您需要一个特定的方言,您可以提供一个Dialect类,或者在Python的方言列表中提供一个方言名称。
1条答案
按热度按时间xqkwcwgp1#
你找到的文档提到了一个参数
dialect
:定义一组特定于特定CSV方言的参数。可以是表示系统中预定义方言的字符串,也可以是将特定格式参数组合在一起的csv.Dialect类。如果你不知道方言和默认的一个不为你工作,你可以尝试将其设置为自动。
实际上,值
auto
可以成功推断tsv文件类型和delimeter,您只需要做:如果您需要一个特定的方言,您可以提供一个Dialect类,或者在Python的方言列表中提供一个方言名称。