我正在s3中爬行csv数据源。问题是这些csv文件没有标题,而glue crawler正在为每个文件创建一个表(创建数千个文件)。怎么处理?
gc0ot86w1#
解决方案是使用自定义分类器:https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.htmlhttps://docs.aws.amazon.com/glue/latest/dg/add-classifier.html对于csv文件的分类器类型,字段列标题具有选项no headings,允许通知爬虫csv文件没有标题
1条答案
按热度按时间gc0ot86w1#
解决方案是使用自定义分类器:
https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.html
https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html
对于csv文件的分类器类型,字段列标题具有选项no headings,允许通知爬虫csv文件没有标题