我尝试使用Polars库扫描多个CSV文件,并从每个文件中选择一组列。但是,某些CSV文件缺少我想要选择的某些列。有没有办法处理这种情况,用None值或其他默认值填充缺少的列?
queries = pl.LazyFrame()
for file in glob.glob("*.csv"):
q = pl.scan_csv(file, ignore_errors=True ).select(
['Date','ID', 'colA','Column A','columnA'])
queries=pl.concat([queries, q], how="diagonal")
dataframes = pl.collect_all(queries)
字符串
1条答案
按热度按时间mhd8tkvw1#
您可以将
.select()
移动到collect之前的最后一个操作:个字符
至于添加缺失的列,我不确定除了“手动”确定差异之外是否还有其他方法:
dict.fromkeys()
构建名称和“null”以添加为缺失列:型
dtypes
将有所不同,在这种情况下,您可以使用vertical_relaxed
策略。