Power BI处理16GB CSV文件

zazmityj  于 12个月前  发布在  其他
关注(0)|答案(1)|浏览(105)

我有一个16 GB的CSV,我已经导入到Power BI桌面。我使用的工作站是运行Windows Server 2016(64 GB内存)的Azure VM。文件的导入需要几秒钟的时间,但是,当我试图在查询编辑器中将数据集过滤到特定的日期范围时,它需要相当长的时间(它仍在运行,到目前为止已经大约30分钟)。正在从VM上创建的RAM磁盘读取源文件(16 GB CSV)。
在处理这种规模的数据集时,最佳方法/实践是什么?在SQL Server中导入CSV,然后在将数据集过滤到某个日期范围时使用直接查询,是否会获得更好的性能?我本来以为它会运行得相当快,与我目前的设置,因为我有64 GB的内存上可用的虚拟机。

ykejflvf

ykejflvf1#

当数据量很大时,您还需要适当的计算能力来处理它。当您在Power BI中导入这些行时,Power BI本身需要这种计算能力。如果在SQL Server(或Analysis Services或其他)中导入数据,并使用直接查询或实时连接,则可以将计算委托给数据库引擎。使用Live Connection,所有建模都在数据库引擎上完成,而在Direct Query中,建模也在Power BI中完成,您可以添加计算列和度量。因此,如果你使用直接查询,你仍然必须小心在哪里计算什么。
你要求“最好的”,这总是有点含糊。你必须根据许多其他因素自己决定。Power BI本身就是Analysis Services(当您运行Power BI Desktop时,您可以看到Microsoft SQL Server Analysis Services子进程正在运行),因此在Power BI中导入数据应该可以为您提供与在SSAS中导入数据类似的性能。在这种情况下,要提高性能,需要调优模型。如果在SQL Server中导入数据,则需要调优数据库(正确的索引和建模)。
因此,要做出最终决定,您必须测试这些解决方案,考虑定价和硬件要求,并根据这些决定最适合您的情况。
最近,微软做了一个demo with 1 trillion行的数据。你也许想看看。我还建议您看看aggregations,它可以帮助您提高模型的性能。

相关问题