Power BI处理16GB CSV文件

zazmityj 于 12个月前发布在其他

关注(0)|答案(1)|浏览(105)

我有一个16 GB的CSV，我已经导入到Power BI桌面。我使用的工作站是运行Windows Server 2016（64 GB内存）的Azure VM。文件的导入需要几秒钟的时间，但是，当我试图在查询编辑器中将数据集过滤到特定的日期范围时，它需要相当长的时间（它仍在运行，到目前为止已经大约30分钟）。正在从VM上创建的RAM磁盘读取源文件（16 GB CSV）。
在处理这种规模的数据集时，最佳方法/实践是什么？在SQL Server中导入CSV，然后在将数据集过滤到某个日期范围时使用直接查询，是否会获得更好的性能？我本来以为它会运行得相当快，与我目前的设置，因为我有64 GB的内存上可用的虚拟机。

csv

来源：https://stackoverflow.com/questions/54191536/power-bi-dealing-with-16gb-csv-file

1条答案

按热度按时间

ykejflvf1#

当数据量很大时，您还需要适当的计算能力来处理它。当您在Power BI中导入这些行时，Power BI本身需要这种计算能力。如果在SQL Server（或Analysis Services或其他）中导入数据，并使用直接查询或实时连接，则可以将计算委托给数据库引擎。使用Live Connection，所有建模都在数据库引擎上完成，而在Direct Query中，建模也在Power BI中完成，您可以添加计算列和度量。因此，如果你使用直接查询，你仍然必须小心在哪里计算什么。
你要求“最好的”，这总是有点含糊。你必须根据许多其他因素自己决定。Power BI本身就是Analysis Services（当您运行Power BI Desktop时，您可以看到Microsoft SQL Server Analysis Services子进程正在运行），因此在Power BI中导入数据应该可以为您提供与在SSAS中导入数据类似的性能。在这种情况下，要提高性能，需要调优模型。如果在SQL Server中导入数据，则需要调优数据库（正确的索引和建模）。
因此，要做出最终决定，您必须测试这些解决方案，考虑定价和硬件要求，并根据这些决定最适合您的情况。
最近，微软做了一个demo with 1 trillion行的数据。你也许想看看。我还建议您看看aggregations，它可以帮助您提高模型的性能。

赞(0）回复(0）举报 12个月前

我来回答

Power BI处理16GB CSV文件

1条答案

相关问题

热门标签

最新问答