我有一个excel文件(可以是csv、xsls、xslb中的任何类型),可以非常大(可能是500 mb)。我只想从文件中获取列名。现在我尝试使用pandas并只获取列名,但在内部,它似乎读取或加载整个文件,这需要大约1分钟。我不想加载整个文件在内存中,只是想读取列名。什么是最好的方法,我可以使用,以避免pandas读取整个文件,并读取和加载只有列名.有没有一种方法,我可以读取列名只有不加载或阅读整个文件作为pandas默认情况下似乎内部读取/加载整个文件.例如,我使用下面的代码读取xlsb文件,但它仍然需要大量的时间(获取大小为17.9MB的文件的列名大约需要1.5分钟)
filePath = "/Users/aj/testing/File_1.xlsb"
cols=pd.read_excel(filePath, engine='pyxlsb', index_col=0, nrows=0).columns.tolist()
这似乎加载整个文件,因为我看到阅读文件和读取只是列名需要相同的时间
1条答案
按热度按时间jq6vz3qz1#
你有没有试过使用pandas read_excel方法,然后定义nrows只包含前几行?这不会加快速度吗?