假设我们有一个pandas dataframe:
import pandas as pd
data = pd.DataFrame({'columnNM': ['Jerry', 'Bob', 'Phil', 'Bill', 'Mickey', 'Pigpen', 'Robert'],
'columnNM2': ['John', 'Tom', 'Donna', 'Keith', 'Brent', 'Vince', 'Bruce']})
同样,假设我们有一个打开的文件,我们正在写入,它打开的文件使用:
file = open('myPathExample', 'w')
我想执行比较操作,控制数据流并写回该文件。一个简单的例子是:
for row in data.itertuples():
file.write('%s was friends with %s \n' %(row.columnNM, row.columnNM2))
现在,我是python的初学者,我已经阅读了所有关于在pandas dataframe中循环或迭代行的文章,特别是对于大型数据集。我没有足够的知识来理解为什么。
在这个例子中,有没有一个很好的向量化迭代替代方案?如果有,是什么?
1条答案
按热度按时间uxhixvfz1#
向量替代方案是构建一个字符串并向文件写入一次:
或者,如果你想保持循环: