我试图从hbase获取如下数据:
key = pd.read_sql('select key from table',hive_engine)
table = connection.table('games_ut')
res = {}
n = 0
for key in table.key:
res[str(key)] = table.row(b'{key}'.format(key=key))
n += 1
if n % 100000 == 0:
print(str(n) + " has been read,need a sleep!")
sleep(0.5)
睡眠(0.5)意味着休息。正如您所看到的,代码运行良好,但速度太慢,给集群带来了很大压力,因为密钥长度超过4000万。
所以,我想知道是否有任何方法可以同时获得数据批量大小。。。。。我是新的和真正如何生成批量大小的数据,在同一时间通过循环。
1条答案
按热度按时间7ajki6be1#
经过我的努力……我知道怎么做。
只需使用行并传递一个列表作为键。。。