在大型数据集中搜索(停留在框中=>会议)

vfh0ocws  于 2021-06-04  发布在  Hadoop
关注(0)|答案(0)|浏览(203)

我正在研究老鼠的社会互动模型。我有鼠标和盒子和一个模拟输出鼠标停留在哪个盒子在哪个时间段。问题是如何在最后和从中获得两个在同一个盒子里的老鼠在一个重叠时期的相遇。
现在我有一个mysql数据库,模拟直接插入每个结果。然后另一个用scala编写的工具,只检索所有的stay结果,在几百个部分中,循环遍历它们,并为每个请求数据库哪个stay与它重叠,然后将每个stay插入数据库,如下所示:

`box`,`id1`, `res_id1`, `id2`, `res_id2`, `from`, `to`, `dt`, `typ`

这意味着id1和id2小鼠在“从”和“到”之间的时间间隔内位于“框”中,持续时间为“dt”,会议类型为“typ”。可能有四种类型的会议,具体取决于每个鼠标在框中的时间(例如,一个鼠标相对于另一个鼠标进出的时间)。”“res\u id1”和“res\u id2”告诉您使用了哪些stay结果来生成会议结果。
显然,这是非常低效的。有什么更好的方法吗?我并不局限于使用rdms,但我认为这将是最简单的,因为我正在阅读并进一步分析r中的数据。在文本文件中输出停留时间,然后使用hadoop以某种方式生成会议,这有意义吗?或者别的什么?
在大约四分之一的模拟试验中,我得到了大约150万个结果。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题