我正在使用一个包含纬度、经度和日期时间的数据集,每天有500万个点。我没有一个预期的集群数量,这取决于它应该改变的日期。
我在编码 Python
,带有 clickhouse database
存储源数据。
==>有没有办法 spatiotemporal clustering
包括3个功能?
到目前为止,我已经对这3个特性进行了缩放/规范化,并使用了minibatchkmeans(当前使用的解决方案),或者 Euclidian distance
,但我已经不知道点之间的物理距离了。 DBSCAN
或者 HDBSCAN
与 Havresine
只接受2个特征(以弧度表示的纬度)。
另外,卷排除了不可扩展的非优化解决方案(我在github上尝试了st dbscan,在仅运行2小时数据的15小时后停止了它)。
我希望我的数据点集群在位置和时间上重新组合最近的点。
暂无答案!
目前还没有任何答案,快来回答吧!