我有一个mssqldb,它至少有39gb的指纹数据,现在需要找出其中的重复项,每个指纹记录都有一个最小的结构(这里简化了),如下所示
[emp id][指纹图像][指纹模板(iso)]
我使用的是一个基于ratha的iso模板算法的c#程序和算法(1对1比较)。该算法是可行的,能够检测到重复项,但问题是1对1比较所需的时间成本是o(n2),有谁能帮我提供一些关于减少指纹匹配算法的时间开销的想法吗。
我读过关于“mssqlssis”的文章,但是对于etl,我必须在这里应用不能用“mssqlssis”完成的算法
现在,示例基准如下(近似值)
SampleSpace Compared Time
1. 100 100 ~ 53 sec
2. 500 500 ~ 3.50 min
3. 1233 1233 ~1 hr 48 min
我找到了分类特征提取的其他方法,但是如何基于iso模板进行分类呢。谁能给个建议吗?
我认为hadoop是一个想法,但是任何人都会遇到指纹匹配与hadoop的集成
暂无答案!
目前还没有任何答案,快来回答吧!