sql server—c#指纹1对1比较(39 gb数据)减少了时间成本

bxpogfeg  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(289)

我有一个mssqldb,它至少有39gb的指纹数据,现在需要找出其中的重复项,每个指纹记录都有一个最小的结构(这里简化了),如下所示
[emp id][指纹图像][指纹模板(iso)]
我使用的是一个基于ratha的iso模板算法的c#程序和算法(1对1比较)。该算法是可行的,能够检测到重复项,但问题是1对1比较所需的时间成本是o(n2),有谁能帮我提供一些关于减少指纹匹配算法的时间开销的想法吗。
我读过关于“mssqlssis”的文章,但是对于etl,我必须在这里应用不能用“mssqlssis”完成的算法
现在,示例基准如下(近似值)

SampleSpace  Compared    Time
 1. 100            100      ~ 53 sec 
 2. 500            500      ~ 3.50 min
 3. 1233           1233     ~1 hr 48 min

我找到了分类特征提取的其他方法,但是如何基于iso模板进行分类呢。谁能给个建议吗?
我认为hadoop是一个想法,但是任何人都会遇到指纹匹配与hadoop的集成

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题