python—自动将文档归档到正确文件夹的机器学习方法

b91juud3  于 2021-08-20  发布在  Java
关注(0)|答案(1)|浏览(328)

**已关闭。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想要改进此问题?**更新问题,使其位于堆栈溢出主题上。

昨天关门了。
改进这个问题
我想知道是否有人对以下场景的正确方法和合适算法有任何想法:
有数千个不同的文档,每个文档都有自己的分类编码。这些文件进入系统,需要用户手动归档到正确的文件夹中。例如
文档代码文件夹ABC123文件夹1DEF456文件夹2GHI789文件夹1
虽然我们可以创建文档代码到文件夹的Map,但对于许多代码来说,这可能非常麻烦,因为它们也可能会扩展。此外,每个客户可能希望将相同类型的文档归档到不同的文件夹。
有没有一种好的方法可以建立一个监督模型,从本质上了解某个特定文档在使用历史手动归档的权重下倾向于归档到哪个文件夹,然后决定将来为用户自动归档?
我理解,对于第一次需要手动归档的新文档类型,这种权重可能很难确定,因此在第一次归档时会有很大的偏差。但是可能比为文档内容构建一个忽略代码本身的分类器更容易。
如果有人能指出一些算法,我们将不胜感激!

s8vozzvw

s8vozzvw1#

我使用文档名创建了一个已在100多万个文档中使用的模型。简而言之,答案是肯定的,但是
我知道这很无聊,但是:除非你真的需要,否则不要使用机器学习。如果没有乐趣,维护生产模型的工作量可能会比您预期的多得多。此外,只要代码的数量很小,比如说少于1000个,我就很想创建Map。即使你想创建一个模型,从长远来看,有一个基于规则的解决方案来对其进行基准测试,对于获得利益相关者的信心是非常宝贵的。
如果你真的这样做了,学习这种类型Map的建模方法应该是一些基本算法所能达到的,比如决策树,或者它们更复杂的近亲,随机森林分类器和梯度提升机。对于任何算法、数据科学基础知识、了解客户的真实需求、彻底的eda和完善的实验设计,都将是决定您构建的内容最终是否有助于任何人的关键。
无论您采取何种方法,我建议您保持迭代思维,从简单开始,一点一点地评估并增加复杂性(例如为每个用户定制模型)。就像传统软件产品/项目一样。
看一看xgboost分类器,这是一个开始玩的好地方。https://xgboost.readthedocs.io/en/latest/python/python_api.html#xgboost.xgbclassifier
要了解更多关于设计依赖机器学习的产品的信息,我强烈推荐emmanuel ameisen的“构建机器学习驱动的应用程序:从想法到产品”。

相关问题