简介
目前,记录注解/预测仅支持为一个标注代理存储标注信息。想法是支持多个代理,包括注解和预测。此更改将带来一些功能增强,如注解一致性流程、弱标签实现、多管道监控等。
如果我们将此功能与角色和数据集设置相结合,可以给予更多的注解/预测控制。通过定义一组标注器(甚至预期的预测器模式),我们可以限制能够标注数据集的代理数量。
设计关键点
所提出的设计保留了 prediction/annotation
字段,并添加了一个新的 predictions/annotations
字段,一个数据字典,其中键对应于标注代理,值包括客户端提供的注解信息。
predictions = { “agent-one” : { “labels”: [“A”], “score”: [“0.3”] } }
此新结构将启用搜索,提供一种基于特定标注器/预测器的微调搜索机制。我们可以复制所有计算字段的每个注解条目,因此我们可以执行诸如:annotations.agentA.annotated_as: FALSE
或 predictions.agent_b.predicted_as: TRUE
向后兼容性
新的数据模型必须处理当前记录概念,并提供一种向后兼容方法,使两种模式都可用。
当前字段,如 predicted
、 predicted_as
和 annotated_as
可能会改变行为,因为可以分配多个值。唯一应该保持旧行为的情况应该是只提供一个条目时。
受影响字段的完整列表:
predicted
: 仅在定义一个代理时计算。将在未来的版本中弃用和删除predicted_as
: 仅在定义一个代理时计算。将在未来的版本中弃用和删除annotated_as
: 仅在定义一个代理时计算。将在未来的版本中弃用和删除predicted_by
: 显示所有记录代理annotated_by
: 显示所有记录代理scores
: 仅在定义一个代理时计算(cc: @dvsrepo)。将在未来的版本中弃用和删除prediction
: 此字段将在未来的版本中弃用和删除annotation
: 此字段将用作“最终/真实注解”(注解一致性)。也许在未来的版本中有更好的命名。explanation
: (仅适用于文本分类)仅在定义一个代理时计算。将在未来的版本中弃用和删除。必须在预测级别定义解释。- 标记分类指标:已为注解和预测定义了一些指标。也许没有必要构建所有代理指标,但这些字段将完全受到新数据模型的影响。
参考文献
参见 recognai/rubrix-roadmap#59
2条答案
按热度按时间klh5stk11#
在关闭此问题之前,还有一些任务需要完成:
nkoocmlb2#
这是否也能解决标记分类的问题,即搜索一个'word'时,使用'annotated_as'返回的结果中,该'word'不是'selected tag',而是所有涉及该单词和标签(在另一个单词上)的结果?