argilla Improve label organization and interaction in Token Classification

db2dz4w8  于 5个月前  发布在  其他
关注(0)|答案(5)|浏览(48)

描述

创建一个新的UI模式,有助于注解会话。
此模式必须包含所有定义的任务,并应尽可能简单地保持用户交互,并以注解为重点。

来自问题 #1851

描述错误

当标签数量超过10个时,热链接按钮停止工作。

重现方法

转到token / text-classification并分配>10个标签选项。

预期行为

我希望它们能够在功能键或初始的qwerty键上继续。

截图

xriantvc

xriantvc1#

我想补充一些想法:

  • 获得更多颜色变化会更好。我知道选择足够鲜明的颜色很难,但仍然很重要。
  • 允许自定义键(和颜色)分配。也许可以这样:
rg.log(..., tags={"ORG":"organization","LOC":"location",...} ,config={"shortcuts":{"ORG":"1","LOC":"a",...}})
  • 让顶部栏的标签可点击(这样你可以使用下拉列表或顶部栏来选择标签)(不确定这个功能有多有用)
  • 一个稍微复杂一点的建议:分层组织标签。有时候标签可以按照逻辑分组。

举个例子,比如:

可以像这样分组(原谅画图编辑):

然后对于键盘快捷键,你需要先按住父标签键,然后按子标签。
例如:[1][3] 是食物,[2][5] 是组织

6l7fqoea

6l7fqoea2#

dvsrepo,您认为在v1.26.0中包含的SpanQuestion中是否已正确处理此问题?

lkaoscv7

lkaoscv73#

SpanQuestion 看起来不错🥳。这周我会尝试迁移旧的TokenClassification数据集。

5n0oy7gb

5n0oy7gb4#

这是我对新 SpanQuestion 的第一印象和反馈。
我已将旧的 TokenClassification 数据集迁移到一个反馈数据集中:
@nataliaElv

  • 仅使用数字快捷键更容易出错,字母数字更好。因此,与其使用键盘快捷键(如 qwerty...),不如使用字母(qwerty...),因为快速输入时容易出错。例如:你想输入 14,但由于当时速度较慢,不小心输入了 4。

@dvsrepo 关于 SpanQuestion(与旧数据集相比,以及更好的未来)的更多一般反馈如下:

视觉:

  • 它有点像旧界面看起来更好。主要问题是大多数时候标签不适合(尤其是对于非英文字符级别的注解,其密度更高)。例如:

  • 如果字体大小更大可以适应标签,我会不介意。这也会使文本选择更容易。
  • 另外,为了提高可读性,只需在文本和标签之间增加一点边距空间就更好了(从 css 中调整)(也许甚至可以使尺寸配置变得可配置?我知道这不容易说😶‍🌫️)
  • 以透明度值表示分数可能是个好主意?我真的不觉得小星星表情符号占用更多的屏幕空间有什么意义。话虽如此,我喜欢旧数据集 UI 顶部预测下方的注解样式,因为它清楚地表明了差异。特别是当你修复模型时。

  • 在结果中搜索的关键字不再用红色标记(我知道这听起来很挑剔,但实际上当你查看一段文字时,这会有很大的不同)。
    功能:
  • 我希望在未来版本的批量视图中可以使用 Span 注解(🥺 🙏)。因为我经常用它来一次性查看所有注解。(通常与搜索结合使用)例如,我知道某个单词/短语被错误标记了,我会进行搜索并快速检查/更正。如果可以在搜索、选择和应用标签后将相同的精确搜索应用于批量选择中的其他记录,那就太好了(至少优先考虑批量视图🤞 )。

缺乏批量功能(如旧数据集)确实阻碍了其他功能的实用性,如相似性搜索。

  • [低优先级] 如果一个词有一个标签(例如 "FRUITS"),那么我只选择 S 并为其分配一个新的标签,它不应该从剩余的词 "FRUIT" 中删除现有标签。

将来我的希望是将多个任务(跨度和文本分类等)合并到反馈数据集中的一个记录中。我还没有花太多时间玩弄实际注解部分,所以可能很快就会有更多的反馈🙈

a64a0gku

a64a0gku5#

感谢@cceyda提供的详细反馈!我们会对此进行记录😃 cc @Amelie-V

相关问题