regex 关于NLP混合一些数值和分类特征的最佳工作方式的建议

z5btuh9x  于 2023-05-30  发布在  其他
关注(0)|答案(1)|浏览(102)

我正在使用一个不同国家的医药产品数据集,每个国家都有自己的数据源。这导致数据并不总是非常“标准化”(因为缺乏更好的词),所以我试图解决的问题之一是在所有国家都采用相同的格式。我一直在使用regex为每个国家“手动”做这件事,同时考虑到我想在模型中使用的一些标准。例如:产品的活性物质数量剂型以及产品中是否存在某些特定活性物质。通过对大约1/3的国家进行“手动”操作,我得到了合理数量的记录来训练模型。

Name   ActiveSubstances   NumberOfActSubst   PharmaceuticalForm   Dosage        DosageFinal

X      ['Y','Z']          2                  Tablet               '20mg/5mg'    '20 mg + 5 mg'

A      ['B']              1                  Tablet               '(50 microg+10mg)/ml''50 µg/ml + 10mg/ml'

我希望自动填写此DosageFinal字段。完成这项任务的最佳方式是什么?**我研究了并行网络,想法是使用一个NN来获取文本变量的嵌入,另一个NN收集唯一数字特征的嵌入,然后连接嵌入。

jljoyd4f

jljoyd4f1#

你可以使用嵌入来理解文本的语义。
对于您的情况,我建议将其视为翻译任务或简单的文本生成。

生成

使用任何解码器生成正确格式的文本。
在提示符中使用Few-Show学习,它将已经理解模式。
做一个快速测试;进入任何免费的AI聊天平台(例如HFchat、ChatGPt等),用几个例子指导它,你就会得到正确的答案。
如果您正确地构建了提示,您将获得SOTA答案。
帮助模型的一些想法是:独立地改变每个国家,或者每种药物。
如果你能给予它一个足够好的提示(几个镜头)-它会做得很好。

翻译

如果你有足够的数据样本来训练LM -尝试使用BART,T5等。
你也许可以创建一个模型来为你生成这些文本。
祝你好运

相关问题