regex 关于NLP混合一些数值和分类特征的最佳工作方式的建议

z5btuh9x 于 2023-05-30 发布在其他

关注(0)|答案(1)|浏览(102)

我正在使用一个不同国家的医药产品数据集，每个国家都有自己的数据源。这导致数据并不总是非常“标准化”（因为缺乏更好的词），所以我试图解决的问题之一是在所有国家都采用相同的格式。我一直在使用regex为每个国家“手动”做这件事，同时考虑到我想在模型中使用的一些标准。例如：产品的活性物质数量、剂型以及产品中是否存在某些特定活性物质。通过对大约1/3的国家进行“手动”操作，我得到了合理数量的记录来训练模型。

Name   ActiveSubstances   NumberOfActSubst   PharmaceuticalForm   Dosage        DosageFinal

X      ['Y','Z']          2                  Tablet               '20mg/5mg'    '20 mg + 5 mg'

A      ['B']              1                  Tablet               '(50 microg+10mg)/ml''50 µg/ml + 10mg/ml'

我希望自动填写此DosageFinal字段。完成这项任务的最佳方式是什么？**我研究了并行网络，想法是使用一个NN来获取文本变量的嵌入，另一个NN收集唯一数字特征的嵌入，然后连接嵌入。

regex

来源：https://stackoverflow.com/questions/76307031/sugestions-on-the-best-way-to-work-with-nlp-mixed-some-numerical-and-categorical

1条答案

按热度按时间

jljoyd4f1#

你可以使用嵌入来理解文本的语义。
对于您的情况，我建议将其视为翻译任务或简单的文本生成。

生成

使用任何解码器生成正确格式的文本。
在提示符中使用Few-Show学习，它将已经理解模式。
做一个快速测试;进入任何免费的AI聊天平台（例如HFchat、ChatGPt等），用几个例子指导它，你就会得到正确的答案。
如果您正确地构建了提示，您将获得SOTA答案。
帮助模型的一些想法是：独立地改变每个国家，或者每种药物。
如果你能给予它一个足够好的提示（几个镜头）-它会做得很好。

翻译

如果你有足够的数据样本来训练LM -尝试使用BART，T5等。
你也许可以创建一个模型来为你生成这些文本。
祝你好运

赞(0）回复(0）举报 2023-05-30

我来回答

regex 关于NLP混合一些数值和分类特征的最佳工作方式的建议

1条答案

生成

翻译

相关问题

热门标签

最新问答