spaCy 如何更改代码中hf管道的alignment_mode?

luaexgnf 于 5个月前发布在其他

关注(0)|答案(1)|浏览(48)

要将spaCy管道的一部分替换为HF模型，您可以按照以下步骤操作：

首先，确保您已经安装了transformers库。如果没有，请使用以下命令安装：

pip install transformers

然后，加载预训练的模型和分词器。在这个例子中，我们使用en_core_web_sm模型：

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("en_core_web_sm")
model = AutoModelForTokenClassification.from_pretrained("en_core_web_sm")

接下来，您需要创建一个自定义的NER管道，该管道将使用您的HF模型进行命名实体识别。为此，您需要定义一个函数，该函数将接收文本输入并返回命名实体的标记列表。然后，您可以使用这个函数创建一个新的管道类，该类继承自PreTrainedNERPipe。

from transformers import PreTrainedNERPipe
import torch

class CustomNERPipe(PreTrainedNERPipe):
    def __init__(self, model, tokenizer):
        super().__init__()
        self.model = model
        self.tokenizer = tokenizer

    def _get_entities(self, document):
        # 在这里实现您的逻辑，以使用HF模型处理文档并返回命名实体的标记列表
        pass

现在，您可以使用这个自定义管道来处理您的文本数据。例如：

text = "Your text here"
entities = CustomNERPipe(model=model, tokenizer=tokenizer).entities(text)

最后，为了避免在配置文件中进行训练，您可以直接在代码中示例化自定义管道。这样，您就不需要创建新的spaCy管道了。

spacy

来源：https://github.com/explosion/spaCy/issues/13548

1条答案

按热度按时间

hk8txs481#

我认为这个问题源于Hugging Face模型生成的tokens可能与spaCy模型生成的tokens不完全对齐。这种不对齐可能导致关于重叠注解或无法对齐的注解的警告。
请尝试使用以下示例代码片段，它会调整Hugging Face模型返回的spans,使其更准确地匹配spaCy模型的token边界。

import spacy
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
from spacy.tokens import Span

# Load spaCy model
nlp = spacy.load("en_core_web_sm")

# Remove default NER pipeline component
nlp.remove_pipe("ner")

# Load Hugging Face model and tokenizer
model_name = "mikrz/bert-vir_naeus-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
hf_pipeline = pipeline("ner", model=model, tokenizer=tokenizer)

# Custom pipeline component for Hugging Face NER
def hf_ner_component(doc):
    # Tokenize using spaCy to ensure alignment
    tokens = [token.text for token in doc]
    text = " ".join(tokens)
    
    # Use Hugging Face pipeline for NER
    hf_ner_results = hf_pipeline(text)
    
    # Convert Hugging Face NER results to spaCy entities
    entities = []
    for ent in hf_ner_results:
        start = ent['start']
        end = ent['end']
        label = ent['entity']
        span = doc.char_span(start, end, label=label, alignment_mode='contract')
        if span:
            entities.append(span)
    
    # Assign entities to the doc
    doc.ents = entities
    return doc

# Add custom component to spaCy pipeline
nlp.add_pipe(hf_ner_component, last=True)

# Example usage
text = 'A novel bacteriophage vB_SauS_SA2 (hereafter designated SA2) that infects Staphylococcus aureus was isolated.'
doc = nlp(text)

# Print named entities detected by the new NER component
for ent in doc.ents:
    print(ent.text, ent.label_)

如果上述代码有效，请告诉我，谢谢！

赞(0）回复(0）举报 5个月前

我来回答

spaCy 如何更改代码中hf管道的alignment_mode?

1条答案

相关问题

热门标签

最新问答