llama_index [Bug]: LlamaIndexInstrumentor在BaseEmbeddings.get_text_embedding_batch中无法正常工作,

9rnv2umw 于 3个月前发布在其他

关注(0)|答案(3)|浏览(45)

错误描述

我想为将数据加载到VectorStoreIndex中添加可观察性。遵循文档中的仪器化和使用Arize Phoenix进行可观察性的说明，只有生成的最后一个Embeddings批次被跟踪。当我查看属性选项卡时，所有块都显示在输入字段中。如何正确跟踪在创建索引期间创建的所有Embeddings?

版本

0.10.65

重现步骤

按照设置可观察性的说明进行操作：https://docs.arize.com/phoenix/tracing/integrations-tracing/llamaindex
使用SimpleDirectoryReader加载文档并从文档创建VectorStoreIndex。

3条答案

按热度按时间

aemubtdh1#

为了在使用Arize Phoenix进行可观察性时，正确跟踪使用LlamaIndexInstrumentor为BaseEmbeddings.get_text_embedding_batch创建的所有嵌入，请确保EmbeddingStartEvent和EmbeddingEndEvent被正确分派，并且回调管理器的事件得到妥善处理。以下是相关代码片段，展示了如何实现这一点：


# 确保在生成嵌入之前为每个文本批次分派`EmbeddingStartEvent`,并在生成嵌入之后分派`EmbeddingEndEvent`

# 回调管理器的事件也得到了妥善处理，以跟踪有效载荷[[1]](https://github.com/run-llama/llama_index/blob/main/llama-index-core/llama_index/core/base/embeddings/base.py)

要继续与Dosu交流，请提及@dosu。*

赞(0）回复(0）举报 3个月前

7gyucuyw2#

这并不能解决问题，它只是显示当前的实现，看起来似乎不起作用。

赞(0）回复(0）举报 3个月前

lymnna713#

要解决仅追踪最后一批生成的嵌入的问题，您应该确保 EmbeddingStartEvent 和 EmbeddingEndEvent 为每批正确分派，并且回调管理器已正确配置以处理这些事件。
以下是一些排查和可能解决此问题的方法：

验证调度器和回调管理器初始化:
确保 dispatcher 和 callback_manager 已正确初始化和配置。调度器应在模块级别设置，回调管理器应正确分配给 LLM 组件。
检查事件分派:
确认 EmbeddingStartEvent 和 EmbeddingEndEvent 每批都分派。提供的代码片段应处理此问题，但您可能需要添加日志以验证这些事件是否按预期分派。
确保正确的事件处理:
确保回调管理器正确处理事件。对于每个事件，应调用 on_event_start 和 on_event_end 方法，并正确记录有效载荷。
以下是带有额外日志的代码片段增强版本，以帮助调试问题：

@dispatcher.span
def get_text_embedding_batch(
    self,
    texts: List[str],
    show_progress: bool = False,
    **kwargs: Any,
) -> List[Embedding]:
    """Get a list of text embeddings, with batching."""
    cur_batch: List[str] = []
    result_embeddings: List[Embedding] = []

    queue_with_progress = enumerate(
        get_tqdm_iterable(texts, show_progress, "Generating embeddings")
    )
    model_dict = self.to_dict()
    model_dict.pop("api_key", None)
    for idx, text in queue_with_progress:
        cur_batch.append(text)
        if idx == len(texts) - 1 or len(cur_batch) == self.embed_batch_size:
            # flush
            print(f"Dispatching EmbeddingStartEvent for batch {cur_batch}")
            dispatcher.event(
                EmbeddingStartEvent(
                    model_dict=model_dict,
                )
            )
            with self.callback_manager.event(
                CBEventType.EMBEDDING,
                payload={EventPayload.SERIALIZED: self.to_dict()},
            ) as event:
                embeddings = self._get_text_embeddings(cur_batch)
                result_embeddings.extend(embeddings)
                event.on_end(
                    payload={
                        EventPayload.CHUNKS: cur_batch,
                        EventPayload.EMBEDDINGS: embeddings,
                    },
                )
            print(f"Dispatching EmbeddingEndEvent for batch {cur_batch}")
            dispatcher.event(
                EmbeddingEndEvent(
                    chunks=cur_batch,
                    embeddings=embeddings,
                )
            )
            cur_batch = []

    return result_embeddings

此代码在 EmbeddingStartEvent 和 EmbeddingEndEvent 分派时添加了 print 语句。这可以帮助您验证事件是否为每批分派。
此外，请确保与 Arize Phoenix 的集成已正确设置，并且事件正在捕获并发送到 Phoenix 服务器。如果问题仍然存在，您可能需要审查与 Arize Phoenix 的集成，以确保其正确配置以处理来自 LlamaIndex 1(https://github.com/run-llama/llama_index/blob/main/llama-index-core/llama_index/core/base/embeddings/base.py)2(https://github.com/run-llama/llama_index/blob/main/llama-index-core/llama_index/core/instrumentation/dispatcher.py) 的事件。

要继续与 Dosu 交谈，请提及 @dosu。*

赞(0）回复(0）举报 3个月前

我来回答

llama_index [Bug]: LlamaIndexInstrumentor在BaseEmbeddings.get_text_embedding_batch中无法正常工作,

错误描述

版本

重现步骤

相关日志/回溯

3条答案

相关问题

热门标签

最新问答