haystack JSON Convertor : Pipeline Component

{
    "prizes": [
        {
            "year": "string",
            "category": "string",
            "laureates": [
                {
                    "id": "string",
                    "firstname": "string",
                    "surname": "string",
                    "motivation": "string",
                    "share": "string",
                }
            ],
        }
    ]
}

提议的实现

from haystack.components.converters import JSONToDocument

converter = JSONToDocument(
    jq_schema=".prizes[].laureates[]?",
    content_key="motivation",
    additional_meta_fields=["firstname", "surname", "share"],
)
docs = converter.run(sources=["./prize.json"])
print(docs["documents"][0])

预期输出：

Document(id=db72dfbe9, content: '"for the discovery and synthesis of quantum dots"', meta: {'file_path': './prize.json', 'firstname': 'Moungi', 'surname': 'Bawendi', 'share': '3'})

赞(0）回复(0）举报 5个月前

ijxebb2r5#

根据@kanenorman的建议，我在#8079中实现了一个基本的JSONToDocument组件。在这个初步实现中，我还没有包含content_key和additional_meta_fields参数。关键是我还没有找到一种简单的方法来在任何JSON结构中实现元数据逻辑。
请告诉我如何改进这个组件以包含这种逻辑。

赞(0）回复(0）举报 5个月前

a64a0gku6#

@tradicio - 谢谢。我正在努力整合jq逻辑。你打算将你的PR保持为最终版本还是转换为草稿？

赞(0）回复(0）举报 5个月前

ajsxfq5m7#

@tradicio - 谢谢。我正在努力整合jq逻辑。你打算将你的PR保持为最终版本还是转换为草稿？

我不确定在接下来的几周里我能在PR上做多少工作，如果你认为你能整合jq逻辑，我很乐意将PR变成草稿。

赞(0）回复(0）举报 5个月前