您的功能请求是否与问题相关?请描述。
目前我们有一个 .txt
到 Document
的转换器以及其他非结构化转换器。但我看到我们处理的大部分数据都是以 JSON 形式呈现的。
描述您希望的解决方案
因此,一个 .json
到 Document
的转换器将在消费 API 数据的过程中成为主要的收益者。
描述您考虑过的替代方案
虽然 Unstructured file convertor 已经存在,但将 JSON 模式作为单独的转换器会增加更多的意义和价值。
您的功能请求是否与问题相关?请描述。
目前我们有一个 .txt
到 Document
的转换器以及其他非结构化转换器。但我看到我们处理的大部分数据都是以 JSON 形式呈现的。
描述您希望的解决方案
因此,一个 .json
到 Document
的转换器将在消费 API 数据的过程中成为主要的收益者。
描述您考虑过的替代方案
虽然 Unstructured file convertor 已经存在,但将 JSON 模式作为单独的转换器会增加更多的意义和价值。
7条答案
按热度按时间qlfbtfca1#
感谢您的建议。如果您愿意,请随时提交一个pull请求。我们的贡献指南是here。
eyh26e7m2#
@julian-risch
我喜欢开始为Haystack做贡献。你觉得这可以成为一个好的起点吗?如果是这样的话,请随意分配给我。
谢谢,
pieyvz9o3#
@arminnajafi 我已经贡献了一个月左右,他们通常不会分配外部人员处理问题,至少我看到的是这样。如果你想做这件事,请随时打开一个PR,当你准备好时,他们会审查它。
swvgeqrz4#
我正在为Haystack 2.0提出一个
JSONToDocument
转换器,灵感来源于LangChain的JSONLoader。这将允许对JSON文件进行强大的解析,类似于LangChain基于jq的实现。示例JSON模式( prize.json ):
提议的实现
预期输出:
ijxebb2r5#
根据@kanenorman的建议,我在#8079中实现了一个基本的JSONToDocument组件。在这个初步实现中,我还没有包含
content_key
和additional_meta_fields
参数。关键是我还没有找到一种简单的方法来在任何JSON结构中实现元数据逻辑。请告诉我如何改进这个组件以包含这种逻辑。
a64a0gku6#
@tradicio - 谢谢。我正在努力整合jq逻辑。你打算将你的PR保持为最终版本还是转换为草稿?
ajsxfq5m7#
@tradicio - 谢谢。我正在努力整合jq逻辑。你打算将你的PR保持为最终版本还是转换为草稿?
我不确定在接下来的几周里我能在PR上做多少工作,如果你认为你能整合jq逻辑,我很乐意将PR变成草稿。