haystack 研究和测试不同的技术，以提高表格质量评估的性能,

ulydmbyx 于 5个月前发布在其他

关注(0)|答案(3)|浏览(75)

以下是一些评估和决定是否值得尝试的技巧，但这取决于任务承担者尝试在选定的数据集上工作的不同技术。

递归检索器
在检索和合成过程中格式化块(如在线所示)。
将摘要添加到块中(如在线所示)。

haystack

来源：https://github.com/deepset-ai/haystack/issues/7870

3条答案

按热度按时间

voj3qocg1#

我认为除了提议的点(主要关注检索),添加专注于使用LLM生成答案的任务也是很好的。例如，

在LLM提示中哪种表格格式效果最好？Markdown、XML、CSV等。
是否有能力进行基本数学运算的LLM?例如，需要将表格中的数字与数字进行比较的问题，如“公司X在2023年的收入是否比2022年增加？”
视觉问答模型是否比仅使用文本的LLM更好？

对于检索方面：

我相信@ju-gu和@bglearning已经发现BM25可以作为检索表格的一个不错的基线。
对表格检索的一个很大的改进可能来自于找到PDF(或文件)中关于表格的文本，并将该文本作为元数据附加到表格上。关于表格的相关上下文通常不靠近文件中的表格物理位置，这使得这种类型的提取具有挑战性。
最后，我脑海中有一个很大的问题是，我们如何有效地将文本和表格检索结合到一个单一的RAG管道中？如果我们最终分别使用不同的检索技术来检索文本和表格，我们如何决定要向LLM发送多少文本和表格文档？例如，我们是否每次都只发送前5个文本块和前5个表格？

赞(0）回复(0）举报 5个月前

kcrjzv8t2#

在我的工作经验中，基本算术对于我所接触的所有LLMs来说一直是一个挑战。尽管有些LLMs(如代码模型)在这些任务上可能表现得稍微好一些，但它们的准确性仍然不稳定，使得它们不适合用于生产环境。

对于索引PDF,我建议我们可以开发一个处理文档的代理，以交互方式逐块处理文档，提取特定事实，如公司的净利润。这个代理可以为表格、图像和其他相关元素添加引用，然后我们可以用这些引用来增强这些元素的元数据。通过在文档存储中索引所有块并为表格和图像维护单独的存储，我们可以在检索过程中保留上下文。当需要访问表格时，检索过程会弹出引用它的段落。此外，在将表格的行和列传递给LLM之前对它们进行过滤可能有助于避免混淆。

我知道这需要测试，但我对它的潜力充满信心。考试结束后我会开始着手处理这个问题。

赞(0）回复(0）举报 5个月前

7ivaypg93#

如果你想将先进的表格问答技术添加到haystack中，我们应该开始阅读关于这个问题的论文，并讨论如何在库中实现讨论过的功能。我在我之前的项目中发现了这个非常有用。我会开始列出一些要阅读的论文，并尝试制定一些指导方针，以便在某个阅读小组或其他地方研究这个问题。如果有人愿意帮助我，我将非常乐意合作。
如果你有其他建议，我愿意根据你提出的建议合作。

赞(0）回复(0）举报 5个月前

我来回答

haystack 研究和测试不同的技术，以提高表格质量评估的性能,

3条答案

相关问题

热门标签

最新问答