你希望看到什么?就像我们可以为Github/Gitlab数据连接器编写一个忽略文件列表一样,如果能只收集特定类型的文件就更好了。一个典型的用例可能是当用户想要收集散落在各种不同文件类型中的仅pdf或文本文件时。这个功能可以通过当前文件过滤器实现。用户可以在忽略给定模式和仅选择与模式匹配的文件之间切换文件过滤器。
oyxsuwqo1#
你应该能够使用 glob 这样的语法,就像 .ignore 文件允许你那样。按照这个逻辑,反转也应该可以工作。所以要获取散乱的 PDF 文件:
glob
.ignore
*, !*.pdf
我认为它之所以是这样的原因是因为 Langchains 加载器,但在我看来,它应该是一个选择器,而不是一个省略控制符,默认情况下它不省略任何内容。
deikduxw2#
这也是一个好主意。我已经测试了github数据收集器,但无法让它收集某种类型的所有文件。我将忽略设置为*和!**/*.txt,并尝试收集this test repo。它只在根文件夹中找到文件,而没有在子文件夹中找到。
*
!**/*.txt
zed5wv103#
在langchain langchain-ai/langchainjs#6214上打开了一个问题。
3条答案
按热度按时间oyxsuwqo1#
你应该能够使用
glob
这样的语法,就像.ignore
文件允许你那样。按照这个逻辑,反转也应该可以工作。所以要获取散乱的 PDF 文件:
我认为它之所以是这样的原因是因为 Langchains 加载器,但在我看来,它应该是一个选择器,而不是一个省略控制符,默认情况下它不省略任何内容。
deikduxw2#
这也是一个好主意。我已经测试了github数据收集器,但无法让它收集某种类型的所有文件。我将忽略设置为
*
和!**/*.txt
,并尝试收集this test repo。它只在根文件夹中找到文件,而没有在子文件夹中找到。zed5wv103#
在langchain langchain-ai/langchainjs#6214上打开了一个问题。