unstructured Slack ingest不支持分页(因此限制为100个线程),并且破坏了日期处理,

5lhxktic  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(73)

描述bug

由于不支持分页,Slack摄取限制为100个线程。此外,由于不支持分页,开始/结束日期将被忽略。

重现

尝试以以下方式摄取具有超过100个线程的Slack频道:
unstructured-ingest slack --channels C040Z2873DH,C05JBERNW0Y --token <api_token> --download-dir slack-ingest-download --output-dir slack-ingest-output --start-date 2022-01-01 --end-date 2024-02-28
或者尝试摄取少于100个线程,但使用在最后100个线程之前的一段时间:
unstructured-ingest slack --channels C040Z2873DH,C05JBERNW0Y --token <api_token> --download-dir slack-ingest-download --output-dir slack-ingest-output --start-date 2022-01-01 --end-date 2022-02-01

环境:

本地

附加上下文

与此一个bug相关联有两个问题:

  1. 无法摄取超过100个线程(由于不支持分页)
  2. 无法摄取任何比最后100个线程更早的线程(由于不支持分页)
    理想情况下,您还可以支持暂停或延迟功能,该功能将在“n”次API调用后插入一个小延迟,以防止达到Slack的API限制。
h9vpoimq

h9vpoimq1#

感谢您的反馈!为了提高意识,可以将与摄取连接器相关的问题针对核心库仓库提出,而不是在这里的API。不过没关系,我会转交给团队并确保我们正在跟踪这个问题。

相关问题