from unstructured.ingest.connector.confluence import ConfluenceAccessConfig, SimpleConfluenceConfig
from unstructured.ingest.interfaces import PartitionConfig, ProcessorConfig, ReadConfig
from unstructured.ingest.runner import ConfluenceRunner
if __name__ == "__main__":
runner = ConfluenceRunner(
processor_config=ProcessorConfig(
verbose=True,
output_dir="confluence-ingest-output",
num_processes=2,
),
read_config=ReadConfig(),
partition_config=PartitionConfig(strategy="hi_res",pdf_infer_table_structure=True,
metadata_exclude=["filename", "file_directory", "metadata.data_source.date_processed"],
),
connector_config=SimpleConfluenceConfig(
access_config=ConfluenceAccessConfig(
api_token="api-key",
),
user_email="my-email",
url="url",
),
)
runner.run()
这返回一个具有层次结构的json列表,但是即使使用hi_res和pdf_infer_table_structure=True,我也无法访问任何图像数据。我得到的只是文本数据,这是必需的,但在我的用例中,我也希望从同一文档中获取图像
4条答案
按热度按时间xfb7svmp1#
jqjz2hbq2#
@christinestraub@scanny anyone who can help me on this?
4sup72z83#
这将返回一个具有层次结构的json列表,但即使使用hi_res和pdf_infer_table_structure=True,我也无法访问任何图像数据。我得到的只是所需的文本数据,但在我的用例中,我也希望从同一文档中获取图像。
@ML-Abdula 你是说你无法在返回的json中获取任何类别为"Image"的元素吗?你能分享一下你要处理的文档吗?
fjnneemd4#
@ML-Abdula Confluence是网页,对吗?因此,Confluence的"文档"将发送到
partition_html()
。HTML不会嵌入图像,而是包含指向图像的
<img href=...>
"链接"。partition_html()
目前不会遍历这些链接以下载图像。我确信原因是下载任意图像文件所固有的安全隐患。所以我认为这解释了为什么Confluence连接器输出中没有
Image
元素。你可以提出一个改进建议。也许有一种方法可以让你自行下载图像,或者识别可信区域等。但这应该在一个单独的问题中讨论,以便能够独立讨论。