llama_index ``` firecrawl_reader error ```

h5qlskok 于 5个月前发布在其他

关注(0)|答案(3)|浏览(91)

问题验证

我已在文档和Discord中寻找答案。

问题

firecrawl_reader无法正常使用，也无法正确读取网页内容。
示例：
firecrawl_reader = FireCrawlWebReader(
api_key="api_key", # 用https://www.firecrawl.dev/的实际API密钥替换
mode="scrape", # 在单个页面抓取和抓取之间选择
params={"additional": "parameters"}, # 可选的附加参数
)

从单个页面URL加载文档

documents = firecrawl_reader.load_data(url=" https://baijiahao.baidu.com/s?id=1802435789639076917&wfr=spider&for=pc ")
print(documents)

llama_index

来源：https://github.com/run-llama/llama_index/issues/14349

3条答案

按热度按时间

uxhixvfz1#

要解决由于百度安全验证页面导致firecrawl_reader无法正确读取网页内容的问题，您可以使用params参数将特定参数传递给Firecrawl API,以帮助绕过安全验证。例如，您可以设置user-agent标头或其他模仿真实浏览器的选项。
以下是如何修改params以包含user-agent的示例：

from llama_index.readers.web.firecrawl_web.base import FireCrawlWebReader

# Initialize the FireCrawlWebReader with your API key and custom parameters
reader = FireCrawlWebReader(
    api_key="your_api_key",
    mode="scrape",  # or "crawl" depending on your needs
    params={
        "headers": {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
        }
    }
)

# Load data from the URL
documents = reader.load_data(url="https://baijiahao.baidu.com/s?id=1802435789639076917&wfr=spider&for=pc")
print(documents)

此示例设置了一个自定义的User-Agent标头来模仿真实浏览器，这可能有助于绕过安全验证页面。根据百度安全验证的具体要求，根据需要调整params。

要继续与Dosu对话，请提及@dosu。*

赞(0）回复(0）举报 5个月前

iaqfqrcu2#

documents.append(
Document(
page_content=firecrawl_docs.get("markdown", ""),
metadata=firecrawl_docs.get("metadata", {}),
)
)
Should it be changed to the following so that it can be used normally?
documents.append(
Document(
text=firecrawl_docs.get("markdown", ""),
metadata=firecrawl_docs.get("metadata", {}),
)
)

赞(0）回复(0）举报 5个月前

o2rvlv0m3#

是的，你应该在 Document 构造函数中将 page_content 参数更改为 text,以确保文档正确附加并可以正常使用。要使用的正确属性是 text。
以下是更正后的代码：

documents.append(
    Document(
        text=firecrawl_docs.get("markdown", ""),
        metadata=firecrawl_docs.get("metadata", {}),
    )
)

此更改应解决任何问题，并确保文档正确附加 1(https://github.com/run-llama/llama_index/blob/main/docs/docs/examples/discover_llamaindex/document_management/discord_dumps/help_channel_dump_05_25_23.json)2(https://github.com/run-llama/llama_index/blob/main/docs/docs/examples/discover_llamaindex/document_management/discord_dumps/help_channel_dump_06_02_23.json)。

要继续与 Dosu 对话，请提及 @dosu。*

赞(0）回复(0）举报 5个月前

我来回答

llama_index ``` firecrawl_reader error ```

问题验证

问题

从单个页面URL加载文档

3条答案

相关问题

热门标签

最新问答