问题验证
- 我已在文档和Discord中寻找答案。
问题
firecrawl_reader无法正常使用,也无法正确读取网页内容。
示例:
firecrawl_reader = FireCrawlWebReader(
api_key="api_key", # 用https://www.firecrawl.dev/的实际API密钥替换
mode="scrape", # 在单个页面抓取和抓取之间选择
params={"additional": "parameters"}, # 可选的附加参数
)
从单个页面URL加载文档
documents = firecrawl_reader.load_data(url=" https://baijiahao.baidu.com/s?id=1802435789639076917&wfr=spider&for=pc ")
print(documents)
3条答案
按热度按时间uxhixvfz1#
要解决由于百度安全验证页面导致
firecrawl_reader
无法正确读取网页内容的问题,您可以使用params
参数将特定参数传递给Firecrawl API,以帮助绕过安全验证。例如,您可以设置user-agent标头或其他模仿真实浏览器的选项。以下是如何修改
params
以包含user-agent的示例:此示例设置了一个自定义的
User-Agent
标头来模仿真实浏览器,这可能有助于绕过安全验证页面。根据百度安全验证的具体要求,根据需要调整params
。iaqfqrcu2#
documents.append(
Document(
page_content=firecrawl_docs.get("markdown", ""),
metadata=firecrawl_docs.get("metadata", {}),
)
)
Should it be changed to the following so that it can be used normally?
documents.append(
Document(
text=firecrawl_docs.get("markdown", ""),
metadata=firecrawl_docs.get("metadata", {}),
)
)
o2rvlv0m3#
是的,你应该在
Document
构造函数中将page_content
参数更改为text
,以确保文档正确附加并可以正常使用。要使用的正确属性是text
。以下是更正后的代码:
此更改应解决任何问题,并确保文档正确附加 1(https://github.com/run-llama/llama_index/blob/main/docs/docs/examples/discover_llamaindex/document_management/discord_dumps/help_channel_dump_05_25_23.json)2(https://github.com/run-llama/llama_index/blob/main/docs/docs/examples/discover_llamaindex/document_management/discord_dumps/help_channel_dump_06_02_23.json)。