我正在使用Flowise与Railway。我使用Pinecode来存储数据。我想上传文本文件和我的网站页面。我使用了Text Node和Puppeteer网络爬虫节点。
我遇到了第一个问题:
致命错误:达到堆限制分配失败 - JavaScript堆内存不足
经过调查,我将chunk大小更改为1000,并解决了文本文件的问题。然后我添加了Puppeteer网络爬虫。我使用了sitemap方法,我在Puppeteer网络爬虫中获取了URL。问题又回来了,又是内存限制的问题。
所以我尝试了另一个网络爬虫节点,问题仍然存在。
我有30个文本文件,代表30本书。总共大约50 Mo。
我有一些截图,如果需要的话可以查看我的配置。我不知道我做错了什么。我是Flowise和Pinecone的新手。
这是Railway日志:
2024-07-08 11:52:17 [INFO]: ⬆ POST /api/v1/vector/internal-upsert/ceee0b68-64a4-4f7b-b684-445d5ffb3c19
Jul 08 13:54:11
Jul 08 13:54:11
<--- Last few GCs --->
Jul 08 13:54:11
Jul 08 13:54:11
[36:0x7fa3236226c0] 483060 ms: Mark-Compact 245.4 (258.7) -> 244.7 (258.7) MB, 210.03 / 0.00 ms (average mu = 0.597, current mu = 0.017) allocation failure; scavenge might not succeed
Jul 08 13:54:11
[36:0x7fa3236226c0] 483211 ms: Mark-Compact 245.7 (258.7) -> 245.0 (259.2) MB, 147.53 / 0.00 ms (average mu = 0.435, current mu = 0.025) allocation failure; scavenge might not succeed
Jul 08 13:54:11
Jul 08 13:54:11
Jul 08 13:54:11
<--- JS stacktrace --->
Jul 08 13:54:11
Jul 08 13:54:11
FATAL ERROR: Reached heap limit Allocation failed - JavaScript heap out of memory
Jul 08 13:54:11
----- Native stack trace -----
Jul 08 13:54:11
Jul 08 13:54:31
container event container died
所以我联系了Railway支持,他们让我升级。所以我订阅了5$的计划。
但是然后我仍然有同样的问题,尝试了其他的东西,又遇到了关于内存的另一个问题:
[36:0x7fba4eb3b6c0] 1029892 ms: Mark-Compact 2019.9 (2094.9) -> 2015.4 (2094.9) MB, 174.44 / 0.01 ms (average mu = 0.578, current mu = 0.185) allocation failure; scavenge might not succeed
[36:0x7fba4eb3b6c0] 1030101 ms: Mark-Compact 2023.7 (2098.7) -> 2019.2 (2098.7) MB, 163.30 / 0.01 ms (average mu = 0.462, current mu = 0.221) allocation failure; scavenge might not succeed
<--- JS stacktrace --->
FATAL ERROR: Reached heap limit Allocation failed - JavaScript heap out of memory
----- Native stack trace -----
container event container died
所以我回到Railway支持。他们告诉我联系模板创建者。因为我在Railway中使用你们的GitHub模板部署,我将这个问题转发给你们。
我添加了很多截图以获取更多信息。
你能帮我找到解决方案吗?请?
2条答案
按热度按时间7ajki6be1#
我通过discord联系了铁路支持。他们回复:
我从github仓库部署的。关于这个问题,你有没有什么信息?
ep6jt1vc2#
我猜网页太大,无法抓取,cheerio抓取时占用了太多内存。
我的建议是将Cheerio的网络抓取限制设置为每次10页,或者使用其他服务,如Apify、Firecrawl等。