scrapy 禁止在管道后在日志中打印报废项

5tmbdcev 于 2022-11-09 发布在其他

关注(0)|答案(9)|浏览(139)

我有一个零碎的项目，最终进入我的管道的项目相对较大，并且存储了大量的元数据和内容。在我的蜘蛛和管道中，一切都工作正常。但是，日志在它离开管道时打印出了整个零碎的项目（我相信）：

2013-01-17 18:42:17-0600 [tutorial] DEBUG: processing Pipeline pipeline module
2013-01-17 18:42:17-0600 [tutorial] DEBUG: Scraped from <200 http://www.example.com>
    {'attr1': 'value1',
     'attr2': 'value2',
     'attr3': 'value3',
     ...
     snip
     ...
     'attrN': 'valueN'}
2013-01-17 18:42:18-0600 [tutorial] INFO: Closing spider (finished)

如果可以避免的话，我宁愿不要将所有这些数据都写入日志文件。有关于如何抑制此输出的建议吗？

scrapy

来源：https://stackoverflow.com/questions/14390945/suppress-scrapy-item-printed-in-logs-after-pipeline

9条答案

按热度按时间

i7uaboj41#

另一种方法是覆盖Item子类的__repr__方法，以选择性地选择在管道末尾打印哪些属性（如果有）：

from scrapy.item import Item, Field
class MyItem(Item):
    attr1 = Field()
    attr2 = Field()
    # ...
    attrN = Field()

    def __repr__(self):
        """only print out attr1 after exiting the Pipeline"""
        return repr({"attr1": self.attr1})

这样，您就可以将日志级别保持在DEBUG，并且只显示您希望看到的来自管道的属性（例如，检查attr1）。

赞(0）回复(0）举报 2022-11-09

uyhoqukh2#

在通读了文档并对源代码进行了（简短的）搜索之后，我看不出有什么直接的方法可以实现这个目标。
Hammer方法是将设置中的日志记录级别设置为INFO（即将以下行添加到settings.py）：
LOG_LEVEL='INFO'
这将剥离大量其他有关正在爬网的URL/页面的信息，但它肯定会抑制有关已处理项目的数据。

赞(0）回复(0）举报 2022-11-09

pinkon5k3#

我尝试了@dino提到的repre方法，效果不太好。但从他的想法演变而来，我尝试了str方法，效果很好。
我是这样做的，非常简单：

def __str__(self):
        return ""

赞(0）回复(0）举报 2022-11-09

l3zydbqr4#

如果只想排除输出的某些属性，可以扩展@dino给出的答案

from scrapy.item import Item, Field
import json

class MyItem(Item):
    attr1 = Field()
    attr2 = Field()
    attr1ToExclude = Field()
    attr2ToExclude = Field()
    # ...
    attrN = Field()

    def __repr__(self):
        r = {}
        for attr, value in self.__dict__['_values'].iteritems():
            if attr not in ['attr1ToExclude', 'attr2ToExclude']:
                r[attr] = value
        return json.dumps(r, sort_keys=True, indent=4, separators=(',', ': '))

赞(0）回复(0）举报 2022-11-09

pwuypxnk5#

如果你是因为几年后遇到了同样的问题才找到这里的，那么最简单的方法就是使用LogFormatter：

class QuietLogFormatter(scrapy.logformatter.LogFormatter):
    def scraped(self, item, response, spider):
        return (
            super().scraped(item, response, spider)
            if spider.settings.getbool("LOG_SCRAPED_ITEMS")
            else None
        )

只需将LOG_FORMATTER = "path.to.QuietLogFormatter"添加到settings.py中，您将看到除刮擦项之外的所有DEBUG消息。使用LOG_SCRAPED_ITEMS = True，您可以恢复以前的行为，而无需更改LOG_FORMATTER。
同样地，您可以自订编目页面和舍弃项目的记录行为。

编辑 *：我 Package 了this formatter和其他一些Scrapy的东西in this library。

赞(0）回复(0）举报 2022-11-09

slmsl1lt6#

或者如果您知道spider工作正常，则可以禁用整个日志记录
LOG_ENABLED = False
当我的爬行器运行正常时，我会禁用它

赞(0）回复(0）举报 2022-11-09

pgvzfuti7#

我认为最简单的方法是在scrapy.core.scraper日志中添加一个过滤器来修改相关的消息。这可以让你保持物品的__repr__不变，而不必修改scrapy的日志级别：

import re

class ItemMessageFilter(logging.Filter):
    def filter(self, record):
        # The message that logs the item actually has raw % operators in it,
        # which Scrapy presumably formats later on
        match = re.search(r'(Scraped from %\(src\)s)\n%\(item\)s', record.msg)
        if match:
            # Make the message everything but the item itself
            record.msg = match.group(1)
        # Don't actually want to filter out this record, so always return 1
        return 1

logging.getLogger('scrapy.core.scraper').addFilter(ItemMessageFilter())

赞(0）回复(0）举报 2022-11-09

3pvhb19x8#

我们在生产中使用以下样品：

import logging

logging.getLogger('scrapy.core.scraper').addFilter(
    lambda x: not x.getMessage().startswith('Scraped from'))

这是一个非常简单的代码。我们在spider模块的__init__.py中添加了这段代码。在这种情况下，这段代码会自动运行，命令为scrapy crawl <spider_name>。

赞(0）回复(0）举报 2022-11-09

sqyvllje9#

创建筛选器：

class ItemFilter(logging.Filter):
    def filter(self, record):
        is_item_log = not record.msg.startswith('Scraped from')
        return is_item_log

然后将其添加到spider的__init__中。

class YourSpider(scrapy.Spider):
    name = "your_spider"

    def __init__(self, *args,**kwargs):
        super(JobSpider, self).__init__(*args,**kwargs)

        if int(getattr(self, "no_items_output", 0)):
            for handler in logging.root.handlers:
                handler.addFilter(ItemFilter())

然后您可以运行scrapy crawl your_spider -a no_items_output=1

赞(0）回复(0）举报 2022-11-09

我来回答

scrapy 禁止在管道后在日志中打印报废项

9条答案

相关问题

热门标签

最新问答