Scrapy爬取JSON数据时出现错误，如何排查和解决？

Scrapy框架下JSON数据采集的常见错误及解决方案

Scrapy作为Python生态中成熟的爬虫框架,凭借高效异步处理能力和灵活扩展性被广泛应用，但在实际采集JSON格式数据时，开发者常遇到各类报错，影响任务执行效率，本文将系统梳理Scrapy处理JSON数据的典型错误场景，并提供针对性解决思路，帮助读者快速定位问题根源。

核心表现：Request对象构造或服务器响应异常导致的报错，如连接超时、状态码非200等。

错误案例：twisted.internet.error.TimeoutError: User timeout caused connection failure
- 原因分析：目标网站响应时间过长或网络波动导致请求超时；Scrapy默认超时设置过短（5秒）。
- 解决方案：
  1. 调整全局超时参数：在settings.py中添加 REQUEST_TIMEOUT = 30（单位秒），延长等待时间。
  2. 动态调整单个请求：通过meta传递超时参数，
```
yield scrapy.Request(url, callback=self.parse, meta={'timeout': 20})
```
  3. 检查网络稳定性：使用curl命令测试目标URL连通性，排除本地网络故障。
错误案例：HTTP 403 Forbidden
- 原因分析：目标站点反爬机制触发（如User-Agent检测、IP封禁）。
- 解决方案：
  1. 更换User-Agent：在settings.py启用中间件并配置随机UA池：
```
USER_AGENT_LIST = [...]  # 自定义UA列表
DEFAULT_REQUEST_HEADERS = {'User-Agent': random.choice(USER_AGENT_LIST)}
```
  2. 使用代理IP：集成代理中间件（如scrapy_proxies），轮换访问降低封禁风险。

核心表现：响应体解析失败或数据结构不符合预期，引发ValueError、KeyError等。

错误案例：ValueError: Invalid control character at: line 1 column 102 (char 101)
- 原因分析：JSON字符串包含非法控制字符（如x00-x1F`范围字符），或编码格式不匹配（如UTF-8与GBK混用）。
- 解决方案：
  1. 清洗响应文本：使用正则表达式过滤非法字符：
```
import re
response_text = re.sub(r'[x00-x1Fx7F]', '', response.text)
```
  2. 强制指定编码：在settings.py设置 FEED_EXPORT_ENCODING = 'utf-8'，或在解析前手动解码：
```
json_data = json.loads(response.body.decode('utf-8', errors='ignore'))
```
错误案例：KeyError: 'data'
- 原因分析：JSON键名拼写错误、接口版本更新导致字段变更，或嵌套层级理解偏差。
- 解决方案：
  1. 验证数据结构：打印完整响应体日志（print(response.text)），确认键名正确性。
  2. 容错处理：使用get()方法替代直接索引，避免 KeyError 中断流程：
```
data = json_response.get('data', {})  # 默认返回空字典
```

核心表现：中间件拦截请求/响应，或Pipeline处理数据时引发的逻辑错误。

错误案例：AttributeError: 'NoneType' object has no attribute 'strip'
- 原因分析：ItemLoader或自定义Pipeline中，对未初始化字段调用字符串方法（如.strip()）。
- 解决方案：
  1. 字段初始化检查：在Pipeline中添加判空逻辑：
```
def process_item(self, item, spider):
   if item.get('title') is not None:
       item['title'] = item['title'].strip()
   return item
```
  2. 使用ItemLoader内置处理器：scrapy.loader提供MapCompose自动处理空值：
```
from scrapy.loader.processors import MapCompose
loader.add_value('title', response.xpath('//h1/text()').extract(), MapCompose(str.strip))
```
错误案例：TypeError: can't convert 'NoneType' to str implicitly
- 原因分析：Pipeline尝试拼接字符串时，某字段值为None未被处理。
- 解决方案：统一转换字段类型，确保所有值可序列化：
```
def process_item(self, item, spider):
    for key in item.keys():
        item[key] = str(item.get(key) or '')  # 空值转为空字符串
    return item
```

核心表现：高并发请求导致资源耗尽或目标站点限流。

错误案例：Too many open files
- 原因分析：Scrapy默认并发请求数过高（CONCURRENT_REQUESTS=16），超出系统文件描述符限制。
- 解决方案：
  1. 降低并发数：在settings.py中设置 CONCURRENT_REQUESTS = 8，平衡效率与稳定性。
  2. 优化下载器中间件：启用HttpCompressionMiddleware减少传输体积，间接提升吞吐量。