Pixiv - KiraraShss
358 字
2 分钟
scrabg初体验二(完整流程版本)
scrabg初体验二(完整流程版本)
步骤开始前默认已经好mysql、redis、mongo数据库
1.创建项目环境
git clone https://github.com/bgspiders/scrabg.gitcp .env.example .env 根据需求修改里面的数据库信息,存储配置MongoDB,那就是Mongodb不配置代表是mysql激活虚拟环境,使用自带的venv或者conda都可以,下面使用venv创建python3 -m venv venvsource venv/bin/activate2. 安装依赖
pip install -r requirements.txt3. 测试推送任务到 Redis
source scrabgs/bin/activate# 确保 MySQL 中有测试数据 python config_request_producer.py
# 检查 Redis 队列redis-cli LLEN fetch_spider:start_urls示例图片

4. 测试爬虫运行
source scrabgs/bin/activate
# 测试 fetch_spider(从 Redis 消费)scrapy crawl fetch_spider -L INFO#使用requests队列python requests_worker.py示例图片

5. 测试解析节点
source scrabgs/bin/activate#使用requests队列python success_worker.py示例图片

6. 验证数据保存
-- 检查 articles 表中的数据SELECT * FROM articles ORDER BY created_at DESC LIMIT 10;
-- 检查成功队列中的数据(需要从 Redis 读取)redis-cli LRANGE fetch_spider:success 0 9在数据库中查看数据mysql中是articles,mongodb中是itemsmongo是整体保存,mysql分表保存
mongo数据库截图

mysql数据库截图-列表

mysql数据库截图-详情

7. 前端保存结果界面
界面截图,可以进行查询,点击可以查看详情
mongo数据库截图

mysql版本

8 分布式启动
可以在多台服务器启动请求和解析节点,根据自己需求启动
scrabg初体验二(完整流程版本)
https://blog.gspider.com/posts/scrabg初体验二完整流程版本/ 最后更新于 2025-12-25,距今已过 14 天
部分内容可能已过时