scrabg初体验二(完整流程版本)#

步骤开始前默认已经好mysql、redis、mongo数据库

1.创建项目环境#

1
git clone https://github.com/bgspiders/scrabg.git
2
cp .env.example .env   根据需求修改里面的数据库信息，存储配置MongoDB，那就是Mongodb不配置代表是mysql
3
激活虚拟环境,使用自带的venv或者conda都可以，下面使用venv创建
4
python3 -m venv venv
5
source venv/bin/activate

2. 安装依赖#

1
pip install -r requirements.txt

3. 测试推送任务到 Redis#

1
source scrabgs/bin/activate
2
# 确保 MySQL 中有测试数据
3
 python config_request_producer.py
4

5
# 检查 Redis 队列
6
redis-cli LLEN fetch_spider:start_urls

示例图片

‍

4. 测试爬虫运行#

1
source scrabgs/bin/activate
2

3
# 测试 fetch_spider（从 Redis 消费）
4
scrapy crawl fetch_spider -L INFO
5
#使用requests队列
6
python requests_worker.py

示例图片

5. 测试解析节点#

1
source scrabgs/bin/activate
2
#使用requests队列
3
python success_worker.py

示例图片

6. 验证数据保存#

1
-- 检查 articles 表中的数据
2
SELECT * FROM articles ORDER BY created_at DESC LIMIT 10;
3

4
-- 检查成功队列中的数据（需要从 Redis 读取）
5
redis-cli LRANGE fetch_spider:success 0 9
6
在数据库中查看数据mysql中是articles，mongodb中是items

mongo是整体保存，mysql分表保存
mongo数据库截图

mysql数据库截图-列表

mysql数据库截图-详情

7. 前端保存结果界面#

界面截图，可以进行查询，点击可以查看详情
mongo数据库截图

mysql版本

8 分布式启动#

可以在多台服务器启动请求和解析节点，根据自己需求启动

Lovely firefly!

Upon Lighted Fyrefly, I Soon Gaze

scrabg初体验二(完整流程版本)

scrabg初体验二(完整流程版本)#

1.创建项目环境#

2. 安装依赖#

3. 测试推送任务到 Redis#

4. 测试爬虫运行#

5. 测试解析节点#

6. 验证数据保存#

7. 前端保存结果界面#

8 分布式启动#

目录