bgspider

记录技术与思考，在代码的世界里寻找光亮

切换静态模块（没钱了，不想折腾服务器）

341 字

2 分钟

通用爬虫采集框架开发

2025-12-15

scrabg

/

爬虫框架

/

爬虫框架

项目地址#

https://github.com/scrabg/scra

碎碎念#

间隔两个月终于来更新进度，主要因为时间分散，进度一直拖着。有想法或建议欢迎在 issues 里留言。项目的原始前后端源码来自：https://gitee.com/insistence2022/RuoYi-Vue3-FastAPI 感谢作者的开源，也感谢 AI 帮我晚上提速。

整体开发工具#

IDE：Cursor、Trae（前期）、PyCharm
数据库与 SSH：HexHub，数据库和 SSH 集成在一个工具里，少开几个窗口就很香。推荐码 bgspider，官网：https://www.hexhub.cn/
依赖：本地 MySQL、Redis 等
设备：Mac

目标#

scrabg 是一套基于 RuoYi-Vue3-FastAPI 的智能爬虫管理平台，目标是提供可视化的爬虫配置、管理与监控。

任务管理：新增/修改/删除任务，配置定时，查看已采集数据。
可视化配置：支持 xpath、正则、自定义代码等方式提取信息，可按节点组合多阶段流程，尽量做到可视化即可完成采集。
监控：查看任务运行与健康状态。
日志：后续补充。

开发计划与每日进度#

12/11：重新梳理项目，拉取最新代码；本地用 Docker 重建数据库与前后端环境；确定本月要落地的数据 JSON 结构。教程地址 https://blog.bgspider.com/posts/mac安装mysql和redis/
12/15：更新爬虫核心流程（配置驱动 + 仅请求 + workflow 分发），细节与代码片段见 https://blog.bgspider.com/posts/scrabg%E5%88%9D%E4%BD%93%E9%AA%8C%E4%B8%80/

通用爬虫采集框架开发

https://blog.gspider.com/posts/guide/通用爬虫采集框架开发进度/

作者

bgspider

发布于

2025-12-15

许可协议

CC BY-NC-SA 4.0

最后更新于 2025-12-15，距今已过 24 天

部分内容可能已过时

supervisor教程

scrabg 初体验（一）