Pixiv - KiraraShss
341 字
2 分钟
通用爬虫采集框架开发
项目地址
碎碎念
间隔两个月终于来更新进度,主要因为时间分散,进度一直拖着。有想法或建议欢迎在 issues 里留言。项目的原始前后端源码来自:https://gitee.com/insistence2022/RuoYi-Vue3-FastAPI 感谢作者的开源,也感谢 AI 帮我晚上提速。
整体开发工具
- IDE:Cursor、Trae(前期)、PyCharm
- 数据库与 SSH:HexHub,数据库和 SSH 集成在一个工具里,少开几个窗口就很香。推荐码
bgspider,官网:https://www.hexhub.cn/ - 依赖:本地 MySQL、Redis 等
- 设备:Mac
目标
scrabg 是一套基于 RuoYi-Vue3-FastAPI 的智能爬虫管理平台,目标是提供可视化的爬虫配置、管理与监控。
- 任务管理:新增/修改/删除任务,配置定时,查看已采集数据。
- 可视化配置:支持 xpath、正则、自定义代码等方式提取信息,可按节点组合多阶段流程,尽量做到可视化即可完成采集。
- 监控:查看任务运行与健康状态。
- 日志:后续补充。
开发计划与每日进度
- 12/11:重新梳理项目,拉取最新代码;本地用 Docker 重建数据库与前后端环境;确定本月要落地的数据 JSON 结构。教程地址 https://blog.bgspider.com/posts/mac安装mysql和redis/
- 12/15:更新爬虫核心流程(配置驱动 + 仅请求 + workflow 分发),细节与代码片段见 https://blog.bgspider.com/posts/scrabg%E5%88%9D%E4%BD%93%E9%AA%8C%E4%B8%80/
最后更新于 2025-12-15,距今已过 24 天
部分内容可能已过时