341 字
2 分钟

通用爬虫采集框架开发

项目地址#

https://github.com/scrabg/scra

碎碎念#

间隔两个月终于来更新进度,主要因为时间分散,进度一直拖着。有想法或建议欢迎在 issues 里留言。项目的原始前后端源码来自:https://gitee.com/insistence2022/RuoYi-Vue3-FastAPI 感谢作者的开源,也感谢 AI 帮我晚上提速。

整体开发工具#

  • IDE:Cursor、Trae(前期)、PyCharm
  • 数据库与 SSH:HexHub,数据库和 SSH 集成在一个工具里,少开几个窗口就很香。推荐码 bgspider,官网:https://www.hexhub.cn/
  • 依赖:本地 MySQL、Redis 等
  • 设备:Mac

目标#

scrabg 是一套基于 RuoYi-Vue3-FastAPI 的智能爬虫管理平台,目标是提供可视化的爬虫配置、管理与监控。

  • 任务管理:新增/修改/删除任务,配置定时,查看已采集数据。
  • 可视化配置:支持 xpath、正则、自定义代码等方式提取信息,可按节点组合多阶段流程,尽量做到可视化即可完成采集。
  • 监控:查看任务运行与健康状态。
  • 日志:后续补充。

开发计划与每日进度#

通用爬虫采集框架开发
https://blog.gspider.com/posts/guide/通用爬虫采集框架开发进度/
作者
bgspider
发布于
2025-12-15
许可协议
CC BY-NC-SA 4.0
最后更新于 2025-12-15,距今已过 24 天

部分内容可能已过时

目录