Scraperr
项目核心内容总结:
功能
Scraperr 是一个无需编写代码即可完成网页数据抓取的自托管工具,支持通过 XPath 精准提取页面元素、管理抓取任务队列、自动下载媒体文件,并提供数据表格可视化及导出(Markdown/CSV)功能。
主要特性
- 支持域名内所有页面爬取
- 自定义请求头与反爬策略
- 多渠道通知任务完成状态
- 提供可视化界面与结构化数据展示
使用方法
- 通过 Docker 部署:执行
make up - Helm 部署:参考官方文档指引
注意事项
- 必须遵守目标网站的
robots.txt规则及服务条款 - 需合理设置请求间隔,避免服务器过载
- 仅限用于允许抓取的网站,开发者不承担滥用责任
其他
- 开源协议:MIT
- 社区支持:可通过 Discord 参与交流(链接见原文)