MediaCrawler
项目核心内容总结:
-
项目功能
- 多平台数据爬取:支持小红书、抖音、快手、B站、微博、知乎等主流自媒体平台,可抓取帖子信息、评论(含二级评论)、用户数据等。
- 数据存储:支持CSV、JSON、Excel、SQLite、MySQL等多种格式存储。
- 附加功能:生成评论词云图,支持IP代理池和登录态缓存。
-
主要特性
- 技术实现:基于Playwright框架,无需JS逆向,通过模拟登录获取签名参数,降低开发门槛。
- 灵活性:提供配置文件(
config/base_config.py)自定义功能(如是否启用评论抓取)。 - 进阶版本(MediaCrawlerPro):支持断点续爬、多账号管理、脱离Playwright依赖、Linux环境适配等优化。
-
使用方法
- 依赖安装:需安装Python、uv(或pip)、Node.js及Playwright浏览器驱动。
- 运行命令:通过
python main.py或python3 main.py启动,参数指定平台、模式(如--type search关键词搜索或--type detail指定帖子ID)。 - 验证方式:使用二维码登录验证(
--lt qrcode参数)。
-
注意事项
- 仅限学习用途:明确禁止用于商业或非法活动,开发者不承担因违规使用导致的法律风险。
- 文档支持:提供详细数据存储指南及项目文档链接(MediaCrawler 完整文档)。
其他:项目包含开源教程(如CrawlerTutorial)及合作推广渠道(如TikHub数据接口服务)。