MediaCrawler

项目核心内容总结：

项目功能
- 多平台数据爬取：支持小红书、抖音、快手、B站、微博、知乎等主流自媒体平台，可抓取帖子信息、评论（含二级评论）、用户数据等。
- 数据存储：支持CSV、JSON、Excel、SQLite、MySQL等多种格式存储。
- 附加功能：生成评论词云图，支持IP代理池和登录态缓存。
主要特性
- 技术实现：基于Playwright框架，无需JS逆向，通过模拟登录获取签名参数，降低开发门槛。
- 灵活性：提供配置文件（config/base_config.py）自定义功能（如是否启用评论抓取）。
- 进阶版本（MediaCrawlerPro）：支持断点续爬、多账号管理、脱离Playwright依赖、Linux环境适配等优化。
使用方法
- 依赖安装：需安装Python、uv（或pip）、Node.js及Playwright浏览器驱动。
- 运行命令：通过python main.py或python3 main.py启动，参数指定平台、模式（如--type search关键词搜索或--type detail指定帖子ID）。
- 验证方式：使用二维码登录验证（--lt qrcode参数）。
注意事项
- 仅限学习用途：明确禁止用于商业或非法活动，开发者不承担因违规使用导致的法律风险。
- 文档支持：提供详细数据存储指南及项目文档链接（MediaCrawler 完整文档）。

其他：项目包含开源教程（如CrawlerTutorial）及合作推广渠道（如TikHub数据接口服务）。