Name		Name	Last commit message	Last commit date
Latest commit History 84 Commits
base		base
config		config
docs		docs
libs		libs
media_platform		media_platform
models		models
proxy		proxy
test		test
tools		tools
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
db.py		db.py
main.py		main.py
mypy.ini		mypy.ini
recv_sms_notification.py		recv_sms_notification.py
requirements.txt		requirements.txt
var.py		var.py

Repository files navigation

免责声明：

本仓库的所有内容仅供学习和参考之用，禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究，不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任，本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。

仓库描述

小红书爬虫，抖音爬虫， 快手爬虫， B站爬虫...。
目前能抓取小红书、抖音、快手、B站的视频、图片、评论、点赞、转发等信息。

原理：利用playwright搭桥，保留登录成功后的上下文浏览器环境，通过执行JS表达式获取一些加密参数通过使用此方式，免去了复现核心加密JS代码，逆向难度大大降低。

爬虫技术交流群：949715256

欢迎大家贡献代码提交PR

目前爬虫正在用的IP代理：极速HTTP代理新用户注册认证最高送12000IP，0元试用

功能列表

平台	Cookie 登录	二维码登录	手机号登录	关键词搜索	指定视频/帖子 ID 爬取	登录状态缓存	数据保存	IP 代理池	滑块验证码
小红书	✅	✅	✅	✅	✅	✅	✅	✅	✕
抖音	✅	✅	✅	✅	✅	✅	✅	✅	✅
快手	✅	✅	✕	✅	✅	✅	✅	✅	✕
B 站	✅	✅	✕	✅	✕	✅	✅	✕	✕
微博	✕	✕	✕	✕	✕	✕	✕	✕	✕

使用方法

创建 python 虚拟环境
```
python3 -m venv venv
```
安装依赖库
```
pip install -r requirements.txt
```
安装playwright浏览器驱动
```
playwright install
```
是否保存数据到DB中

如果选择开启，则需要配置数据库连接信息，config/db_config.py 中的 IS_SAVED_DATABASED和RELATION_DB_URL 变量。然后执行以下命令初始化数据库信息，生成相关的数据库表结构：
```
python db.py
```

运行爬虫程序

# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
python main.py --platform xhs --lt qrcode --type search

# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
python main.py --platform xhs --lt qrcode --type detail

# 其他平台爬虫使用示例, 执行下面的命令查看
 python3 main.py --help

打开对应APP扫二维码登录
等待爬虫程序执行完毕，数据会保存到 data/xhs 目录下

如何使用 IP 代理

➡️➡️➡️ IP代理使用方法

运行报错常见问题Q&A

➡️➡️➡️ 常见问题

项目代码结构

➡️➡️➡️ 项目代码接口说明

数据持久化

支持一下

如果该项目对你有帮助，star一下 ❤️❤️❤️

手机号登录说明

➡️➡️➡️ 手机号登录说明

参考

xhs客户端 ReaJason的xhs仓库
短信转发参考仓库
内网穿透工具 ngrok

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

仓库描述

功能列表

使用方法

如何使用 IP 代理

运行报错常见问题Q&A

项目代码结构

数据持久化

支持一下

手机号登录说明

参考

About

Releases

Packages

Languages

License

luozhiguo12/MediaCrawler

Folders and files

Latest commit

History

Repository files navigation

仓库描述

功能列表

使用方法

如何使用 IP 代理

运行报错常见问题Q&A

项目代码结构

数据持久化

支持一下

手机号登录说明

参考

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages