# Spiders
**Repository Path**: pluto0930/Spiders
## Basic Information
- **Project Name**: Spiders
- **Description**: 各种爬虫
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-11-15
- **Last Updated**: 2020-12-19
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# Spiders
1. 汽车之家爬虫:使用scrapy框架,爬取宝马五系各个部位所有图片。
2. B站爬虫:
+ 用户基本信息爬虫:使用selenium控制Chrome浏览器,用BeautifulSoup解析网页,获取用户昵称、等级、会员、投稿数、频道数、收藏数、订阅番剧名、关注数、粉丝数、生日,并存入mysql数据库。
+ B站弹幕:主要是通过检查网页加载时下载的文件,来获得传输弹幕的网址,从而爬取视频的弹幕。
3. 腾讯视频弹幕爬虫:同理,找到下载弹幕的网址、弹幕更新的规律是关键。
4. 微博爬虫:
①用户全部微博爬虫:2种写法
+ zyx_weibo.py:通过weibo.cn获取数据,selenium自动登录、requests库进行访问,Beautifulsoup解析网页内容,最后将用户的微博内容、点赞数、转发数、评论数保存至csv文件。
+ w.py:可通过传入uid list爬取多个用户微博
通过m.weibo.cn获取数据。
通过def __init__()设置爬取原创/转发微博,起始时,是否写入mongodb、mysql,是否下载图片、视频,设置需要爬取的用户id。
通过def get_user_info()获取用户信息,如用户uid、用户名、性别、粉丝数、个人简介、头像、等级等。
def parse_weibo()对返回的微博网页内容进行解析。
②微博话题爬虫:通过关键词检索微博并爬取。
+ 使用fake_useragent切换UserAgent
+ 使用的微博接口为weibo.cn
+ 爬取到约130页会抓不到数据
+ 可设置是否爬取原创,起始时间,将数据存入csv或mysql数据库
+ 2020.4.5 更新可配合话题爬虫使用的微博评论爬虫,对话题爬虫爬到的每一条微博获取评论。
③微博评论爬虫:使用scrapy框架,可以对微博话题爬虫爬取的每一条微博,逐一爬取微博的评论,但由于微博限制问题,获取的评论数量有限。