使用分布式爬虫检索B站年度大会员的分布情况

好久没更新 blog 了。想了想大概一个星期之前弄了一个分布式爬虫。大概可以写(水一发)。感谢@ntzyz赞助了三个 VPS。

起因是因为某daailou想要看看B站到底有多少人充值了信仰。所以我就搞了个爬虫试了试。试的时候发现B站已经添加了反爬机制。所以只能利用多 IP 分布式来爬信息了。

Python 版本Python3.5,使用的包:requests,pymysql

继续阅读使用分布式爬虫检索B站年度大会员的分布情况

Django 1.11官方教程翻译 P1

 

一直以来由于英语废所以极端抵触看英文文档。感觉人还是要逼一下自己,所以就有了这篇翻译。如果有翻译错误的地方欢迎在评论中指正。

文章是本人自翻,有转载意向的请先在评论区留言并且转载后请在显眼位置注明原文链接。

继续阅读Django 1.11官方教程翻译 P1

发现更多的B站UP主——爬虫+简易数据挖掘(1)

整个项目使用python3、PHP、和MariaDB

整个项目的具体思路是:

  1. 爬取所有bilibili的用户,筛选出level6的用户,存入数据库。
  2. 处理所有UP主的投稿倾向。
  3. 用户输入自己的B站ID。
  4. 爬取该用户的关注列表。
  5. 获取关注列表中所有level6的UP主的投稿倾向。
  6. 针对不同倾向的UP主进行分类统计。
  7. 获取各个分区中和用户口味最相近且用户尚未关注的UP主,并推荐给用户。

继续阅读发现更多的B站UP主——爬虫+简易数据挖掘(1)