python实现爬虫统计学校bbs男女比例(一)

一、项目需求

前言:bbs上每个id对应一个用户,他们注册时候会填写性别(男、女、保密三选一)。

经过检查,bbs注册用户的id对应1-300000,大概是30万的用户

笔者想用python统计bbs上有多少注册用户,以及这些用户的性别分布

顺带可以统计最近活动用户是多少,其中男、女、保密各占多少

活动用户的限定为“上次活动时间”为 2015年

二、最终结果

性别信息保存在文本里,一行表示一个用户的信息,各列分别表示
【行数,id(涂掉了),性别,最后活跃时间】

三、实现思路

用户性别信息在哪个页面?

得到下面个人主页

把后面的uid=256730数字改成其他数字,就可以得到其他人的主页。

另外,如果上面的链接无法得到性别,可以再通过这个链接,也是修改uid可以访问其他人主页。

http://rs.xidian.edu.cn/home.php?mod=space&uid=256730&do=profile

四、数据如何存储?

用数据库还是其他方案?

为了阅读方便,我们考虑用文本文件存储。

30万的用户存储在一个文本里会导致文本过大。如果程序被意外终止,30 万的用户数据需要重新爬取。

我们我们考虑一个文本里存放1000条记录,理论上可以用30个文本来存放30万条数据。

文本名称为correct1-1001.txt correct47001-48001.txt,注意:1-1001是[1,1001),包含1,不包含1001

1、使用正则匹配找出性别

查看网页源代码

性别女
还可以找到活动时间–>
上次发表时间2015-11-4 20:04

抱歉,您指定的用户空间不存在

我们可以利用re模块来进行正则匹配

sexre = re.compile(u’em>\u6027\u522b(.*?)\u4e0a\u6b21\u6d3b\u52a8\u65f6\u95f4(.*?))\u62b1\u6b49\uff0c\u60a8\u6307\u5b9a\u7684\u7528\u6237\u7a7a\u95f4\u4e0d\u5b58\u5728性别(.*?)\u6027\u522b(.*?)