网络爬虫一定要学,相信以后对我写论文会后很大的帮助。这里以新疆财经大学《2018年博士研究生成绩及录取情况公示》为例。能走到今天这一步确实付出沉重的代价,这个结果或许能带给我一丝丝安慰,这里也算留个纪念吧!

加载相关R包

1
2
3
library(XML)
library(dplyr)
library(kableExtra)

抓取数据

1
2
3
4
5
6
7
8
data = readHTMLTable("http://yjsy.xjufe.edu.cn/zsgz/bsyjs/24380.htm",
                     header = TRUE, encoding = "UTF-8", 
                     stringsAsFactors = F)[[1]]

data[,-1] %>% 
  kable() %>% 
   kable_styling(bootstrap_options = "striped",
                 font_size = 12)
姓名 英语 经济学 国际经济学 笔试成绩 面试成绩 总成绩 录取情况
左喜梅 71 83 69 74.3 88.5 80 拟录取
李赫 69 72 65 68.7 60.0 65.2 不录取
克甝 69 61 62 64.0 84.8 72.3 拟录取
龙春涛 74 41 47 66.5 不录取
徐小惠 72 63 74 69.7 66.8 68.5 拟录取
楚新元 66 75 73 71.3 79.3 74.5 拟录取
孙昕 84 77 70 77.0 77.8 77.3 拟录取
庞秀萍 82 87 71 80.0 84.0 81.6 拟录取
李梦阳 80 75 68 74.3 78.3 75.9 拟录取
冯春阳 63 60 62 61.7 64.0 62.6 不录取
吾丽娜·艾尔肯 73 60 62 65.0 80.0 71 拟录取
苏伟修 61 60 63 61.3 71.3 65.3 拟录取
蔡青青 70 74 70 71.3 78.3 74.1 拟录取
孟令伟 67 64 60 63.7 62.0 63 不录取
古力扎旦·库瓦尼西 62 60 58 61.0 不录取
刘琦平 75 73 72 73.3 81.8 76.7 拟录取
赵风鸣 76 63 59 62.8 不录取
杨楠楠 60 61 68 63.0 71.8 66.5 拟录取
东木阳子 60 60 65 61.7 77.8 68.1 拟录取
李璐 74 46 50 64.5 不录取
乌云其其克 87 73 66 75.3 73.8 74.7 拟录取
马岩祥 67 70 60 65.7 63.0 64.6 不录取
刘冀 61 70 62 64.3 78.3 69.9 拟录取

筛选我和我的同学

1
2
3
4
5
6
7
8
data[,-1] %>%
  filter(`录取情况` == "拟录取") %>%      # 筛选拟录取同学
  arrange(desc(`总成绩`)) ->classmate     # 按照总成绩降序排列

classmate %>% 
  kable() %>% 
  kable_styling(bootstrap_options = "striped", 
                font_size = 12)
姓名 英语 经济学 国际经济学 笔试成绩 面试成绩 总成绩 录取情况
庞秀萍 82 87 71 80.0 84.0 81.6 拟录取
左喜梅 71 83 69 74.3 88.5 80 拟录取
孙昕 84 77 70 77.0 77.8 77.3 拟录取
刘琦平 75 73 72 73.3 81.8 76.7 拟录取
李梦阳 80 75 68 74.3 78.3 75.9 拟录取
乌云其其克 87 73 66 75.3 73.8 74.7 拟录取
楚新元 66 75 73 71.3 79.3 74.5 拟录取
蔡青青 70 74 70 71.3 78.3 74.1 拟录取
克甝 69 61 62 64.0 84.8 72.3 拟录取
吾丽娜·艾尔肯 73 60 62 65.0 80.0 71 拟录取
刘冀 61 70 62 64.3 78.3 69.9 拟录取
徐小惠 72 63 74 69.7 66.8 68.5 拟录取
东木阳子 60 60 65 61.7 77.8 68.1 拟录取
杨楠楠 60 61 68 63.0 71.8 66.5 拟录取
苏伟修 61 60 63 61.3 71.3 65.3 拟录取

筛选我的录取信息留作纪念

1
2
3
4
5
6
7
classmate %>%
  filter(`姓名` == "楚新元") ->result

result %>% 
  kable() %>% 
  kable_styling(bootstrap_options = "striped", 
                font_size = 12)
姓名 英语 经济学 国际经济学 笔试成绩 面试成绩 总成绩 录取情况
楚新元 66 75 73 71.3 79.3 74.5 拟录取

根据公示结果,有23人参加考试,录取了15人,录取率为65.22%,虽然竞争不算激烈,但是我曾今白天上班写代码,晚上复习考博,我能被录取也算是对我的认可吧!至少没有留下遗憾。万里长征走出了第一步,我深知上课内容不一定是我感兴趣的,但是没有人能阻挡我自学的脚步。带了很多书,大部分都是关于R的,唯一可能需要克服的是我的懒惰,赢在执行!