利用 Coursera API 做了一些数据分析~

Itsukay

(没有导言,我最讨厌写导言)

由于没有找到自主学习(On-demand) 课程的 API,所以目前只能对已有的按学期开课的数据进行分析。为了表示简单,以下“课程”都表示:

Coursera 上有学期的课程,不包括自主学习(On-demand)

Coursera 上有学期的课程,不包括自主学习(On-demand)

Coursera 上有学期的课程,不包括自主学习(On-demand)



到目前为止,Coursera 上总共有 826 门课程, 2284 学期(也就是开课次数),课程类别 25 种,共有学校(或机构)117 所,教师 1204 名。

结果按四个类别来划分,分别是:

  • 课程类别
  • 课程状态
  • 学校
  • 课程内容

# 课程类别

说明:

  • 课程(Courses): 表示课程数量
  • 学期(Sessions):可以理解为开课次数,包括课程第一次开课。
  • Coursera 上很多课程都是分为多个类别的。比如 Probability (概率)这门课程,Coursera 把它分到了 Statistics and Data Analysis, Mathematics, Social Sciences, Economics & Finance, Engineering。



1. 在这 826 门课程中,课程在各个类别中的占比。


  • 可以看出人文社科类的课程依然是最多的。
  • CS(Computer Science,计算机科学),Coursera 给它们还分了子类别,如果将 CS 的加起来,是占比最多的类别。
  • Teacher Professional Development 应该是受政策影响,所以比较多。

2. 学期在各个类别中的占比。




为了不混淆,说明一下。一门课程可能会有几个学期(也就是开几次课)。比如《概率》是数学类别的课程,开一次课,那么数学这个类别上的学期数就加一,再开一次,就再加一。

3. 将学期数和课程数量用 Bar 图来显示:


4. 用公式:(开课次数 - 课程数量)/课程数量,得到每个类别下课程的平均重开次数。


  • 在 Bar 图中可以看到 Statistics and Data Analysis 课程数量并不是很多,但是有很多个学期,应该受到了 JHU 的数据科学课程每月都开课的影响。
  • 数据科学课程也归类到了 Mathematics 上,所以 Mathematics 的重开率并没有你们想象得那么高。
  • 需要注意到 Humanities 和 Social Sciences 虽然课程数量和学期数上都比较高,但是平均开课次数还不到 1。可能是大部分的人文社科课程开了一次课以后就变为了自主学习课程。



# 课程状态

5. 所有的学期中,新开课程占 36.2%,重开的课程占 63.8%。


6. 在某些课程开始的时候,有多少课程在睡觉或者正在开课中呢?

  • Total:表示课程总数。
  • Start:表示这门课程登记在这个月开课。


  • 同学们快告诉我为什么我会弃课!因为开学的时候 MOOC 爆发得最猛啊!
Coursera:9月开一堆给你选,然后你弃一堆。10 月份再来一堆,背负着9月弃课的罪恶感,你还弃?

对不起我十月份月考😢



  • Coursera 的课程总数增长看起来非常的平稳,但是这里没有课程的质量表现,可以参考 MOOC学院的评分来 判断质量是否下降。(有空再做。)

注:

  1. 由于有些课程没有登记时间,所以总计不满 826门。
  2. 虽然这里有显示2015年11、12月份的课程,但是不确定以后会不会添加,以做统计时的数据为准。



# 学校

7. 学校第一次开设的 MOOC 属于哪个类别?


office of digital learning: 校长我们开一门MOOC好不好啊

校长:好啊,人文类成本低,就先上它吧。

office of digital learning:但是这么早就说开人文课程,会不会……

  • MOOC 的课程最早可能都是计算机科学偏多,但是后来的学校可能大部分都考虑人文、经管等课程先行。



8. 学校会开设多少门课程?


9. 学校会重开多少门课程?


注:我没有学过什么research method,不知道这个区间应该怎么划分,划分得比较混乱……



10. 开课数量前 20 的学校。


  • 感动 Coursera 之最佳开课学校:UPenn 宾夕法尼亚大学。
  • 外国人在 Coursera 上还是很尽心尽力的,比如 Peking University。不过隔壁清华自己搞了个 学堂在线,开个上百门课程,不知道高到哪里去了。
  • 排行榜上公立学校偏多,是政府支持?还是希望通过 MOOC 解决什么问题?

11. 学期数前 20 的学校。(请准备好钛合金眼。)


其它学校:说好的一起拯救世界呢……

JHU: there is an old Chinese proverb that says keep calm and get rich...sorry, and MOOCs on.

  • 可以看到这里的学校和上一个图表上的学校重合率还是很高的。



# 课程内容

12. MOOC 覆盖了大学课程的多少内容?

这里用的方法比较模糊,仅仅是参考。

1)将 Coursera 的课程类别 人工的、大致的 和 MIT OCW 上的类别对应。

2)提取固定类别下的所有课程的标题,将标题内重复、无效的单词删除。

3)将 MIT OCW 固定类别的课程标题做相同的操作。

4)在提取出来的 Coursera 词库中匹配 MIT 的词库,匹配到的数量为 C,MIT 词库单词总数为 M,则:比率 = C/M

这个计算方法是非常模糊的!只能大概的参考!


  • 需要注意的是,研究生课程(Grad)的匹配率看起来很高,这个可能是因为专业内关键词重复率比较高、课程少。
  • 化学在多个图表中都表现不好,要在 MOOC 上教炼金术吗?



13. 提取所有标题中出现最频繁的前30个词。


  • 一门课程可能有几次学期,也就是说这门课程的标题可能会出现几次,比如标题为 intro to cs 这门课程有5个学期,那么 intro 就出现了5次。
  • 总学期数约为2300,introduction 出现的次数大概也是 230,也就是说大概有十分之一的学期都是入门级别的,这还不包括其它表示入门的单词(如 fundamental)以及在标题中没有明确表示是入门级别的课程。
  • 计算机相关的词汇傲视群雄。尤其是 data,这个概念火了以后,到处都是相关的内容。



本来打算结合 MOOC 学院的评分系统做一些分析,不过我没有数据,还要自己爬……以及,edX 的 API 简直是新大陆一样,有空去玩一下。

在状态不是很好的这几天写的程序代码和数据分析,另外个人没有学过系统的研究方法等知识,水平有限,错误是肯定有的,如果有发现,请指正批评,谢谢。

这个分析还是非常基础的!同学们还可以做更多有价值的分析,期待诸君的努力。

所有评论(16条)

  • mookrue 1楼
    mookrue

    這篇超厲害啊!!!! 我崇拜你!!!!!

    立刻秒回我剛剛那篇研究裡的疑問:到底微博討論MOOC的發文有放寒暑假是開課者還是學習者造成的 (開課者XD)

    人文社會科學的課後來居上讓我現在處於一種複雜的情緒當中

    >>覺得意外:如果說Coursera吸引在職進修者嗎,理工課程應該比較有用啊?而且好像對線上學習的批評主要來自人文社科領域?
    >>覺得合理:大規模學習者未必都有良好的理工背景可以修理工課,所以人文社科會受到更多人歡迎。

    但我覺得人文社科要是要開的好,其實成本不會比較低,因為要補充多樣資源又要帶討論什麼的,但如果只是演講課那種就簡單很多~

    先想到這些,感覺之後還會有想補充的,辛苦你啦!

    2015-10-05 22:08 举报 评论
  • Cedric_Wang 2楼
    Cedric_Wang

    赞!

    2015-10-05 23:08 举报 评论
  • 依然很拉風 3楼
    依然很拉風

    大神请收下老夫的膝盖!

    2015-10-06 09:35 举报 评论
  • 玛雅蓝 5楼
    玛雅蓝

    楼主!请收下我的膝盖!

    2015-10-06 21:00 举报 评论
  • 宋可儿 6楼
    宋可儿

    赞,大神请收下我的膝盖……

    喜欢图表,言简意赅。

    2015-10-07 00:13 举报 评论
  • boomcha 7楼
    boomcha

    挺好的,只是图上的文字太小了,能做成pdf下载吗?

    或者点击可以放大图片或显示原图?

    2015-10-08 10:35 举报 评论
  • 草间每文 8楼
    草间每文

    贊的,但是圖有點看不清楚,很想利用一下,有原圖嗎?

    2015-10-08 11:32 举报 评论
  • Itsukay 9楼
    Itsukay
    引用@boomcha 的话:挺好的,只是图上的文字太小了,能做成pdf下载吗?或者点击可以放大图片或显示原图?
    引用@草间每文 的话:贊的,但是圖有點看不清楚,很想利用一下,有原圖嗎?

    右键点击图片,open image in new tab,然后看到地址栏,把问号以后的字符串去掉~

    不过绘图有点不严谨,如果要引用可以私信我数据,自己绘一张好的……

    2015-10-09 12:10 举报 评论
  • Itsukay 10楼
    Itsukay
    引用@mookrue 的话:這篇超厲害啊!!!! 我崇拜你!!!!!立刻秒回我剛剛那篇研究裡的疑問:到底微博討論MOOC的發文有放寒暑假是開課者還是學習者造成的 (開課者XD)人文社會科學的課後來居上讓我現在處於一種複雜的情緒當...


    如果把 CS 所有的子類別加起來,是課程數最多的類別XD

    可以看到一開始人文社科的增長是很少的啦。人文社科課程的開課院校分佈和CS的也不一樣。

    第一次開課選擇什麼類別的課程和類別內課程的總量相關性不大啦

    2015-10-09 15:57 举报 评论
  • dreaming_hz 11楼
    dreaming_hz
    引用@Itsukay 的话: 如果把 CS 所有的子類別加起來,是課程數最多的類別XD可以看到一開始人文社科的增長是很少的啦。人文社科課程的開課院校分佈和CS的也不一樣。第一次開課選擇什麼類別的課程和類別內課程的總量相關性不大啦

    @Itsukay 奉上膝盖求API

    2015-10-09 18:28 举报 评论
  • Itsukay 12楼
    Itsukay 2015-10-09 18:39 举报 评论
  • dreaming_hz 13楼
    dreaming_hz
    引用@Itsukay 的话:https://tech.coursera.org/app-platform/😊

    哈哈,棒,谢谢Itsukay

    2015-10-09 18:53 举报 评论
  • mookrue 14楼
    mookrue
    引用@Itsukay 的话: 如果把 CS 所有的子類別加起來,是課程數最多的類別XD可以看到一開始人文社科的增長是很少的啦。人文社科課程的開課院校分佈和CS的也不一樣。第一次開課選擇什麼類別的課程和類別內課程的總量相關性不大啦

    喔~原來是第一次開課! 那我之前誤會了XD

    2015-10-12 16:52 举报 评论
  • Cathy.Lee 15楼
    Cathy.Lee

    收下膝盖!【扑通

    2015-12-16 21:02 举报 评论
  • zzds 16楼
    zzds

    厉害啊


    2016-05-15 23:08 举报 评论
  • _Smile_131 17楼
    _Smile_131

    能否请教下这个数据怎么获取?

    2017-05-02 08:07 举报 评论

你的评论

社区首页

京ICP证100430号    京网文[2015] 0609-239号    新出发京零字东150005号     京公网安备11010502007133号 ©2017果壳网

关于我们 新手指南