MITx之The Analytics Edge 结业报告:深夜问题多,平安回家最好

sonnywang 2014-05-18 12:07


漫长的11个礼拜终于结束了,刚刚挣扎著完成了MITx的数据分析课程The Analytics Edge,总算放下心里一块石头,要训练自己往「坚持」的道路迈进,不再轻言放弃。这门课虽然漫长,但是收获挺充实的,之前的心得可以看我的「MITx的魔球课程:Analytics Edge之期中心得」。


一门人人都可学的通识课

这其实是一门「通识课」难度的课程,没有什么高深数学,也不需要编程背景,基本上只要高中毕业,并且不惧怕对电脑下指令的人就可以胜任。虽然说难度不高,但是作业很多,每个礼拜会教一种数据分析的方法,搭配四个练习作业,所以要花非常多时间,课程结束的exit survey有提到,他们考虑下次要把作业缩减成三个,我觉得这样虽然可以减轻学生load,但是也减少了练习的机会,好坏参半吧。

之前畅销的商业科普书「大数据」里面讲到了不少数据发挥威力改变商业或社会的案例,这门课也可以看成是这类书籍的「互动版」或是「hands on companion」。当然课程中没有讨论到社会各层面的影响(有另外一门edX的课叫做「Big Data and Social Physics」是讨论在社会层面的意义),不过单就介绍各种演算法在各领域的应用,也能帮助理解big data在各领域的的实际应用,将想像画面确实化。

深夜问题多,平安回家最好

期中之后介绍的课题包括了怎么将数据视觉化,以及怎么把某个领域的问题转变成线性方程式去求最佳解。将数据分析之后视觉化,能让真正有决策权和诠释能力的人类了解分析的结果,课程中提到了LAPD(美国洛城警方)目前正在利用数据分析技术来作预防性警力投射(Predictive Policing),试图将资源利用最佳化,下图可以看到LAPD内部的资料中心还有模有样:


如果把犯罪热点和高峰时间都标示出来,则警力可以做有效的配置,而不会浪费资源在犯罪率低的地点或时间上。下图ㄧ是把Boston的车辆窃案热点标出,下图二则是芝加哥的犯罪时间高峰,可以看到周末凌晨最危险,所以周末晚上把酒狂欢之后,早点回家吧!



所以政府应该也要把这些资料视觉化:例如犯罪热点,淹水热点,火灾热点等等。这样搞不好还有区域性打房效果。说到这个「Predictive Policing」的案例,美国竟然有这种商业营运的公司,例如课程中提到的PredPol这家公司,就是专门做这种生意的,好神奇(好一个环保又高科技又超高毛利的行业啊)。当然这会让人联想到Tom Cruise的电影「关键报告(Minority Report)」,基本上就是一种被立法使用的Preditive Policing,所以如果在Google打「Predictive Policing Minority Report」,会发现还蛮多人将之联想起来。


划分选区的玄机

第二个提到的技术就是Linear/Integer Programming,简单说来就是怎么把问题转变成可以求解的线性方程式,提到比较多的是商业上的应用。例如交友网站eHarmony.com透过注册者填写的心理问卷,将个人特质数据化之后,再设计一些配对的必要条件(称作constraints),这些constraints和想要达成的目标(任意两人配对分数)可以写成一系列的多变量线性方程式,而这些方程式会有最佳解(如果有解的话),这就可以拿来当做配对基础。另一个案例则是农场主人怎么在多个通路选择性地铺货才能将利润最大化,感觉非常实用。病房和球赛的排程也都利用到了这个技术。

印象比较深刻的是选区的划分也可以转变成线性方程式来求最佳解。美国一个州有好几个选区,横跨不同的郡(county),一个选区内得票数高的政党,就赢了那个选区。然而选区划分是人为的,可以被操弄的,甚至还有个专有名词叫做「gerrymandering」。所以如果透过将这个问题模拟成线性方程式,则有机会可以得到对某个政党有利的选区划分的最佳解。下图说明了不同划分方式会有不同的选举结果(假设蓝色是民主党,红色是共和党):


不过要求得这个最佳解,需要另一个对投票结果的预测或是历史资料来形成线性方程组,所以也存在很大变量,但是下次如果听到某个政党提出选区重新划分,或是投票制度的改变,心里就要警觉背后的目的是什么,绝对不只是表面上的改革的好处,人总是私心的动物,更何况是一群人?


期待第二次开课

这门课在exit survey有提出之后课程可能加入的分析技术,包括Neural Networks之类的,倒是令我还蛮期待的。这门课虽然算是很入门的通识课,不过能让学生对各领域的问题和解决方案达到一种广泛性的理解,不牵涉到任何深奥的知识,算是非常不错的课程设计。教学品质方面可以说极优,step by step的引导方式,学生几乎不会迷失,把所有audience当成没有背景的初学者来教,这门课算是做到了。学期成绩是9个作业+1个期末作业的总和,所以就是不停的练习练习练习。开头说挣扎著把final考完,挣扎之处在于如果已经拿到了总成绩80分,是否还要继续花一两个小时把所有习题和考题做完呢?最后决定还是不要虎头蛇尾吧,算是个人的完美主义作祟,总想要拿到高分(又不是在学校,没啥意义),尽管过关条件只要55%。

这课程另一个特別地方在于占了总成绩15%的Kaggle competition。课程在Kaggle.com开了一个竞赛,让学生去试着用所学到的技巧去学习和预测一组数据,但是可惜的是我完全没时间搞这个,花了三天时间搞不出什么名堂,直接放弃交差了事,在一千多人中排名一千出头!@@。还好老师送分给了80%,算是我师慈悲啊

最后附上学习过程,密密麻麻的,但是完成还蛮有成就感的。


所有评论(6)

  • changepoint 1楼
    changepoint

    我也跟风帖一个...过线之后就懒得做final了




    2014-05-18 12:16 举报
  • sonnywang 2楼
    sonnywang
    引用@changepoint 的话:我也跟风帖一个...过线之后就懒得做final了

    其實我也掙扎,因為實在很花時間,把progress列出來也是有一些副作用,就是過線容易想要放棄

    2014-05-18 12:19 举报
  • changepoint 3楼
    changepoint
    引用@sonnywang 的话:其實我也掙扎,因為實在很花時間,把progress列出來也是有一些副作用,就是過線容易想要放棄

    我觉得看想从中学到啥吧,如果想多练习课堂学到工具的话,做题目确实是一个很好的选择。

    我在这门课最大的收获就是知道了很多R pkgs (SnowBallC, tm,rpart.plot, catools)等,以前要遇到这样的问题自己写一个function或者用python处理掉,了解这些pkgs在工作上确实省事不少。实际处理数据的经验不是我要学习的,花大量时间重复练习还不如学点别的东西有用

    2014-05-18 12:27 举报
  • sonnywang 4楼
    sonnywang
    引用@changepoint 的话:我觉得看想从中学到啥吧,如果想多练习课堂学到工具的话,做题目确实是一个很好的选择。我在这门课最大的收获就是知道了很多R pkgs (SnowBallC, tm,rpart.plot, catools)...

    是啦,所以他們要把作業份量減少,的確是看個人需求。他的作業重複性練習太高了,做到最後會有點無趣

    2014-05-18 12:32 举报
  • wzyer 5楼
    wzyer

    不觉得Kaggle competition才是精华吗……

    2014-05-20 11:35 举报
  • dingrk6 6楼
    dingrk6
    引用@changepoint 的话:我觉得看想从中学到啥吧,如果想多练习课堂学到工具的话,做题目确实是一个很好的选择。我在这门课最大的收获就是知道了很多R pkgs (SnowBallC, tm,rpart.plot, catools)...

    您好,请问哪里可以下载到WHO.csv数据集,在WHO官网下了一个跟课程当中讲的不一样。另外课程里面后续的资料在哪里可以下载到,刚开始学习,还请大家多多帮助,感激不尽

    2014-08-11 09:35 举报
课程全部笔记
The Analytics Edge

The Analytics Edge分析学的优势

评分:
8 (25人评价)
时间:
2017-06-06
难度:
一般

sonnywang在本课程的其他笔记

京ICP证100430号    京网文[2015] 0609-239号    新出发京零字东150005号     京公网安备11010502007133号 ©2017果壳网

关于我们 新手指南