Getting and Cleaning Data签名认证

获取和整理数据

关注 (4450) 学过 (81) 晒证书

7.1 (49人)

  • 知识量:7.8
  • 教师参与:6.6
  • 趣味性:6.4
  • 课程设计:7.1

难度:一般

开始时间:2017-07-24

持续时间:4.0周

去上课 申请课程签名认证>

达人推荐

shine_zhou

shine_zhou

普通公民

获得证书 3

作为后面处理数据的基础, 这门课显得很必要了, 而且从第三门课开始, 各门课程有种相辅相成的意思了, 可以互相巩固, 虽然趣味性少了些, 但是收获还是有的. 有了R programming的基础, 这门课不算难, 但是作业还是需要额外的时间的自我探索.

你可能感兴趣换一换

学习如何从多渠道获取数据和清洗数据。这是约翰霍普金斯大学数据科学专项系列课程的第三门课。
在处理数据之前,你需要获取数据。本课介绍多种获取数据的基本方法。课程介绍通过网络、APIs、数据库和同事获取不同格式数据的方法。课程还会介绍数据清洗的基础知识以及如何把数据变“整洁”,整洁的数据能大幅提升下游数据分析的速度。课程还将介绍一个完整数据集的组成部分,包括原始数据、处理指令、码书(codebooks)和处理后的数据。课程涵盖收集、清洗和分享数据所需的基础知识。


课程大纲
课程结束后,你将学会从多渠道获取数据。你将知道整理数据和分享数据的原理。最后,你将理解并能够使用基本工具来进行数据清洗与处理。


先修要求
学习者需要先完成以下两门课程,或具备相应的知识:
数据师的工具箱(Data Scientist’s Toolbox)
R编程(R Programming)


课程形式
课程包含每周的教学视频和小测验,以及期末的同学互评项目。
作为课程的一部分,你需要注册一个GitHub帐号。GitHub是代码协作共享和编辑的工具。在本课以及本系列的其他课程当中,你需要提交你放在GitHub上的公开文件链接,以进行同学互评。如果你担心隐私问题,你可以注册一个匿名的GitHub帐号,并注意不要透露那些不想让互评同学得知的信息。


常见问题解答

本课跟数据科学专项系列的其他课程有何依赖关系?
我们制作了九门课的相互依赖图表,方便你参考:
https://d396qusza40orc.cloudfront.net/rprog/doc/JHDSS_CourseDependencies.pdf

完成课程后,我能获得修课证书吗?
能,顺利完成本课程的学生将获得由授课老师签发的修课证书。

我需要什么资源来学习本课?
你需要有一个可用的GitHub账户,并且安装好最新版的R和RStudio。

本课在数据科学专项系列的什么位置?
这是本系列的第三门课。我们强烈建议你先学习“数据师的工具箱”和“R编程”。


翻译:@肥叉烧
编辑:@玛雅蓝

所属专题

相关课程

京ICP证100430号    京网文[2015] 0609-239号    新出发京零字东150005号     京公网安备11010502007133号 ©2017果壳网

关于我们 新手指南