week 2

鱼星草 2014-05-25 23:12

连续型数据特征值计算:

未处理的原始数据raw data的特征值

  1. 集中趋势 Central Tendency of Location
  2. 分散趋势 Dispersion
  3. 偏态 Skewness
  4. 峰度 Kurtosis

[1]集中趋势

一组数据都有向中间集中的趋势,拿出一个数字做代言人,最常用的就是3M数值:平均值mean、中位数median、众数mode

当数据中没有离群值时,用平均数就很合适,但是如果有离群值平均数就会有很大误差


[2]分散趋势

有三个常用指标,全距Range、变异数Variance、标准差Standard Deviation

R 最大值-最小值

计算非常简单,但是缺点是①当有离散值时会有较大的误差,②样本数较多时就丢失了宝贵信息:中间数值的分散情形

变异数就精准多了

注意群体是N 样本是n-1

这是由于两个数据源的自由度不同,样本中先计算了x̄(这块不太明白)

标准差就是变异数的开平方

[3]偏态系数

我们想看到数据分布什么形态

通过比较平均数和中位数的大小能大概知道是左偏还是右偏,但不够精确,到底是差多少单位可以称得上是左/右偏。所以引入了偏态系数g1(不必记公式)

[4]峰度系数

以上这些特征值都可以用软件计算出来:excel/minitab--选取叙述统计

——————————————————————————————

计算出这些数字之后如何用这些数字“说话”

  1. 经验法则(又称68%-95%-99.73%法则)

经验法则仅适用于钟形分布(应该就是正态分布吧?)所以必须先用软件计算出偏态系数和峰度系数看是否接近0来确保能运用经验法则

2. 盒型图(又称五指表摘要图)

特点:快速找到特征值、比较各组之间的数据、辨认出离散值

所有评论(3)

  • zhengdamao 1楼
    zhengdamao

    你的笔记做的真好,向你学习

    2014-05-29 09:29 举报 回复
  • zhengdamao 2楼
    zhengdamao

    能否把所有的笔记都发了,辛苦了

    2014-05-29 09:50 举报 回复
  • 鱼星草 3楼
    鱼星草
    引用@zhengdamao 的话:能否把所有的笔记都发了,辛苦了

    呃 因为我是现在才开始学的。。只学了两周的课程 所以没有别的笔记可发了 哈哈(=^・^=)


    2014-05-29 11:50 举报 回复

你的评论

课程全部笔记
统计简单学

统计简单学

评分:
9 (82人评价)
时间:
2015-03-16
难度:
简单

鱼星草在本课程的其他笔记

京ICP证100430号    京网文[2015] 0609-239号    新出发京零字东150005号     京公网安备11010502007133号 ©2016果壳网

关于我们 新手指南