定性数据和定量数量
数据被划分为各种类别,用以描述某类的性质和特征。因为,类比数据也称为定性数据。关于定性数据,记住一个重点:不能将数据值理解为数字。
数值型数据不同,它所设计的是数字。数值型数据中的数值具有数字的意义,但还涉及计量或计数。由于数值型数据描述的是数量,所以也称为定量数据。
- 频数是一种统计方法,用于描述一个类别中有多少个项。
- 饼图能很好地体现基本比例。
- 条形图更灵活、更精确。
- 数值型数据设计的是数字和数量;类别数据涉及的是表述和质量。
- 水平条形图用于展现类别数据,尤其是在类别名称太长的时候。
- 垂直条形用于展现数值型数据;若类别名称不长,也用于体现类别数据。
- 可以在一张条形图上体现多批数据,具体做法可由你选择。可以使用堆积条形图,让相互关联的长方形并列显示,借此比较频数;可以使用分段条形图,把长方形一个一个衔接起来,借此显示比例和总频数。
- 条形图标度可以是百分数,也可以是频数。
- 每张图都变化多端。
- 频数密度指的是分组数据中的频数的密集度。计算方法如下:频数密度=频数/组距
- 直方图是一种专门用于体现分组数据的图形。它看起来很像条形图,但每条长方形的高度等于频数密度 — 而不是频数。
- 绘制直方图时,每个长方形的宽度与其分组宽度(组距)成正比例。长方形按照连续的数字标度绘制。
- 直方图中的每个组的频数通常长方形面积求出。
- 直方图的长方形之间没有间隔。
折线图应只用于展现数值型数据,不应用于类别数据。原因是,对类别数据进行比较是有意义的,但为其绘制趋势线却没有意义。只有在基于某些数值型单位(比如时间)对类别进行比较时才使用折线图。这时,每一个类别都用一条独立的线表示。
- 累积频数即到某个特定数值为止的总频数,即频数等累积总和。
- 通过累积频数图,可基于累积频数找出每组数据的上限。
- 需要提现趋势时请使用折线图,例如基于时间的趋势。
- 可用折线图显示多批数据。每批数据各用一条线表示,请确保能清楚识别每一条线。
- 由于通过折线图很容易看出趋势形状,因此可用折线图进行基本的预测。只要延长趋势线即可进行预测,但要尽量保持基本形状。
- 不要使用折线图显示类别数据数据 —— 除非要显示每一个类别的趋势;例如基于时间的趋势。如果要显示每一个类别的趋势i,要为每一个类别画一条线。
均值
𝝻 = ∑x/ n
异常值:与其它数据格格不入的极高或极低的数值。
当异常值将数据向左右或向右「拉」时即产生偏斜数据。
中位数
中位数永远处于中间,它是个中间值。
求中位数三步法
- 按顺序排列数字:从最小值到最大值。
- 如果有奇数个数值,则中位数为位于中间的数值。如果有 N个数,则中间数的位置为 (n + 1) /2 .
- 如果有偶数个数值,则将两个中间数相加,然后除以 2 。中间位置的算法是: ( n + 1) / 2。两个中间数分别位于这中间位置的两侧。
Q: 如果确实想用均值,哪怕存在偏斜数据,还能用吗?
A: 可以用,而且大家经常这么做。不过,这时均值无法最恰当地体现典型值。你需要使用中位数。
Q: 这是你的看法,但均值的主要愿意的确是给出典型值,均值是个平均数。
A: 均值带来的危险是:它会给出一个不存在于数据集中区的数值。以功夫为例:如果你要加入这个班,并随机挑出一个人,很可能这个人是在 20 岁左右,因为班上大多数人的年龄都在 20 岁左右——只看均值无法形成这种印象,求出中位数会让你对数据更有准确的预期。
但即时是中位数,有时也会得出不存在于数据集中区的值。有时候,为了正确地指出典型值,需要使用各种各样的方法。
Q:这么说中位数比均值更好?
A:有时候中位数比均值更合适,但这并不是说它更好。大多数时候,你会需要使用均值,因为均值的优势通常远胜中位数,均值对于抽样数据来说更稳定。
Q:对于类别数据该怎样使用均值或中间值呢?
如果数值是对称的,均值和中位数会相等,否足它们往往不同。一般规律是:如果存在异常值,那么均值往往超着异常值移动,而中位数则停在原来的地方不动。
现在请认认真真考虑如何以最佳方式表示小鸭呱呱游泳班的代表年龄。下面是数据提示:
| 年龄 | 1 | 2 | 3 | 31 | 32 | 33 |
|---|---|---|---|---|---|---|
| 频数 | 3 | 4 | 2 | 2 | 4 | 3 |
- 为什么认为均值和中位数都不适用于这些数据?为什么均值和中位数都具有误导性?
对于以上数据,均值和中位数都具有误导性,因为两者都没有表示出班级中的成员的典型年龄。均值说明有一些十几岁的青少年参加了游泳班。实际上一个也没有,中位数也有同样的问题,但如果有别的人加入班级,中位数会大幅度波动。 - 如果必须挑选一个年龄来代表这个班级的年龄,这个年龄是多少?为什么?
的确不太可能能调出一个完全代表班级的年龄。这个班级实际上是由两批年量组成的:一批是孩子的年龄,一批是家长的年龄。确实无法用一个数字同时代表两批年龄。 - 要是能挑选两个年龄呢?你会选哪个年龄?为什么?
由于这些数据看上去包括两批数据,挑选两个年龄来代表班级年龄是有意义的,一个年龄代表孩子们的年龄,一个是代表家长们的年龄。我们会选择 2 和 32, 因为这两个年龄组的成员最多。
众数
众数是一批数字中最常健的数值,即频数最大的数值。与均值和中位数不同,众数必须是数据集中的一个数值,而且是频繁出现的数值。
如果有一个以上的数值具有最大频数,则每一个这样的数值都是众数。
如果一批数据有两个众数,则我们说这种数据是双峰数据。
众数不仅能用于数值型数据,还能用于类别数据。事实上,众数是唯一能用于类别数据的平均数。在处理类别数据是,众数是最常出现的平均数类型。
具有最高频数的组被称为众数组。
求众数三步法:
- 把数据中不同或数值全部找出来。
- 写出每个数值或类别的频数。
- 挑出具有最高频数的一个或几个数值,得出众数。
Q: 你认为总数在什么情况下最有用?A: 当众数的数据较少时,或者,当数据为类别数据,而不是数值型数据时,均值和中位数都不能用于类别数据。
Q: 众数在什么情况下最无用?
A:当众数很多时。
众数必须存在于数据集中,众数时唯一能用于类别数据的平均数。
| 平均数 | 计算方法 | 何时使用 |
|---|---|---|
| 均值(µ) | 以下任一算法均可 ∑ x/n 或 ∑f𝓍/∑f | 在数据非常对称,且仅显示出一种趋势时使用。 |
| 中位数 | 将所有数据按照升序顺序进行排列。如果有奇数个数值,则中位数位中间的数值;如果有偶数个数值,则中位数由两个中间的数值相加再除以 2 得到的结果。 | 在数据由于异常值而发生偏斜时使用。 |
| 众数 | 选出具有最大频数的一个或几个数值。如果数据看看分为两组,则为每组找出一个众数。 | 在遇到类别数据时使用。当数据可以分为两个或更多组时使用。 |
没有评论:
发表评论