||
统计数据类型的numerical data, categorical data和ordinal data。Types of Statistical Data: Numerical, Categorical, and Ordinal
Numerical data 具有实际测量的物理意义,比如人的身高、体重、IQ、血压等等,统计学中,Numerical data也称作quantitative data,Numerical data又分为两种类型:
1、离散型数据(Discrete data)代表数量是可以被数出来的,它可能是有限的,也可能是无限的。比如掷硬币100次人头朝上的次数(次数范围为0到100,是有限的);又如,掷硬币直到有100次是人头朝上的次数(次数范围为100到无穷大,是无限的)。
2、连续数据代表测量的结果是不能被数出来的,它只能被区间所描述。比如桶里有20L水,随机倒掉一部分,剩余的水量为[0,20]区间内的某一个值,9.4L,9.41L,9.416789L等等,任何在[0,20]区间内的值都有可能。
Categorical data代表了被描述对象的性质,比如一个人的性别、婚姻状况、家乡等等, Categorical data 可以用Numerical data来表示,比如说描述性别时,1代表男,2代表女,但是这些数据并没有数学意义,你不能拿他做运算。Categorical data也叫作qualitative data或是Yes/No data。
categorical变量是名称(names)或者标签,其中的nominal是没有排序、好坏之分的变量,比如学生的性别:男和女。而ordinal是有排序(order)的,比如学生的成绩:A、B、C、D等。
numerical变量你可以简单理解为数字(但要是measureable的)。discrete变量是整数。例如顾客在超市里买的东西的数量,没有半个之说。continuous变量是一段范围内的任意值,比如顾客在超市里呆的时间,可以是37分钟25秒03毫秒,也可以是一小时整。
这些分类有什么用呢?也举个简单的例子,比如给了你1000个样本,每个样本有100000条特性,如何降维?对于Numerical data,可以使用自相关性,去除相关性较差的特性,对于 Categorical data ,可以使用卡方检验(独立性检验),去除独立性较强的特性。
Categorical Type Data顾名思义是用来分类的数据,例如性别,肤色等,没有先后顺序之分。而 Ordinal Type Data与之类似,不同的是,有先后顺序之分。例如(低,中,高)小学、初中、高中。
Numerical Type Data顾名思义代表的是一些需要测量和数出来的数据,例如,身高、体重等。