150株鸢尾花,有刚毛的,变色的及弗吉尼亚三种类型。不同类型的鸢尾花他们在花萼花瓣长宽有不同的特征,现在咱们要基于现有数据总结适合判定鸢尾花类型的判别函数,以后有新的鸢尾花就可以直接判定它属于啥类型了。 数据长这个样子:
菜单:分析→分类→判别式。
判别函数的建立,是依据现有数据中正确的分类结果展开的。分组变量就是要告诉软件正确的分类是什么。是刚毛、变色、佛吉尼亚1~3的编码共3个分类水平。 将花萼长宽,花瓣长宽共4个变量作为判别的输入性依据,本案例咱们就不自动逐步了,直接采用全部纳入的方式进行判别。 菜单:打开统计对话框。 检验一下当前数据各组数据是否满足协方差一致性。勾选【未标准化】要求用fisher法进行判别分析。此处貌似是SPSS一处bug?还是汉化的bug? 菜单:打开分类对话框。
勾选合并组图,以及摘要表。前者是可视化图形来辅助观察判别的效果,后者是用表格的形式浏览判别的准确率。 本例暂不做交叉验证。其他参数不做选择设置。执行分析。 来看结果。
以前两个判别函数做坐标轴,绘制散点图。刚毛鸢尾花的分类最为完美,而变色和佛吉尼亚鸢尾花则略有交叉重叠,可能存在个别错判的情况。
直接看判别准确率的表格。98%的准确率,这非常高的判别,仅有3个样本错判了。
所构建的判别函数有没有统计学意义? 特征值表,函数1的累积贡献99%,函数2贡献剩余的1%。lambda表,函数均有统计学意义(P<0.05)。这是好结果。
数据满足等同协方差的要求吗?Box’s M检验显示,各组协方差有统计学差异(P<0.05),条件不满足,这里有点遗憾。实际应用中,可适当宽松看待。 本文完 文/图=数据小兵 |