SPSS案例学习：判别分析

kexue · 发表于 2022-4-23 00:55:39

150株鸢尾花，有刚毛的，变色的及弗吉尼亚三种类型。不同类型的鸢尾花他们在花萼花瓣长宽有不同的特征，现在咱们要基于现有数据总结适合判定鸢尾花类型的判别函数，以后有新的鸢尾花就可以直接判定它属于啥类型了。

数据长这个样子：

菜单：分析→分类→判别式。

判别函数的建立，是依据现有数据中正确的分类结果展开的。分组变量就是要告诉软件正确的分类是什么。是刚毛、变色、佛吉尼亚1~3的编码共3个分类水平。

将花萼长宽，花瓣长宽共4个变量作为判别的输入性依据，本案例咱们就不自动逐步了，直接采用全部纳入的方式进行判别。

菜单：打开统计对话框。

检验一下当前数据各组数据是否满足协方差一致性。勾选【未标准化】要求用fisher法进行判别分析。此处貌似是SPSS一处bug？还是汉化的bug？

菜单：打开分类对话框。

勾选合并组图，以及摘要表。前者是可视化图形来辅助观察判别的效果，后者是用表格的形式浏览判别的准确率。

本例暂不做交叉验证。其他参数不做选择设置。执行分析。

来看结果。

以前两个判别函数做坐标轴，绘制散点图。刚毛鸢尾花的分类最为完美，而变色和佛吉尼亚鸢尾花则略有交叉重叠，可能存在个别错判的情况。

直接看判别准确率的表格。98%的准确率，这非常高的判别，仅有3个样本错判了。

所构建的判别函数有没有统计学意义？

特征值表，函数1的累积贡献99%，函数2贡献剩余的1%。lambda表，函数均有统计学意义（P＜0.05）。这是好结果。

数据满足等同协方差的要求吗？Box’s M检验显示，各组协方差有统计学差异（P＜0.05），条件不满足，这里有点遗憾。实际应用中，可适当宽松看待。

本文完

文/图=数据小兵