接着上一篇数据处理的内容,我们今天一起来学习【数据合并、分组、标准化】:
1、数据合并(记录合并)
记录合并也叫纵向合并,是将具有共同的数据字段、结构,不同的数据表记录,合并到一个新的数据表中。
现在有两张表,一张“用户明细-男”,一张“用户明细-女”,他们拥有相同的数据字段、结构,只是记录信息不一样,为了能够进行整体的分析,我们需要将这两张表合并到一张数据表中。
- 01 打开“用户明细-男”文件,单击【数据】菜单——将鼠标移至【合并文件】——选择【添加个案】——弹出【添加个案】第一步对话框;
- 02 【添加个案】中——单击【浏览】按钮,浏览至存放数据的文件夹下,选择“用户明细-女”数据文件——单击【打开】返回至【添加个案】——单击【继续】按钮,弹出【添加个案】第二步对话框:
- 03 在【添加个案】中——确认【新的活动数据集中的变量】框中的变量是否正确——单击【确定】按钮,即可完成记录合并的操作。注意:
如果两个数据集合并出现错误或失败,请先返回到两个数据集的【变量视图】窗口中检查:变量的数据类型、宽度、小数位数、值(标签)、列(宽度)、测量及角色这些变量属性设置是否一致,如有不一致,请将它们修改为一样的设置。
2、数据分组
数据分组:根据分析目的将数据进行等距或非等距分组,这个过程也称为数据离散化,一般用于查看分布,如消费分布、收入分布、年龄分布等。
其中用户绘制分布图X轴的分组变量,是不能改变其顺序的,一般按分组区间大小进行排列,这样才能观察研究数据的分布规律。
2.1 可视分箱-数据分组功能
Excel中我们使用Vlookup函数进行匹配功能进行数据分组操作;在SPSS 中数据分组不通过函数操作,有专门的数据分组功能——“可视分箱”。
我们以:用户明细 数据为例了解一下用户年龄分布的特征,现需将“年龄”变量进行分布操作:
- 01 打开用户明细,单击【转换】-选择【可视分箱】——弹出【可视分箱】第一步对话框:
- 02 在【可视分箱】第一步对话框中,将“年龄”变量移至【要分箱的变量】框中,单击【继续】按钮,弹出【可视分箱】第二步对话框:
- 03 在【可视分箱】第二步对话框中,在【分箱化变量】栏中输入“年龄段”——单击【生成分割点】按钮——弹出【生成分割点】对话框:在【第一个分割点的位置】栏中输入:20,在【分隔点数】栏中输入:4,在【宽度】栏中输入:5——单击【应用】按钮,返回【可视分箱】第二步对话框:
为什么要设置成:20、4、5呢?根据年龄分布预览图,我们可以观察到最小值是16,最大值是78;年龄主要分布在20-35之间,我们可以把第一个分割点定位20,组距为5,这样20-35之间按组距5进行分组可以得到3个组,再加上前后2各组,就是5个组,4个分割点,分割点参数大致就是这样确定的,没有绝对的标准,只要能达到解决问题的目的即可。
- 04 在【可视分箱】第二步对话框中,单击【生成标签】按钮——将生成对应的区间范围标签——单击【确定】按钮,即可得到“年龄段”变量。
我们这个例子进行的是等距分组,那么,如果是不等距分组,该如何操作呢?如果需要进行不等距分组,则可以在【可视分箱】第二步对话框下方的【网格】中,直接填入自定义的分割点,例如分别填入:20、25、35,第四个“高”会自动生成,然后单击【生成标签】按钮,就可以生成对应的区间范围标签了:
2.2 重新编码
对于不等距分组的操作,我们可以采用另外一种方法:重新编码为不同变量。
重新编码可以把一个变量的数值按照指定要求赋予新的数值,也可以把连续变量重新编码成离散变量。
例如:把年龄重新编码为年龄段。
-01 打开用户明细数据文件——单击【转换】菜单——选择【重新编码为不同变量】——弹出【重新编码为不同变量】对话框:在【重新编码为不同变量】对话框中——将年龄移至【输入变量->输出变量】框中,在右边的【输出变量】的【名称】栏中输入“年龄段3”:单击【旧值和新值】按钮——弹出【重新编码为不同变量:旧值和新值】对话框:在【重新编码为不同变量:旧值和新值】对话框中,在左边【旧值】框中选择【范围】项——分别依次输入每个分组的范围临界值——同时需要在右边【新值】框的【值】栏中输入对应的新值——并且单击【添加】按钮——将旧值和新值对应关系加入【旧->新】框中——对应关系输入完毕后,如图:单击【继续】按钮——返回【重新编码为不同变量】对话框:单击【变化量】按钮——使刚才输入的对应关系生效——单击【确定】——完成“年龄段3”变量操作。数据标准化,是将数据按比例缩放,使之落到一个特定区间。数据标准化是为了消除量纲(单位)的影响,方便进行比较分析。常用到的数据标准化方法有:0-1标准化、Z标准化。
3.1 0-1标准化
0-1标准化也称为离散标准化,是对原始数据进行线性变换,是结果落到【0,1】区间。0-1标准化还有个好处,就是很方便的做到十分制、百分制的换算,只需乘上10或100即可,其他分制同理:
计算公式: x* = x-min / max-min注:max是变量的最大值,min为变量的最小值。
例如:我们根据用户明细数据为例进行介绍,对用户的年龄进行0-1标准化计算处理,得到一个“标准化值”变量。
- 01 打开用户明细数据文件——单击【转换】菜单——选择【计算变量】——弹出【计算变量】对话框:
- 02 在【计算变量】对话框中——在【数字表达式】框中输入公式“(年龄-16)/ (78-16)”——完成公式的编写:
- 03 在【目标变量】框中,输入变量名称“标准化值”——在【类型与标签】功能中设置类型为“数值”——单击【确定】按钮——返回【计算变量】对话框——单击【确定】按钮——新增一个“标准化值”:如果没有之前的数据分组可视化操作,那么这个最大值、最小值如何得到?答:这个可以 通过“描述”、“探索”等分析功能得到的。
3.2 Z标准化
Z标准化:也称为标准差标准化,它是将变量中的观察值(原数据)减去该变量的平均值,然后除以该变量的标准差。经过处理的数据符合标准正态分布,即均值为0,标准差为1,也是SPSS中最常用的标准化方法。
计算公式:
X*= x-μ / σ注:μ为变量的均值,σ为变量的标准差。
我们对用户的年龄进行Z标准化计算处理,SPSS提供了一个可以直接得到Z标准化的功能,我们无须使用【计算变量】对话框手工输入公式进行计算。
- 01 打开用户明细数据文件——单击【分析】菜单——将鼠标移至【描述统计】——选择【描述】——弹出【描述】对话框:
- 02 在【描述】对话框——将“年龄”变量移至【变量】框中——勾选【将标准化值另存为变量】复选框——单击【确定】——就可以在原数据中“出生年月”变量后面新增一个名为:Z年龄 的变量。
常用的数据处理方法与技巧主要是这些,只要掌握它们的原理,并且能够做到灵活组合运用到实际工作中去就好了。
【感谢龙石数据为本站数据中台建设方案 http://www.longshidata.com/pages/government.html,感恩 】