北京儿童插座价格联盟

CFPS小课堂|父母SES的综合变量

只看楼主 收藏 回复
  • - -
楼主
点击上方  轻松关注

父母的受教育程度和职业地位反映了家庭社会经济地位与子女的成长环境,是研究社会地位的获得与代际传递、社会流动、个人生命历程等命题不可或缺的变量。第七期CFPS小课堂将向用户们介绍一组父母SES的综合变量。


父母的社会经济地位(Socioeconomic Status,下简称SES)是研究中的常用变量。通常,父母SES变量被操作化为父母的教育和职业,在中国研究的情境下,。以往大多数调查由于只抽取样本家户中一名成年成员作答,因此常以受访成年子女代答的方式来采集其父母的SES信息,例如“您父亲的最高受教育程度是____”。而CFPS基线调查采用了与以往调查不同的形式采集父母的人口及社会经济地位信息:在受访家庭中选定一名成员回答每一位家庭基因成员的同住及不同住父母的基本信息,并将信息保存在家庭关系库中(如变量tb*_a_f或tb*_a_m)。研究者需要匹配个人库与家庭关系库,才能将父母的基本信息与作为子女的个人数据相联系。理论上,CFPS这一采集方式不受到父母健在与否、父母受访与否、以及父母与受访子女同住与否等条件对信息采集的限制。但是,在实际调查过程中,由于选定的代答人可能不了解其他家庭成员的父母情况、受访人或访员对回答要求的理解有偏差,导致了漏答或错答不同住或其他成员父母的基本信息,以及由于2010年问卷设计上遗漏了对不健在父母信息的采集,这些原因造成CFPS 2010 父母学历、职业等变量取值存在严重缺失(40%~60%),难以满足研究需求。
为此,在2012年的追访中,我们采用成年子女受访人代答的方式,在个人问卷中重新采集了其父母的出生年、最高学历、。我们将新采集的数据与原有数据相比较、整合,生成父母的出生年(fbirthy,mbirthy)、父母受教育程度(feduc,meduc)、,mparty)、父母主要职业(foccup*,moccup*)这些新的综合变量,作为2010年家庭关系库的发布变量。


1
父母SES综合变量来自哪些问卷信息?


2010年的基线调查和2012年的追访共提供了父母信息的三个来源。
1. 2010年的家庭问卷。选定受访人回答的家中所有基因成员的父亲和母亲的姓名、出生日期(/年龄/属相)、性别、是否健在、最高学历、主要职业、婚姻状况、现居地等信息。所有的变量信息保存在2010年家庭关系库。设计上,这一来源应该采集所有基因家庭成员的父母信息,但实际操作中,代答信息的缺失情况较严重。
2. 2012年成人问卷V部分对受访人采集其父母的出生年(/年龄/属相)、14岁时父母的最高学历、。这些信息保存在2012年成人库。在一般情况下,2012子女代答自己父母的信息应该不会比2010家庭成员代答的信息质量差,但是,如果子女没有接受2012年访问,我们就无法重新采集其父母的信息。而且,2012年问卷在重新采集父母信息时没有加载父母的姓名,这意味着,如果同时存在生父/母、继父/母、或养父/母的情况,子女代答的父/母有可能跟2010年家庭关系库中采集的父/母不是同一人。
3. 成人问卷。设计上,CFPS对家庭的所有成员都要进行个人访问,如果受访人的父母在居住上和经济上与受访人没有分开,那么他们也会回答2010年和2012年的成人问卷,其教育经历、、职业和工作等信息都会被详尽采集。但是,父母与受访人同住且接受了个人访问的情况很有限,在家庭关系库中仅占38%(父)和40%(母)。因此,用父母自答的个人信息也很难补全、更正第一、第二来源代答的父母信息的缺失和错误。


2
如何整合以上三个来源的信息?


上述介绍反映出三个来源的数据各有优劣,我们将三者整合在一起,可以相互补充、校验。在整合数据及生成综合变量时,我们制定的基本规则是:
第一步:以家庭关系库的代答信息为基础,因为该来源涵盖的成员最广。
第二步:用子女代答的信息来补充家庭关系库的缺失值和替换不一致的取值,我们假定子女代答其父母的信息比任意家庭成员的代答信息更准确。
第三步:用父母回答的2010或2012年个人问卷信息来补充前两个来源的缺失值和替换不一致的取值,我们假定父母本人自答的信息比子女或任何人代答的信息更准确。
经过上述整合和补充,父母各SES变量的缺失比例至少下降了三分之二。


3
使用父母SES综合变量需要注意什么?


虽然我们通过三个来源的数据生成综合变量,但仍可能存在缺陷。缺陷主要有以下几种:
1. 三个来源的数据均缺失;
2. 当子女同时有亲生父母、继父母或养父母时,子女代答的父/母与家庭关系库中的父/母可能不是同一人;
3. 如果受访人有同是家庭基因成员的同父/同母的兄弟姐妹,但这些兄弟姐妹由于种种原因没有接受2012年成人问卷的个人访问,而且其父/母也没有成人问卷,则这些兄弟姐妹在家庭关系库中的父/母信息没有与该受访人的父/母信息同时补充或更正。
4. 、误报,有可能出现父母自答的信息不如代答信息真实、准确的情况,在这些情况下我们设置的不一致取值的替换规则未必是最优的。
5. 父母SES综合变量是以2010年基线调查的家庭库为基础,在随后追访中新进入家庭关系库的父母以及父母的SES在随后追访中发生的变化(如有)则没有相应更新。
对于第一、第三种缺陷,用户可以用多重插补处理缺失值。对于第二、第四和第五种缺陷,用户可以自行进行数据清理或更新。


对上述数据来源和生成规则的介绍可参考网站后续相关技术报告:张春泥、叶华、、马超、戴利红、胡婧炜、谢宇《家庭社会经济地位综合变量:父亲和母亲的出生年、最高学历、。

4
2016年数据更新


项目组于2016年7月对CFPS 2010的数据做出了新一轮更新,父母的SES综合变量也在更新之列。主要的更新体现在:
1.父母教育的综合变量采用了更新版本的个人教育最佳变量;
2. 利用已有信息对出生年和性别做了进一步清理和填补;
3. 其他变量和家庭关系均同步使用最新发布版本的数据。但数据来源和生成规则保持不变。




中国家庭追踪调查
(CFPS)

地址:北京市颐和园路5号北京大学理科5号楼

中国社会科学调查中心

网站:http://www.isss.edu.cn/cfps
邮箱 :  isss.cfps@pku.edu.cn

点击“阅读原文”


举报 | 1楼 回复

友情链接