在阅读此文前,诚邀您请点点右上方的“关注”,既方便您进行讨论与分享,还能及时阅读最新内容,感谢您的支持。
文|皮特休
编辑|皮特休
为了构建这个样本,我在1869年的人口普查中确定了两组个体:(1)18至35岁的男性。
出生在阿根廷或六个最大的欧洲输出国之一(英国、法国、德国、意大利、西班牙和瑞士),以及0至17岁的男性,出生在阿根廷,父亲在家庭中,父亲出生在阿根廷或前面列出的欧洲国家之一。
这六个欧洲国家是1869年阿根廷相关年龄组中仅有的超过1000名居民的输出国,占当时所有欧洲移民的95%以上。
这两个群体总共包括448,201人,其中58,755人出生在分析中包括的一个欧洲输出国,22,932人是来自这些国家的移民在当地出生的儿子。
然后,我在1895年的人口普查中搜索了所有这些人的潜在匹配项。
根据报道的姓名和(估计的)出生年份的相似性,我为每对潜在匹配计算了一个从0到1的联系分数:分数越高,代表记录对彼此越相似。
在线附录中提供了用于计算链接分数的程序的全部详细信息。
我使用这些链接分数来通知我的决策规则,将哪些记录合并到分析中。
为了在1869年人口普查中被认为是个人的唯一匹配,1895年人口普查中的记录必须满足三个条件:(1)在该个人的所有潜在匹配中具有最高链接分数的记录,(2)具有早于最小阈值的链接分数和(3)具有比第二好的链接分数足够高的链接分数
因为链接是基于潜在的噪声信息,所以在选择截止值p_和时需要权衡l。
一方面,p_和的较高值l意味着大部分真实匹配将从分析中被丢弃。
此外,在更严格的规则下,以高准确度报告其识别信息并具有更不常见的姓名(在其出生地点和年份内)的个人更有可能被唯一匹配。
另一方面,p_和的较低值l将导致更大的样本,但会导致更高比例的不正确匹配。
考虑到这种权衡,我的基线结果是基于使用相对保守的参数p_和创建的样本l。
因此,我的匹配率低于最近使用美国人口普查数据的经济史论文中的典型匹配率。
本地人的儿子和移民的儿子的匹配率分别为11.6%和13.6%。
我能够独一无二地将大约9.5%的工作年龄的本地人和10%的工作年龄的移民联系起来。
显示了这一联系过程产生的匹配率,按原籍国和年龄组分列。
一旦我完成了链接程序,我就使用手写的人口普查手稿将经济结果变量手动数字化。
对于工作年龄的移民、移民的子女和本地人的子女,我将关联样本中每个人的经济结果变量数字化。
对于处于工作年龄的本地人,我只对相关个体的随机样本的经济结果进行了数字化处理。
最终样本包括约6000名工作年龄的本地人、5000名工作年龄的移民、18000名本地人的儿子和2500名本地出生的移民的儿子。
为了评估移民相对于欧洲经历的职业进步程度,我用一个将到达布宜诺斯艾利斯市的男性移民与1895年人口普查联系起来的样本来补充早期的数据。
为了构建这个样本,我从54036个工作年龄的样本开始1882年至1894年间出现在船只抵达记录中的移民。
这些记录最初由国家移民局收集,并由CEMLA(拉丁美洲移民研究中心),布宜诺斯艾利斯的一个研究中心。
每份记录包括船上每位乘客的姓名、职业、到达日期、出发和入境港口、公民身份和年龄。
在此期间,约75%的移民通过布宜诺斯艾利斯港进入阿根廷。
然后我用一种类似于前面描述的方法将这些移民与1895年的人口普查联系起来。
我找到了3157名移民,匹配率约为6%。
将这些数据联系起来比将人口普查联系起来更具挑战性,因为移民通常在抵达时申报他们最初的名字,但在阿根廷时采用了西班牙版本的名字。
按出生国家显示了本样本中的个人和关联个人的数量。
鉴于数据中缺乏数字标识符,名称在链接程序中提供了最重要的信息来源。
如果拥有一个不常见且记录准确的名字与社会和经济特征相关,那么对名字的依赖可能会导致样本有偏差。
在这一小节中,我将链接样本中的个体与横截面数据中的个体进行比较。
我在在线附录中提供了关于这一比较的更多细节。
在这些表格中,我根据Jorge L. Somoza总的来说,证据表明,在某种程度上积极选择个人进入相关的人口普查样本。
首先,白领职业类别在关联样本中的比例往往过高,在1895年的人口普查中,白领工人的比例比本地出生的工作年龄个人的比例高出2个百分点。
第二,关联样本中的个人拥有财产的可能性高出10个百分点,识字的可能性高出9个百分点。
在在线附录的表A.8中,我比较了乘客名单中符合1895年人口普查观察结果的移民和不符合观察结果的移民,以及1895年关联样本中的移民和1895年横截面中的移民。
关联样本和横截面样本的主要区别在于,来自西班牙的移民在关联样本中所占比例过高。
例如,乘客名单中只有20%的移民来自西班牙,而相关样本中有35%的移民来自这个国家。
这一比例过高的现象可能反映了这样一个事实,即来自西班牙的移民在到达阿根廷后并没有改变他们的名字,这使得在1895年的人口普查中更容易找到他们。
与美国同期的全国人口普查类似,19世纪的阿根廷人口普查缺乏关于个人收入水平的信息。
我在文献中使用了两种标准方法来处理数据的这一特性。
首先,继阿布拉米茨基、布斯坦、埃里克森以及柯林斯和瓦纳梅克,我构建了一个按职业划分的典型收入衡量标准。
第二,我把职业头衔归为职业类别。
为了创建职业收入指标,我利用了各种历史来源的信息。
首先,我使用了来自William I. Buchanan第二,我使用公布的人口普查数据来估算商业和工业部门的收入。
第三,我使用了安东尼奥·m·科雷亚和埃米利奥·拉希特的国会报告来估计农业部门的收入。
在线附录中的表A.9显示了分析中使用的收入数据来源。
在线附录中提供了有关此收益指标构建的更多详细信息,包括有关来源和假设的更多信息。
值得强调的是,构建典型收入的衡量标准具有挑战性,尤其是对个体经营者而言。
因此,我进行了一些敏感性检查,以评估依赖于职业得分的结果的稳健性。
我特别关注了农民收入分配的问题。
我还将样本中的100多个职业头衔分成了几大类。
为此,我首先从历史国际职业分类中为每个职业分配一个代码。
这种分类是以国际标准职业分类为基础的,并已被用来处理历史数据。
然后,我使用由伊内克·马斯、安德鲁·迈尔斯(Andrew Miles)和马尔科H.D范莱文开发的历史国际社会阶层方案(HISCLASS)将每个HISCO代码映射到一个职业类别最后,我按照Long和Ferrie白领(1-5级)、农民(8级)、熟练/半熟练工人(6-7、9级)和非熟练工人(10-12级)。
显示了1895年工作年龄个人最常见的十种职业及其相应的职业类别,在关联的人口普查样本中分别报告了本地人和移民。
使用职业而不是收入来衡量劳动力市场同化有三个限制。
首先,我无法捕捉到个人社会地位的变化,这种变化源于他们在某一特定职业中经济地位的变化。
第二,职业收入标准明确地将职业的排名固定在1895年的水平上。
因此,这一衡量标准无法反映由于不同职业间收入分配的变化而导致的经济状况的变化。
第三,由于人口普查缺少关于就业状况的问题,我无法区分就业和失业的个人。
显示了本地人的转换矩阵,而画面(b)显示了移民的相同矩阵。
这些矩阵的每个元素代表在职业类别中工作的个人的分数(数量)i在1869年从事职业类的工作j1895年。
两个矩阵的最后一行显示了1895年个人在职业类别中的分布情况。
第一个明显的区别是移民和本地人集中在不同的职业群体。
无论是1869年还是1895年,农业在本地居民中比在移民中更为普遍。
这种差异与本地人和移民在城市地区定居的不同倾向是一致的。
1869年,63%的外国出生者居住在城市,而在本地人中这一比例仅为28%。
我提出了一些基于转移矩阵的移动性的总结措施。
衡量流动性的最简单的方法是多年来转换职业类别的个人比例;这是个体偏离矩阵主对角线的分数。
这一统计数据表明,移民中的职业流动性大于本地人,从1869年到1895年,59%的移民和51%的本地人转换了职业类别。
移民似乎也表现出更多的非技术类别的流动性:到1895年,72%的最初从事非技术职业的人已经离开了这一类别,相比之下,本地人只有64%。
对于这两个群体来说,脱离无技能类别的典型途径是不同的。
当地人通常通过转向农业而离开非技术类别,而移民则转向更多的城市职业,如白领和技术/半技术工作。
虽然1869年只有8%的本地人从事非技术工作,但到了1895年,这一比例在移民中要高得多(23%)。
如Long和Ferrie,使用这种简单的衡量方法来比较两个矩阵之间的流动性的一个主要缺点是,这种衡量方法不能区分流动性的差异是由于:(1)两个矩阵之间职业分布的差异,还是(2)两个矩阵中每一个矩阵的行和列的关联强度的差异。
这种区别在这种情况下很重要,因为,如前所述,本地人的职业分布与移民的职业分布明显不同。
为了确定是当地人还是移民的行列关联更强(即职业流动性更小),我跟踪了Long和Ferrie完成以下步骤。
首先,我计算统计d(P,Q),它度量矩阵中行列关联强度的差异P本地人的流动矩阵Q移民的流动性矩阵。
更高的值d(P,Q)暗示了这种关联的更大差异,但是对于两种基质中哪一种表现出更大的流动性没有提供信息。
接下来,我计算了一下d(P,J)和d(Q,J),其测量相同的差异,但是相对于矩阵J代表完全独立(一的矩阵)。
更高的值d(P,J)或者d(Q,J)意味着更加偏离独立,或者流动性更小。
显示出d(P,Q)与零显著不同,这表明在两个矩阵中行列关联的强度是不同的。
此外,本地人比移民更容易脱离独立,d(P,J) > d(Q,J).综上所述,这些结果表明移民的职业流动性高于本地人。
参考文献
[1]杰尔马尼, 季诺,《阿根廷的大规模移民和现代化》