讨论日本二战战损,简述人口统计误差和误差处理方法。有图、有链接

来源: kankantw 2019-01-15 04:33:33 [] [博客] [旧帖] [给我悄悄话] 本文已被阅读: 次 (82226 bytes)
本文内容已被 [ kankantw ] 在 2019-01-15 21:18:02 编辑过。如有问题,请报告版主或论坛管理删除.

日本二战战损估算结果

如有引用或转载,请注明出处

问老天 有一篇根据人口统计数据讨论日本二战中战损的贴文,bbs.wenxuecity.com/memory给出总战损670万人。在此我发表一下看法,我的着力点在人口统计数据误差分析和处理。我并非人口统计学的专家,是物理学博士出身,对人口统计的兴趣来自本站对“饿死三千万”的热切讨论/争论,我后来收集了不少人口普查资料,查看了一些相关的人口统计数据分析的学术文章,涨了不少知识,因此我想在这里与大家分享一下,至于统计学和数据误差分析是我多年作物理研究的基本知识,也给大家科普一下。

说起误差,人口总数±1%的统计误差堪称是精确的统计了,算是非常小的误差,中国现代的人口普查数据误差就大于1%,例如2000年的第五次人口普查,事后的质量抽查显示有1.81%的漏登率,参看 中国第五次全国人口普查主要数据 第一号公报,我不相信日本当年的人口统计能做到小于1%的误差,援引张庆五1984年5月《人口与经济》上一篇研究报告,日本在1980年的人口普查的错误率为0.9%,若是考虑到1930-1945年还是是战乱时期,有1.5-2%的统计误差也不奇怪,并且日本还有朝鲜和台湾殖民地以及中国东北的满洲国半殖民地,人口内部流动和外部迁移都大,并且还牵涉到殖民地人口身份标准定义和变迁问题,人口统计误差超过2%也不算离谱。

我假设日本当年的人口总数统计误差±1%,简单的估算方法给出的1935-1945年日本的战损总数是 6.7±4 百万人,按数据处理的原则严格来讲,应该只保留误差的一位有效数字:即写为7±4 百万人;如果取1.5%作为总人口的统计误差,类似的总战损结果变为 7±6 百万人。可见问老天楼主提出的战损估算方法得不到准确的结果。若是直接使用死亡人口统计数据,我估计应该能得到比较精确的战损数据。

还可以采用统计学里的 标准偏差理论 来分析其误差范围,假设年度人口总数统计的标准偏差为1%,给出的结果解释是 1935-1945年 日本战损人口:有68.3%的概率落在7±5百万 的范围里,有95.5%的概率落在0.7±3千万人的范围里,很明显估算结果没有什么意义。若想得到可靠的结果,人口总数的统计误差必须在0.1%以下(这恐怕难以做到),又或是直接换用年度死亡人口的统计数据来计算。

 

估算结果和统计误差分析方法简介

一,人口普查数据的误差来源分析

人口统计通常至少会有3个统计数据,人口总数、出生人口和死亡人口统计,除此之外,人口普查还会调查性别、教育程度、民族、职业等。由于数据量大,牵涉的工作人员多,不可避免会有错漏出现,比如:原始数据采集时有漏登、重登、错登,数据汇总时可能有录入错误、计算错误等,这些差错在全靠人工操作时尤其明显。频繁的人口迁移会增加人口统计的困难程度,例如,中国自90年代以来有上亿(最新的统计显示接近3亿)的农民工长期外漂在城市中,短于6个月的漂流农民工还不计在内,有研究显示这个现象明显增加了人口的错登率;中国的“一胎”政策也造成了儿童尤其是0-7岁的女童数量的明显漏记,这对人口统计来说是一系统误差原则上应该做出修正,但漏记的比率和程度显然又带有随机性,这个情形也会增加人口统计的误差,可以从中国历次人口普查的年龄分布图看出来,参见王广州 第五次人口普查数据重报的问题分析,《中国人口科学》2003年第一期,以及崔红艳等人 对2010年人口普查数据准确性的估计,《人口研究》(京) 2013年 第1期。与这些研究报告一样,我这里也忽略了移民人口对统计误差的影响,我看到过报道说中国历年累计的移民国外的人口是4百万,估计净移民数在2-3百万之间,考虑到其数量小、且年龄分布的分散特性,判断在误差估算中可以忽略。

我用小学新生入学统计数据另作了一个人口普查数据的误差估计,据中国教育事业发展统计公报,中国自1990年代适龄儿童入学率接近或超过99.9%,假设小孩一律7岁上小学,根据1990-2017年全国教育事业发展统计公报,可以反推出的1983-2010年全国新生儿童数据。这应该是一份比较精确可靠的人口统计数据,缺憾是只有一个单一年份并且还滞后7-8年才有数据,我将其与第4-6次人口普查数据作了一个比较:

若以小学新生的数据为标准比较历次的人口普查数据,可以发现中国近代的人口普查(特别是第5和第6次的人口普查)漏记和误计比例相当大,误差肯定超过百分之一。按照这个数据分析,第5和第6次人口普查的0-9儿童数量每年平均少记了2.8和2.4百万人并由明显波动由随机数特征,而15岁以上人口的两者之差值有正有负存在明显的上下起伏是典型的随机数特征,表明中国现在社会的“农民工大流动”对人口普查的质量造成了严重的不利影响,这个结果与我上面提到的一些学术研究论文的结论是一致的。参看这个比较图,横坐标是出生年份,纵坐标是人口普查数据与小学新生数据的差值:

战乱明显也会增加人口统计的错误率,不光是人口迁移问题、还有政府机构的管理和执行效率也会受到影响。人口统计的误差大小取决于这些因素的综合效果,从代数逻辑上看:误差非常符合随机数的特性。

人口统计质量和误差范围的判定,不能从理论模型给出,唯一的办法就是再作一次或多次的统计操作,但要花费很多金钱和时间。实践中通常是采用抽查方法,例如1%样本的随机抽查,两相比较即可得出比较准确的误差范围。误差是统计本身不可避免的一部分,任何统计数据的处理必须要包含误差的分析处理。

 

二,人口统计数据的误差处理方法

人口普查统计数据通常都包括了年度人口总数,死亡人口总数和新生人口总数,这是3个独立的数据统计,其中包含了随机的误差 可以看成是相互之间独立、不相关的变数。问老天提出的日本二战的战损问题,并不能在人口普查中直接给出结果,只能间接计算,因此必须考虑误差的传递。我分两种情形,列出加减法的误差传递公式,一是简单估算方法,二是统计学上更为严格的标准偏差分析方法。对误差处理有兴趣的人可以参看:1,台湾 交通大学 吴明颐的《误差分析简介》-- ee.nctu.edu.tw(共19页);2,南京信息工程大学 网站上提供的 标准偏差理论简介--web.nuist.edu.cn (共35页)。

1,简单估算方法

设 A±εa, B±εb, C±εc 分别为原始观测数据,其中分别包含了一个随机分布的εa, εbεc (都大于0)的 绝对误差。R是某个间接观测量:R=mA+B-C,那么这个间接的衍生结果R±εr中的误差εr由下面的误差传递公式计算:

εr=|m|εa+εb+εc 。  注意:A,B或 C的前置系数无论是正还是负,对误差的贡献都是加号。

2,标准偏差理论方法

假设原始观测数据 A,B和 C的误差εa, εbεc 标准偏差为正太分布的随机数。按随机统计理论,A坐落于[A-εa , A+εa]范围的概率为68.3%,A坐落于[A-2εa , A+2εa]范围的概率为95.5%,A坐落于[A-3εa , A+3εa]范围的概率为99.7%,其他数据的标准偏差也类似。同样的问题,这个间接观测量 R=mA+B-C,的计算结果R±εr中的标准偏差 εr由如下误差传递公式决定:

εr²=m²εa²+εb²+εc² 。

在测量次数很少的情形下,例如少于5次,其误差分布会偏离正太分布呈现所谓的 t 分布形态,测量数据可能偏离真数很多。因此,分析测量结果的不确定范围时,标准偏差ε应该乘以一个修正因子tp ,比如说,对A来讲,不确定范围[A-εa , A+εa]就相应地变为[A-tpεa , A+tpεa],tp还与置信水平有关。当测量次数为2次时:置信水平(又称 置信概率)为68.3%时tp=1.84;置信水平为95.5%时tp=12.7,参见 标准偏差理论简介 第9页的表1.1。

 

三,日本二战中战损计算及误差估算过程

简单估算方法的结果:

问老天的原始贴文 从日本人口数据,看侵华日军死亡人数: bbs.wenxuecity.com 中,依据下面的人口总数统计数据:

年分   人口(千人)
1900 A00=43,8471±1%) ( 注释:红字 1±1% 内容是我加插的,并将原始数据记为 A年份
1920 A20=55,9631±1%
1925 A25=59,7371±1%
1930 A30=64,4501±1%
1935 A35=69,2541±1%
1940 A40=71,9331±1%
1945 A45=72,1471±1%

计算得到了正常年份1930-1935年的人口增量4804(千人)。以此为参考数计算了35-45年战损总量672.1万人,但没有给出误差范围。按照误差处理理论,这个人口增量不是直接观测量,而是由间接计算得来,必须考虑误差传递效应。简单的代数运算我得到:

30-35年的人口增量= A35-A30 = 69,2541±1%)- 64,4501±1%)= 4,804±1,337 千人),

若是看其误差的相对大小,这个人口增量中有±27.8%的误差,相比原始数据±1%的误差扩大了近30倍,不难理解,最后计算得到的总战损数据就会有至少30%的不确定度了。简单代数运算可以得到

35-45年总战损=(A35-A30)-(A40-A35)+(A35-A30)-(A45-A40) = -A45 +3*A35 - 2*A30 = 6,715±4,088 (千人),

再看其相对误差的大小,则是扩大到了±61%,因此使用这个数据有必要谨慎。从测量学数据处理的原则出发,误差数据的有效位数应该只保留一位(除非首位数据是1或2,可保留两位),日本二战总战损结果 就是≈7±4 百万人。这个结果是简单估算方法给出的结果,为了更严格的论证这个问题,后面我按统计学的标准偏差理论重算这个结果。

标准偏差理论的估算结果:

在标准偏差理论的框架下,我假设了原始数据人口总数的标准偏差为1%;一般来讲,年度的人口统计只会作一次,另加一次小规模抽查,合算在一起原始数据测量次数是2次,相应的 t 分布修正因子 tp分别是1.84(对应于68%的置信水平/置信概率)和 12.7(对应于95.5%的置信概率)。总战损的平均值还是6,715千人=6.7 百万人,但其标准偏差εr按正太随机分布规律计算 εr²=721.5²+9*692.5²+4*644.5²,由此计算得到 标准偏差:

εr=2,549 (千人) 。

这个结果须用 t 分布修正因子 tp修正之后来解释:日本二战总战损有68.3%的概率为

6,715±1.84*2,549(千人)= 6,715±4,690(千人)≈ 7±5 (百万人) ;

又或是 日本二战总战损有95.5%的概率为

6,715±12.7*2,549(千人)= 6,715±32,372(千人)≈ 0.7±3 (千万人) 。

两种方法简单估算法和标准偏差理论方法给出不同的数值,给出的定义和解释也不相同,但总体上看,结果和结论是一致的,后一种方法更为严格。

 

数据相关性的补充说明:

我在最开始回复 问老天 的原帖中,用简单估算方法给出了总战损的计算结果是 672±553 万,与上面的计算结果671.5±408.8 万 比较其误差有明显差异,我发现,这是忽视了数据相关性的前提条件造成的错误。在原来的计算中我遵循了问老天 的原帖中的3个计算步骤,用数学公式表达就是:

35-45年总战损= [(A35-A30)-(A40-A35)]+[(A35-A30)-(A45-A40)] ,

其中 A45出现一次,A40出现两次(一正一负),A35出现三次,A30出现两次。计算战损平均值时没有任何问题,A40的作用抵消了。但应用误差传递公式计算时,误差变成2倍贡献,结果成了 672±553 万,这是错误的数值。究其根源,是因为(-A40)和(+A40) 是完全相关的,不符合使用误差传递公式的前提条件,在用标准偏差方法时也会有同样的问题。物理上来讲,35-45年的总战损本就应该与40年的人口统计数据A40无关,真正的结果应该是:

35-45年总战损 = 2*(A35-A30)-(A45-A35) = -A45+3*A35 - 2*A35

最后只剩下3个互不相关的年份的统计数据,符合了使用误差传递公式的前提条件,这才能得到正确的计算结果。

 

问老天 在 bbs.wenxuecity.com 上的一个贴文中,也出现过类似错误:

用40年、45年人口总数来算增长数及误差估计。

1940人口总数A=71,9331±1%= 71,933 ± 719 (单位:千人)。这里719是标准差, SA=719

1945人口总数B=72,1471±1%)= 72,147 ± 721。 标准差 SB=721

A和B是统计出来的。人口增长数是需要计算的,用X表示。所以B=A+X .

因此,SB^2=SA^2+SX^2, 所以SX^2=721^2-719^2=519841-516961=2880.
开方得 X的标准差 SX=54

而X的估计值是B-A=214,所以可以得到 214 ± 54, 跟你得到的214 ± 1441 很不同。...

这个推理有一个大错:基于X,从新定义了B。但是,依照误差分析处理方法:包含了误差SA、SB在内的A, B ,都是原始统计观测数据,预先假设了两者独立不相关;A或B不能被修改、也不能重新赋值,同样的SA或SB也不能重新赋值。实际上,人口增量X是间接观测量并由定义 X=B-A 给出,因此X是与A或B相关的,不能由误差传递公式来计算SB。

所有跟帖: 

厉害! -最接近太阳的人- 给 最接近太阳的人 发送悄悄话 (0 bytes) () 01/15/2019 postreply 05:10:07

哈哈,所以说中国3年饿死3千万根本就是胡扯。 -无机塑料- 给 无机塑料 发送悄悄话 (0 bytes) () 01/15/2019 postreply 23:12:15

KanKanTW, 我对这文章的深刻认识见内 -俺老四川哈- 给 俺老四川哈 发送悄悄话 俺老四川哈 的博客首页 (489 bytes) () 01/15/2019 postreply 18:23:57

谢谢指评,确实像是一篇学术文章,有些无趣,我本就不大喜欢哗众取宠的文风 -kankantw- 给 kankantw 发送悄悄话 kankantw 的博客首页 (281 bytes) () 01/15/2019 postreply 21:30:49

大家到这里来玩的,来消磨时间的。何必太认真。 -俺老四川哈- 给 俺老四川哈 发送悄悄话 俺老四川哈 的博客首页 (0 bytes) () 01/17/2019 postreply 09:36:17

主要内容:日本战损=7±6百万,误差太大;中国5,6th的人口普查至少漏登了3千万人 -kankantw- 给 kankantw 发送悄悄话 kankantw 的博客首页 (0 bytes) () 01/15/2019 postreply 21:24:55

从小学招生人数看中国新生人口统计误差:漏记了3千万人口 -kankantw- 给 kankantw 发送悄悄话 kankantw 的博客首页 (33574 bytes) () 02/06/2021 postreply 15:22:42

请您先登陆,再发跟帖!