财新传媒
位置:博客 > 黄斌 > 封城前武汉外流人口规模与各省确诊人数的量化分析

封城前武汉外流人口规模与各省确诊人数的量化分析

主要发现:

1)武汉封城前外流规模与各省疫情高度相关,武汉在各省的流入人口规模可以解释各省疫情变化的60%。可以简单凭借各省武汉流入人口规模来评定各省疫情潜在风险。根据百度迁徙数据测算,目前除湖北外各省疫情风险最高的十个省份是:河南、湖南、安徽、江西、广东、江苏、重庆、四川、山东、浙江;

2)虽然各地都采用了严格的人居隔离的防控措施,但目前各省的输入型疫情依然在发展,武汉地区被感染者在各省的影响作用依然在释放,疫情防控措施还远未到可以放松的阶段。所幸的是,从数据看各省本地二代感染还未大规模发生,且疫情已有些许缓和的迹象,但目前还未有证据表明疫情发展已迎来拐点;

3)从各省实际确诊数与预估确诊数差距表现看,浙江、广东和河南三个省确诊数字有异常表现。浙江、广东确诊数字远高于其预估确诊数字,而河南省则是远低于其预估确诊数字。我们对这三个省出现异常的原因进行了讨论,但囿于数据有限,不能进行充分的计量验证。目前各省所报确诊数字很一定程度上取决于各省识别被感染者的能力。在疫情发生态势不明晰的情况下,河南省未来疫情的发展尤为值得关注,毕竟河南是人口大省,又是武汉人口流入最大省份,其确诊人数与预估确诊人数差额较大,潜在的疫情风险较大。广东、浙江虽然确诊数字高,但未见得是坏事,因为现阶段防控的主要任务就是及时识别外来被感染者,及时对被感染者采取隔离防范措施。当前阶段输入型疫情暴露越多,防范越及时,后期疫情在本地大规模爆发的风险就越小。

建议:

未来防控工作的重点应放在及时甄别与诊断输入型被感染者,降低输入疫情在家庭内部集聚性暴发的概率,切断疫情从被感染家庭向社会传播的途径,防范疫情在本地的二代传播。应加大对地方实施防控的督查力度,尤其是河南、湖南、安徽、江西、广东、江苏、重庆、四川、山东、浙江这十个风险最高省份。对各省复工制定指导意见,督促各地为不同行业制定复工日程和复工标准,区分紧要和非紧要行业和部门,分类别、分阶段复工,采取各类措施最大可能地降低复工所可能带来的传播风险。

 

 

分析过程说明

首先需说明本人的研究主业是教育经济与教育财政,不是流行病学、病毒学等相关领域专家,但由于研究需要,对微观计量方法比较熟悉。这十余天封闭在家,一直想着能否收集数据做一些疫情发展分析,为疫情防控做一点事情。另需说明的是,微观计量估计结果的精确度和可靠性在很大程度上有赖于数据的完备性,但由于目前可资利用的数据极为有限,这使得我们对估计结果的解释都只是可能的解释,未得到充分的计量验证。

一、数据来源

本文根据百度迁徙提供的1.9-1.25日中的武汉春运迁出规模指数和武汉迁入各省百分比数据(http://qianxi.baidu.com),根据百度网站说明,该迁出规模指数是反映迁入或迁出人口规模,在城市间可做横向对比),以各日武汉人口流出量占1.9-1.2517天流出总数的比例作为权重,对每日武汉流入各省人数的百分比数进行加权,得到武汉人口流入各省的规模指标m_index,之后我们还会采用武汉封城前三天人口流出数据计算m_index。该指标在各省的表现如表1

各省疫情数据来自手机客户端头条热点《新型冠状病毒肺炎实施追踪》和支付宝提供的《疫情实时跟踪》,从这些App获得各省每日24时之前的确诊人数及其他疫情数据。

二、主要分析结果

(一)武汉流出人口在各省的分布状况

19日以来,武汉流出人口以湖北省内流动为主,占70%以上。以24数据测算,除湖北外各省武汉人口流入指标与确诊人数的皮尔逊相关系数为0.772。这两变量高度相关,意味着可以简单凭借各省武汉流入人口规模来评定各省疫情潜在风险。根据表1,目前除武汉本省外,河南省疫情风险是最高的。19日以来,武汉流入河南的人口规模系数是0.33,排前十的省份分别是河南、湖南、安徽、江西、广东、江苏、重庆、四川、山东、浙江。

(二)各省的武汉流入人口规模与确诊人数关系

以武汉流入人口指标对24各省确诊人数进行回归。如采用线性,武汉人口流入指标m_index对各省确诊人数的回归拟合度60%,这就是说武汉人口流入规模能够解释目前各省确诊人数变化的百分之六十。我们对120日以来各日的确诊人数都做了相同的分析,发现该拟合度随时间进程呈上升趋势,早期120-25日,模型拟合度并不高,都在0.4以下,在25日之后模型拟合度迅速上升至0.4以上,24日拟合度达60%。这一表现有两层含义:

1)各地确诊数并不能完全反映各地疫情情况,尤其是在疫情发生的早期阶段。病毒本身有潜伏期,而且各地被感染者“转化为”确诊数量还取决于各地发现疑似病例和诊断被感染者的能力,疫情发展和各地诊断能力的增强推动模型解释力不断提升;

(2) 仅用武汉流入规模指标就可以解释模型变异将近60%,这意味着各地疫情应主要是由武汉输入为主,武汉流入规模指标对各省确诊人数的解释力不断升高说明输入型疫情还在持续发展中。武汉流入规模对各省确诊人数的影响系数beta值随时间进程在不断增大。如图2125日该系数值为302.1131日迅速增加到1654.921日为1936.322日为2215.723日为2607.824日为2921.5,进入2月该系数增长有减弱迹象。这同样表明武汉流入人口在各省造成感染的影响作用还在释放中,疫情达拐点似乎有一些迹象,但还是不乐观,关于这一点后面还有专门的分析。

(三)“特异”点分析

根据散点与拟合线图1,有三个省份疫情表现“异常”。如图1,其中各省散点若处于拟合实直线附近不远,那么这些省份确诊数字就与模型拟合相近,属于“正常水平”,相反则为“特异值”。从图1可以看出,浙江、广东两省的散点远处于于拟合直线(图1中的直线)之上,表明这两省实际的确诊人数远高于其各自的预估确诊人数。根据拟合结果,浙江、广东两省的武汉流入规模指数分别为0.0650.118,在武汉流入的前十个省份中排名并不十分靠前,按此流入指标估算这两省预估的确诊人数应分别为267人和421,而浙江23日实际确诊人数895人,广东为870,分别是预估确诊人数的3.4倍和2.1;河南省情况正相反,该省的武汉流入指标是除湖北省内流动外最高的(0.33),但该省实际的确诊人数却远低于预估确诊人数。按拟合结果,23日河南省预估确诊人数应为1041,而该省实际确诊人数为764人,是预估确诊人数的73%如果对23日疫情数据采用非线性回归,河南实际数字与预估吻合,但浙江与广东依然“异常”(非线性拟合线如图1中的橙色曲线)。非线性二次项回归的拟合度为72%,虽然比线性回归模型高,但目前没有合理的理由解释为何随着流入人口增多,被感染人口会先增后减。此外,我们将河南作为偏小的特异值,将其从样本中删去,浙江与广东两省与所得到的的拟合线(如图1中虚直线)相比依然表现特异。

 

浙江、广东、河南三省数据的离群现象并不是单日表现。如图4,河南省报告的确诊数字始终处于异常低水平,从120日开始就一直处于拟合线下方。广东从120日起报告的确诊数字就处于拟合线上方的异常高水平,而浙江报告的数字是从122日开始处于异常高水平。从图4还可以看出,早期上海、北京和重庆报告的数字同样也呈“异常高”状况,但在124日后北京、上海、重新报告的数字就逐渐回归“正常”。我们还对各省每日新增确诊数做了同样的分析,同样发现浙江、广东、河南三省有离群现象,如图5

 

 

(四)各省确诊人数和新增确诊人数的变化趋势
 

 

如图3,除武汉外各省份新增确诊总数一路升高,在128-31日有一个迅猛的上跳,接着在21日下滑,但很快在22日再度上升,23日新增确诊数更是达到将近900人的规模,在24日又再次回落。由此看,进入2月后疫情变化明显比前期震荡更大,但由此判断疫情会出现拐点还为时过早。根据表2的估计结果,可以做一下分析判断

首先,日期期数一次项显著为正,表明随时间进程,除湖北外各省确诊数和日新增确诊数总体是向上增长;

其次,日期期数二次项显著为负,这表明随时间进程确诊数和日新增确诊数的增幅在减弱;

其三,武汉流入人口规模变量显著为正,表明武汉在各省的输入疫情正在发挥作用;

其四,武汉流入人口规模*日期这个交互项显著为正,表明随着时间进程武汉在各省的输入疫情所造成的影响依然在扩大中;

最后,武汉流入人口规模*日期平方这个交互项显著为负,表明随着时间进程武汉在各省的输入疫情所造成的影响虽然在扩大,但增幅在减弱。

由此,可以判断目前武汉在各省输入疫情依然不容乐观,至少目前还看不到武汉对各省的输出疫情有回落的迹象,但已些许好转的迹象。值得说明的是,由于目前疫情受政策影响较大,2月以来每日数据震荡较大,因此数据分析只能对疫情发展总体趋势做基本判断,很难预测出何时会出现疫情拐点。之前一些专家提出疫情将会在24-6日出现拐点,从目前数据表现看存疑。

如果将广东、浙江挑选出来单独考虑(如图3中的绿色虚线),这两省每日新增确诊人数在128日达200人规模后,保持在这一水平并缓慢有所下降,但到23日又有一个迅速上涨。浙江、广东两省的曲线变化可分为两个阶段,从121-27日共七天,期间变化总体向上增加,128日确诊人数有一个快速向上跳跃,从128-22日共七天,期间变化总体震荡向下,但23日再次有一个向上跳跃,又回升至128日水平,其中间隔天数与新型冠状病毒平均潜伏期6-7天接近。与这两个省相比,其他省份的确诊数据并无见如此明显的变化规律,如图3中的红虚线。如果未来6天,我们还可以从浙江、广东两省数据变化中再看到此种七天变化规律,那么可以证明这两省通报的数据是接近病毒发展规律的,而政府实施的防控政策就是要打破这种变化规律,让感染人数趋于下降,而非呈阶段式暴发。

(五)采用不同日期长度测量武汉外流人口规模

我们还尝试使用120日以来武汉回流各省的人口规模数据进行拟合分析,发现采用19日武汉流出规模的模型拟合度要比采用120日武汉流出规模的模型拟合度平均要高出5个百分点。这意味着在更早的时候武汉回流各省的人口可能就具有了感染性。这表明我们就武汉流出人口规模与各省疫情进行分析应溯源更早数据,而不能只把焦点放在武汉封城前几日。

 

三、 对分析结果可能的解释

浙江、广东与河南确诊人数数据出现异常有以下几种可能的解释:

(一) 各省报告确诊数字的及时性与准确性

浙江、广东素来以“不听话”著称,数据报告及时迅速,处置疑似病例效率高,诊断效率高,因此这两省数据看似“异常”,实则正常。如果该解释成立,那么就说明其他省份都因各种原因,所报数字不够及时、准确,或存在较高的漏诊率。即浙江、广东报告数字是正常的,其他省份则是异常的,如果这一结论成立,那么各省所报数字乘以2-3倍才达正常水平;对于河南数字“异常”低,以上解释就不成立了,因为地方不存在特意高报疫情数字的可能。河南数据“异常”有可能是其早期就采取了比较强硬的防控措施,例河南省在12月底就暂停郑州与武汉的长途客车,也可能是较高漏诊率或其他原因。

(二) 各地漏诊率有一定差别

各地“感知”感染率的能力可能存在一定差别。浙江、广东两省诊断率较高,而其他地区漏诊率较高,这也可能是形成广东、浙江与其他省份“离群”的一个原因。有网友提醒,温州最近暴发确诊数,发现武汉回温人员查出来感染率很高,接近1%左右,这个比例跟香港一些模型比较接近。如果这个比例正确,那么其他省份的感染率若低于该水平,则很有可能存在较高水平的漏报。与浙江、广东情况正相反,河南对湖北人口输出应大都为务工,春节返回河南的劳力分布在广大农村,是否是因为农村基层医疗基础设施和条件较差,从而导致较高的漏报率,这种可能性也是存在的;

(三) 百度迁徙的测量误差

采用的百度迁徙数据对武汉流动人口的测量不够全面、准确,也可能导致个别省份数字发生异常。根据百度网页说明,百度迁徙数据主要来自个人手机百度地图、墨迹天气及其他app提供的GPS定位数据,该信息的获得应与个人是否使用智能手机app与使用app频次密切相关,因此该指标测量可能对岁数较大、教育层次较低的人口迁徙不敏感,遗漏了大量此类人群。有些网友认为浙江、广东之所以确诊数高,是因为这两地经商人口多,流动频繁,而根据百度的说明,他们的迁徙数据应该对这类人群流动信息是敏感的,毕竟商人使用手机的频次明显高于其他人群,因此这一解释可能并不成立。与此相反的是,从武汉回河南应大都为务工人员,如果百度迁徙数据测量真对此类人员不敏感,那么以百度数据测度的河南输入疫情风险还要比本文呈现的结果更高;

(四) 武汉流动人口的异质性

流动至各省的人口在被感染比例上可能存在较大差别。如有网友提出,导致广东、浙江两省报告数字畸高可能是这两省回流人口在武汉的分布与其他省份有所不同,如广东和浙江商人可能多集中在华南海鲜市场附近经商,与武汉早期感染人群有更密切的接触,由此导致武汉流入广东、浙江两省人口的被感染比例高于其他省份。

根据《看点快报》(http://kuaibao.qq.com/s/20200122AZOLXW00?refer=spider122日的报道,过去三十天中出现在华南海鲜市场周边1.5公里的人,有62%的人留在武汉市,38%去了其他城市,最多的属上海、北京、深圳,其中上海占1.49%,北京1.27%,深圳1.14%,并无浙江。其中虽然有深圳,但也有上海和北京,且流向上海和北京的比例还高于深圳,而上海和北京确诊数字却无异常。所以这种解释也是存疑的,还需更多数据方可验证。此外,即便这种解释成立,河南数字偏低应如何解释呢?

(五)各省人口密度差别

根据简单SIR模型,地区被传染人数主要取决于染病者数量、处于同一环境的易感者数量和传染率。武汉迁入各省人数数量与染病者数量密切相关,若假定传染率在各省无差别,那么模型还需控制处于同一环境的易感者数量,该变量可使用各省人口密度变量进行代理。为此,在模型中增加了各省城市人口密度变量,估计结果显示该变量并不显著。当前各地采用防疫严控措施,人与人交往被切断,人口聚居程度不再成为决定确诊人数的决定因素。这一结果也从侧面再次验证了目前各省疫情还主要是以输入型为主,各地二代传播情况可能并不严重。

导致人口密度不显著也可能是因为该人口密度变量原本就与武汉流入规模相关的原因,数据分析表明这两个变量存在显著的正相关,皮尔逊相关系数为0.33,为此我们单独就各省城市人口密度变量对确诊人数进行回归,发现人口密度对各省确诊人数的影响依然不显著(beta=130.5t=1.20)。

人口密度变量的影响力具有很大的政策含义,若未来发展趋势是武汉流入人口规模的影响力持续下降,但各地人口密度变量由不显著到显著,这就说明很可能病毒在流入地已产生较大规模的二代感染,这个变量的显著性与估计系数值得跟踪分析,特别是各省春节后恢复上班,人口交流频率增大之后。

(六)其他可能的原因

如各地实施的政策、地理、气候与自然环境、人口交流频率等。虽然目前各省都实行严控情况,但各省政策执行力度有所不同,这可能是形成确诊和被感染人数产生变异的一种重要原因。如果这种解释成立,那么就说明浙江、广东两省隔离政策未做到位,导致地方大量聚集性感染扩散,由此产生远高于预估值的确诊人数,而河南政策措施做得较好,因此有效抑制的病毒在本地的扩散。而根据网络报道,浙江和广东两省防疫措施似乎并未有太大偏离,相反这两省防疫措施常作为典范被其他省份模仿。很可惜还没有适当指标可以用于衡量各省防控实施强度与实效,因此无法证实。

四、 建议

虽然各地都采用了严格的人居隔离的防控措施,但目前各省的输入型疫情依然在发展,武汉地区被感染者在各省的影响作用依然在释放,疫情防控措施还远未到可以放松的阶段。所幸的是,从数据看各省本地二代感染还未发生,且除湖北外其他省份疫情已有些许缓和的迹象,但总体看,目前还未有经验证据表明疫情发展已迎来拐点,武汉输入疫情在各省依然在不断释放中,虽然已看其发生减弱的态势。若武汉流入人口的影响作用会如我们所期盼的那样不断减弱的话,那么武汉疫情扩散的风险就基本被消除了。未来防控工作的重点应放在及时甄别与诊断输入型被感染者,降低输入疫情在家庭内部集聚性暴发的概率,切断疫情从被感染家庭向社会传播的途径,防范疫情在本地的二代传播。从各省实际确诊数与预估确诊数差距表现看,河南省未来疫情的发展尤为值得关注和担忧的,毕竟河南原本就是人口大省,又是武汉人口流入最大省份,目前其确诊人数与预估确诊人数差额较大,潜在的疫情风险较大。广东、浙江虽然确诊数字高,但未见得是坏事,因为现阶段防控的主要任务就是及时识别外来被感染者,及时对被感染者采取隔离防范措施。当前阶段各省输入型疫情暴露越多,防范越及时,后期疫情在本地大规模爆发的风险就越小。

 

为杜绝病毒在本地的二代传播的可能,中央政府与各省还需继续维持当前防控力度,尤其是在目前病毒的传播渠道与感染率不明晰的情况下,各地企事业已开始小面积复工,这无疑加大了本地二代传播的风险。为此,建议中央更要加大对地方实施防控的督查力度,尤其是河南、湖南、安徽、江西、广东、江苏、重庆、四川、山东、浙江这十个风险最高省份。这段时间的严控政策已对各地经济和社会事业运行造成一定影响。中央应谨防地方保护主义和机会主义抬头,对各省复工制定指导意见,督促各地为不同行业制定复工日程和复工标准,区分紧要和非紧要行业和部门,分类别、分阶段复工,采取各类措施最大可能地降低复工所可能带来的传播风险。相信此种突发事件对国民经济与社会事业运行的影响应是暂时的,渡过此次难关后,国民经济应能快速复苏。



推荐 37