在新冠肺炎流行期间,很多数据科学家和商业分析从业者们都被拉进了流行病学的领域——当然,他们大都很乐意这样做。拥有数据科学团队的大企业,希望尽可能地了解这种流行疾病在他们开展业务的地区可能出现的感染情况。有一些组织内部原本就拥有一些流行病学家或者医务人员,但是他们不见得拥有足够多的分析人才对病毒的流行和病例增长方面的数据进行量化分析。
这些数据科学家们努力的主要方向是报告或者预测新冠肺炎引起的病例和/或死亡。尽管有很多网站都提供了关于这种疾病流行情况的基本描述性分析,但是绝大多数的网站都没有提供对未来感染病例和死亡数量的预测,这些网站提供的数据的精细度也不足以供企业使用。很多公司由于自身所处的行业特点及商业模式,都有充足的理由要进行这项工作,弄清楚这场疫情对他们的业务、客户以及员工的影响。
因为数据科学的每一个特定的用例都取决于环境,所以我会在介绍每个用例的时候也介绍应用这个用例的公司的情况。一些公司和他们的代表希望保持匿名,但是他们确认了项目的详细情况。
一家人寿保险公司预测死亡人数
一家大型人寿保险公司的分析和数据科学团队于2020年3月份启动了一个项目,该项目的目标是预测新冠肺炎疫情造成的死亡情况。人寿保险公司需要了解任何导致意外死亡人数大量增加的大流行病,并对其可能的发展状况进行预测。当然,该公司对于其代理机构和办公室的员工何时能够安全返回办公室上班,以及能有多少人能够返回岗位这个问题也非常感兴趣。
他们的模型表明,新冠肺炎疫情造成的死亡人数将比大多数人估计的数量更高,这部分取决于控制病毒传播的措施。这些模型不仅依赖于已报告的死亡病例进行外推,还对“超额死亡”进行了分析,所谓的“超额死亡”指的是那些由于新冠肺炎造成但却不会被官方统计计入疫情死亡人数的死亡病例。这些数据科学家们多次调整过他们的模型,以覆盖美国全境范围内的新数据和新的防疫政策。该模型汇总了州一级的预测数据,并且考虑了每个州计数缺漏以及政策收紧和开放水平的影响。然后,该公司将所有的州分成四个标准化的开放阶段。标准化阶段的分类包含诸如学校是否开学/停课、非必要商业以及其他设施和机构是否开放等标准。
为了评估疫情对分支机构以及其办公室的影响,数据科学家们还依据县级的数据进行了更为精细的预测。分析团队没有预测新冠肺炎感染病例的数量——部分原因是因为感染病例数对该公司的业务影响较小,更主要的原因是因为能够获得的关于美国病例数量的数据可靠性较差。该公司内部所有的高管和部门对于该团队的分析结果都非常感兴趣。
一家物流公司预测疫情对人员配备的影响
一家物流公司的健康与安全负责人正在思考如何用数据帮助这家公司更好地适应疫情。由于他的工作职责包含了病假计划,他对于预测员工因为感染新冠肺炎请病假的情况以及这些情况会对该公司运营造成何种影响非常感兴趣。他要求他的分析团队创建了一个新冠疫情对公司影响的面板。其中一个关键的项目就是预测因为感染新冠肺炎造成的病假情况。
这位健康与安全负责人表示,该面板非常受欢迎,公司各个部门的请求纷至沓来。但总的来说,他指出,相比于对于未来可能发生状况的预测,管理人员们还是对于已经发生情况的描述性数据更加感兴趣。
一家动物保健公司预测对肉类加工厂的影响
First Analytics是一家分析和数据科学服务公司(我是这家公司的联合创始人兼非执行董事长),它为大型公司提供分析服务。新冠肺炎疫情流行期间,负责领导公司的Mike Thompson和Rob Stevens认为他们的某些客户可能会对美国新冠肺炎疫情流行情况的预测分析感兴趣,他们知道,有一些来源可以提供美国县级的病例和死亡数据,但是这些数据没有一个是可预测的——至少在当时是这样。所以First Analytics的团队创建了一个预测模型,该模型采用了《纽约时报》汇总的县级数据,并据此预测几周后可能发生的病例和死亡率。该模型考虑了州或者县的封锁状态以及该地区阳性测试结果的百分比。当然,该模型会受到监狱或者疗养院等疫情局部爆发的困扰。
First Analytics之前曾经为一家领先的动物保健公司Elanco提供过分析咨询服务,因此他们就与这家公司联系,询问对方是否有兴趣使用对新冠肺炎疫情发展状况的预测服务。该公司分析和其他基于知识的解决方案负责人Michael Genho表示,他有兴趣聊聊这个想法。不过他的兴趣主要并不是在Elanco公司内部使用,而是针对该公司那些拥有大量牲畜的客户。新冠肺炎疫情对于肉类加工厂的影响特别巨大,全美的肉类加工厂里已经出现了40,000例新冠肺炎病例,造成这种情况的部分原因是因为在这些地方社交距离非常小。如果一家加工厂关闭或者降低其生产能力,需要屠宰牲畜的畜牧主们就会无处可去。在正常情况下,他们会仔细计划,将体重处于最合适区间的牲畜送进加工厂进行屠宰。
Elanco公司自己确实拥有流行病学家,但是这些流行病学家都是专注于动物的。该分析小组通常同商业领袖们合作,用数据和分析帮助他们做出商业决策。该预测模型可以准确预测出即将因为新冠肺炎疫情爆发面临挑战的肉类加工厂。它将这些加工厂分为绿色、黄色和红色三个类别。最好的预测能够提前一两个星期预测到工厂关闭或减产。
这些客户原本只能凭借直觉做出决定,现在他们对预测非常重视,并且要求在每周预测更新之后同Elanco联系。Genho的分析小组还会在预测结果中补充肉类加工厂每周的生产数据以及新出现的工厂关闭、减产以及工厂内出现的新冠肺炎疫情状况。客户可以选择将牲畜转移到其他的设施或者改变牲畜上市的时间窗口。这些客户没有以交互的方式使用面板,但是他们很高兴能够通过Elanco获得预测的结果。
一家消费品公司预测现场销售安全性
一家通过杂货店零售商进行销售的消费品公司担心其在新冠肺炎疫情肆虐地区的商店中的现场销售人员的健康和安全。他们已经于三月份的时候从商店里撤出了自己的人手,但是该公司想要弄清楚他们何时才能安全地返回现场。该公司的分析团队从First Analytics的Rob Stevens那里听说了县级预测模型,并将其用于分析各个商店的情况。分析团队的一位成员将新冠肺炎追踪器——一个基于地点的、针对新冠肺炎病例的内部追踪器安置在公司的工厂和办公室。另一个版本的跟踪器则负责评估商店的安全性;根据每个县新冠肺炎病例的数量,每位现场销售代表负责的商店都会被赋予一个“红色/黄色/绿色”的标签。
该分析小组为该公司的健康、安全和法律团队提供分析结果,后者对结果进行讨论后,决定将哪些信息发送给员工。他们发现预测模型很有趣也很有用,但是他们并不想将预测结果直接发送给员工,因为他们认为这样做可能会很难解释。而且,他们也担心给店铺“绿色”的评分可能会让销售人员放松警惕,在去那些店铺的时候不采取任何防护措施。
数据科学与流行病学的平衡
数据科学和分析团队通过处理新冠肺炎疫情数据,扮演了业余的流行病学专家的角色。在这个过程中,我也学到了一些教训。首先,企业中缺乏足够的流行病学专家可用,因此数据科学家和业务分析专家们可以为决策者们提供有用的信息。他们可能没有接受过流行病学方面的培训,但是数据科学和分析方面的原理可以很容易地应用于这个领域。
但是,考虑到将这些分析结果应用于日常运营所面临的各种挑战,企业可能更愿意为客户——而不是他们内部的员工提供见解。而且,在很多情况下,由于缺乏关于这种流行病的历史数据,在这个不确定的时期,对于决策者们来说,预测性分析不如描述性分析可靠。而且,尽管他们的技能可以应用于流行病学,但是等到新冠肺炎的疫情不再纠缠我们的时候,数据科学和分析人员们都更愿意回到更加传统的领域,例如需求预测和消费者行为分析——我问过的每一个数据科学和分析人员都是这样想的。