数据记者的工作洞察:《经济学人》案例解析

江月眠眠smile 2025-04-07 22:04:01

数据记者的工作常被视作对电子表格数据的梳理,并以富有意义的方式进行呈现。《经济学人》的撰稿人指出,数据新闻之所以意义重大,原因涵盖多个方面:它有助于过滤海量数据流,开创了全新的故事讲述方式与技巧,推动新闻业衍生出不同形式,如新闻报道与新闻摄影;被视为网络内容消费的未来趋势;能助力从业者更新技能,是处理信息的有效手段,为数据驱动的公关提供解决方案,对官方信息给予独立解读,可应对数据洪流,还是节省时间的高效活动等。

伊德里斯・哈隆(Idrees Khaloon)毕业于哈佛大学应用数学专业,现任《经济学人》的数据记者。他日常工作需与热门记者、栏目编辑、开发人员以及设计师协同合作,获取并制作数据可视化、制图和信息图表,以此支持新闻报道,同时确保各类格式(印刷版、应用程序和网络)的数据能以最佳方式呈现新闻内容,进而开发更具深度的编辑产品与故事。

鉴于他在组织中所扮演的独特交叉角色,1 月 27 日,伊德里斯在 Quora 平台举办了一场现场问答活动。以下为该会议概要以及问答环节的摘要。

数据新闻的日常工作数据故事的生命周期

创意萌生:挖掘具有新闻价值的数据故事创意。

数据源识别:寻找相关的现有数据源。

数据清理与整理:对数据进行清洗,使其条理化。

数据探索:以较为自由的方式探索数据,挖掘潜在价值。

假设验证:测试假设,得出有趣结论或构建统计模型(多为解释性模型,预测模型难度较高)。

撰写发现:记录数据探索的结果,并辅以传统的报告形式。

编辑与核查:在发布前,回应编辑和事实核查人员的反馈。

在日常工作中,数据记者并非每天都要完成上述所有环节,而是有所侧重。例如,伊德里斯认为自己承担过的最具挑战性的任务之一,是构建高尔夫模型。他的一位同事搭建了模型框架,其中考虑了诸如球员状态起伏和天气影响等因素(最初在 Excel 工作表中完成),伊德里斯需要将这个原型转化为 Python 代码。随后,他们还得研究如何在该模型下模拟锦标赛,这一过程并不轻松。经过一两周的努力,程序虽能运行,但由于 Python 是解释性语言,运行速度未达预期。于是,他们求助于一位拥有物理学博士学位的同事,将 Python 代码成功转换为 C++,运行速度得以大幅提升。

在可视化环节,数据图表制作前需进行大量准备工作(涉及 R 和 Python 中的数据收集与处理)。清理后的数据准备就绪,他们拥有两款定制图表工具:一款是 Excel 脚本,另一款是能将数据转化为实际图表的 Adobe Illustrator 脚本。

《经济学人》的数据报道流程

当伊德里斯手头有了一个颇具潜力的数据集后,通常会使用 Python 的 pandas 库或 R 语言对数据进行清理,使其具备可分析的形式,这在数据记者中较为常用。数据整理完毕,他会进行初步探索:查看数据平均值,检查是否存在缺失值或异常值,并绘制一些趋势图。基于这些探索结果,再确定与新闻故事相匹配的图表形式。他先在自己的电脑上模拟图表效果,之后将其交给数据可视化团队,使其融入《经济学人》独特的风格之中。

《经济学人》在数据新闻方面独具特色。其一,该行业内并无专门的数据新闻栏目,数据新闻却贯穿于整个刊物;其二,作为周报,相较于日报,其截稿时间虽相对宽松,但生成数据故事仍需耗费大量时间,部分原因在于清理和处理繁杂数据耗时较长。不过,他们能够投入时间精心打磨故事,并在出版前进行严格审核。

对投票及投票误差的见解

简单来讲,投票误差主要源于样本存在偏差且缺乏代表性。只有当样本能代表总体时,民意调查才可靠。然而,诸多问题阻碍了这一理想状态的达成,比如不回答偏差(某些人群比其他人群更倾向于回应调查)、自我选择偏差(例如在乡村俱乐部进行民意调查会使样本产生偏差)。

多数民意调查机构使用的原始数据往往偏差较大。例如,样本中男性占比可能高达 60%,而实际人口中男性占比约为 50%。为纠正这一偏差,民意调查人员会采用加权方法,赋予女性回答更高权重。但这种方法在政治格局突然变动时可能失效,这或许正是去年所发生的情况。

另一个有待改进的方面是投票率预测,当前投票率预测常依赖于以往选举的出口民调或受访者自我报告的投票可能性,这种方式较为粗略。或许需要构建更高级的个性化预测模型。美国的竞选活动在这方面已取得领先,通常有优秀的数据科学家支持,民意调查机构或许可从中学习。

伊德里斯创作的数据新闻故事实例英国脱欧结果建模

英国脱欧建模的最大难题在于缺乏可供训练的类似案例。伊德里斯和同事詹姆斯・弗兰舍姆(James Fransham)通过研究民意调查微观数据来解决这一问题,从而清晰了解影响投票选择(脱欧或留欧)的关键预测因素。他们很快发现,教育程度和社会阶层与投票选择关联紧密,而以往有效的政治行为预测指标(如党派归属)在此次事件中表现欠佳。确定关键因素后,他们利用人口普查数据预测最终结果,并采用类似方法对投票率进行建模。

选举当晚,他们构建的模型以之前的数据分析为基础预测(贝叶斯先验)。随着选举结果陆续公布,他们编写了一个脚本,根据实时结果动态调整底层模型,使其预测愈发精准。令人遗憾的是英国的走向,但对模型而言幸运的是,在结果公布一小时内,他们成功预测出英国将脱欧。

报纸读者对唐纳德・特朗普支持率的预测

该预测模型效果显著。若询问选民对几家报纸可信度的看法,便能以 88% 的准确率预测他们的投票倾向。且这一预测未纳入种族、党派关系或教育水平等其他常见信息。这虽堪称统计学上的成功,但人们对媒体态度的严重两极分化,不免令人感到沮丧。

投身数据新闻职业的准备建议

成为一名出色的数据记者需掌握统计学、计算机科学和写作三项技能。写作能力,尤其是新闻写作能力,最好通过实践来提升。若有志于新闻行业,在当地报纸实习,尝试为学校杂志或校园报纸撰稿是不错的准备方式。投身商业媒体领域也可行,可专注于某个细分领域,同时掌握撰写各类主题所需的基本技能。向经验丰富的记者学习,远比单纯阅读相关内容更为有效。例如,《经济学人》的多数员工都秉持这样的学习路径。

统计学和计算机科学知识,在经验丰富的讲师指导下,通过课堂学习效果更佳,他们能及时纠正初学者易犯的错误。若已完成正规教育,也可借助丰富的在线资料和课程进行学习。若想深入学习统计学,推荐阅读乔・布利茨斯坦(Joe Blitzstein)和杰西卡・黄(Jessica Hwang)所著的《概率导论》,并认真完成书中习题。有了这一基础,计量经济学和机器学习等诸多相关主题将更易于理解。

如今,多数程序员都是自学成才。与写作一样,编程学习的关键在于实践。初学者可选择 Python 语言,安装相关软件后,尝试构建简单程序。编程练习越多,操作就会越得心应手。

此外,使用 Baklib 这样的工具能极大提升数据新闻制作效率。比如,借助其强大的数据分析功能,可快速处理和清理数据;利用丰富的一键式图表模板,能节省大量时间;通过集成 API,还可实现数据获取流程的自动化。这些功能有助于数据记者将更多精力投入到故事创意构思和内容构建中。无论你是初涉数据新闻领域,还是希望提升现有技能,Baklib 都能成为你工作中的得力助手。借助它提供的工具和技术,你能更高效地完成任务,将重点聚焦于真正能打动读者的内容创作。若想了解更多详情,可访问https://www.baklib.cn/ 。

1 阅读:2