对于任何公司来讲,数据都是最宝贵的资产之一,但它可能是我们最不了解的资产。我们有物理基础设施的规范和检查,我们有员工满意度调查,我们甚至有网站的正常运行时间监控和稳定性测试。但是,我们是否正在尽一切努力了解我们的数据暴露于风险的程度?
安全不仅仅是保护自己免受黑客攻击。一方面,您面临着可能动摇整个组织的政府法规和安全漏洞的巨大风险。但即使是很小的事情——比如进入系统的一点点坏数据——也会导致影响每个部门的涓滴效应。
我们都可以在评估(和减轻)数据风险方面做得更好。关键是从小处着手:只需确保在正确的位置拥有正确的数据。然后,您要确保正确的人可以访问数据,而错误的人无法访问数据。一旦涵盖了这些内容,并且定义了保持数据清洁和标准化的流程,那么您就可以开始专注于将其作为日常实践。所需要的只是人员、流程和技术的正确组合。
我们所说的“风险”是什么意思?当大多数人想到与数据相关的风险时,他们会立即回想起引人注目的数据泄露事件,这些事件似乎以惊人的规律性充斥着我们的新闻源。但是,影响数百万用户的史诗般的泄漏并不会对大多数公司造成严重后果。即使是少数暴露的记录也可能会产生严重的法律、财务和声誉影响。
这些违规行为是如何发生的?它可以像在错误的地方正确的数据一样简单。我们关于安全中心的大部分对话都围绕着个人身份信息 (PII)。如果 PII 数据未被识别或不在正确的字段中 - 例如,支付信息错误地映射到未受保护的字段并被未经授权的个人查看 - 您可能面临暴露一些非常敏感的信息的风险。
但外部风险并不是我们应该担心的唯一危险。几年前,IBM 以著名的计算得出,不良数据每年给美国企业造成的损失超过3 万亿美元。这是一千次削减的死亡,在几秒钟、几分钟和几小时内被分配到手动数据更正、重新运行可疑报告以及追求最初基于后来发现有问题的数据确定范围的策略和程序。当然,自 IBM 发布这项研究以来,我们必须处理的数据量增长了 400% 以上,而且还在不断增长。那么我们今天会损失多少呢?未来几年我们将损失多少?
将所有这些危险放在一起,一件事很清楚:没有一家公司能够承受将其数据暴露于风险的后果。
风险评估涉及什么?当涉及到您的数据时,没有单一的灵丹妙药可以保护您免受各种情况的影响。但是,您可以通过仔细查看数据风险的三个方面来改善整体数据健康状况:来源、安全性和合规性。
(1) 数据源
了解单个源的质量和数据映射的质量是评估风险的关键。当我们谈论数据源时,我们不仅要考虑数据的来源,还要考虑它如何进入我们的系统。
例如,假设您从供应商处购买的潜在客户列表不如您从最近的、有针对性的、双重选择加入的活动中捕获的潜在客户列表准确或最新,这可能是安全的。但是,即使您可以 100% 相信来自每个来源的每条记录的准确性——包括销售人员手动输入、从任何范围的在线表格提交、产品或移动应用程序中的参与以及来自合作伙伴或母公司的共享数据——您仍然会跨来源查看多种领域、标准和定义。一个来源可能需要在电话号码字段中输入国家/地区代码,而另一个则不需要。一个来源可能只有一个名称字段,而所有其他来源都将名字和姓氏分开。
让这些资源都说同一种语言(可以这么说)本身就是一个挑战,但值得花时间和考虑。幸运的是,有一些技术可以将数据质量自动化作为数据集成过程的一部分,因此您可以通过手动数据校正的大量时间投资来避免风险。
(2) 数据安全
如果您的所有数据都收集在一个 Excel 电子表格中,那么分配一两个人来监视该数据、确保其安全并逐行验证它会非常容易。但这不是我们生活的世界。对于我们大多数人来说,我们的数据基础设施是一个由相互连接的程序和平台组成的复杂网络。显然有专门用于连接系统和将数据提取到存储库的工具。一些企业仅仅这样做就取得了成功——但他们真的了解数据健康吗?他们甚至会知道他们是否有数据质量问题吗?
数据安全的第一步是安全地连接到我们的数据源、摄取数据并执行第一次数据质量检查,以确保我们在正确的字段中获得正确的数据。其次,数据剖析技术可以帮助我们确保电话号码看起来像电话号码,电子邮件看起来像电子邮件等等,这样我们就可以放心,我们没有错误地分类敏感信息。一些分析技术甚至可以自动解决常见数据错误。
之后,是时候让人们参与进来了,这样数据专家就可以手动更正、协调和验证自动化数据质量工具无法自信评估的任何记录。适当的流程和工作流程需要到位,以便合适的人能够以正式的方式看待它。这将需要用于数据库存、数据管理和数据准备的技术。
(3) 遵守
善意——即使是由良好技术支持的善意——也只能带你走这么远。英国信息专员办公室 (ICO) 最近的一项研究发现,高达90% 的数据泄露可以追溯到人为错误。信不信由你,这是个好消息——早在 2015 年,IBM 报告说,95%的数据泄露都是由人为错误造成的。所以……进步,我猜?
技术(包括我们自己的数据目录)可以通过提供集中式基础架构来管理和确保整个组织的合规性来提供帮助。这些产品允许您建立明确的访问协议和权限来保护您的数据,而不会造成虚假的访问障碍,这可能会降低人们的工作效率。它们还可以通过语义类型自动对数据进行分类并构建定义良好的业务词汇表,以便每个人在处理数据时都使用相同的业务语言。
如何降低数据风险如果你试图一次完成所有事情,你会筋疲力尽。相反,慢慢来,一步一步。首先确保您将良好、值得信赖的数据输入系统。然后,您可以建立所需的人员、政策和计划,以长期保持数据的健康。
第 1 步:数据集成
保护自己免受数据泄露的最简单方法是确保它从一开始就不会进入您的系统。理想情况下,您将希望设置自动检查数据质量作为摄取过程的一部分。
优先考虑您的数据源。有些比其他更值得信赖,因此您需要确保选择提供最大价值的来源。这听起来很明显,但您应该始终确保任何数据摄取或迁移都应通过安全传输协议完成。
收集您的数据。只要有可能,将您的数据整合到数据湖或数据仓库中。与分散在一系列系统和部门的数据相比,集中式数据更容易监控和管理。
分析和清理您的数据。检查不完整或不准确的记录,删除重复项,并确保每条记录的每个字段都正确映射和标记。
第 2 步:数据治理
数据治理是流程、角色、政策、标准和指标的集合,可确保有效和高效地使用信息,使组织能够实现其目标。数据治理的细节因公司而异,但通常至少涉及三个群体:
IT(或数据工程师)。该小组负责收集数据、构建流程并使数据在组织内可用。
数据管理员。这些人是真正了解数据的人,不仅仅是纯粹的数据点,还包括业务将如何使用这些数据。他们将审查数据并确保它可以被使用和信任。
企业用户。这些是数据的消费者,从分析师到部门负责人,从最高管理层到个人贡献者。应该有明确的规则和权限设置来确定谁可以访问数据,以及他们何时以及如何访问数据。
第 3 步:自动化
除非您将关键数据保存在一个简单的电子表格中——这将是一种非常低效的开展业务的方式——否则您将需要技术来自动化管理数据的重复任务。
繁重的工作将来自 IT,因为他们建立了可自动化数据集成、数据质量、数据准备的技术和规则。从那里,治理和工作流程可以一起工作。如果某些事情不能自动化,它会与数据管理员一起进行正式的审查过程。
一旦您定义和概述了最初的流程,它就不再像往常一样只是一种练习。随着新数据进入组织,定义的流程会自动清理、丰富和标准化数据。任何无法通过自动化方式确信符合的数据都会通过定义的工作流发送,并由最了解数据的人纠正。这成为贵公司数据的自然生命周期。
这听起来可能是乌托邦式的,但您不必一次全部完成。这可能需要时间——也许是思维方式的转变——但这是可能的。一旦你进行了这种练习,就像肌肉一样,你锻炼得越多,它就会变得越强壮。
保护自己免受风险您的数据太重要了,不能让任何事情发生。您需要在合适的技术和自动化的支持下平衡人员和流程,才能跟上公司中永无止境的数据流。在一个完美的世界中,我们都将拥有一流的安全解决方案,并且 100% 遵守 IT 团队的每一条建议。但是,即使在这个不完美的世界中,我们也可以取得重大进展。
如果您准备进行更改,请从小处着手:确保您的数据标准化、经过清理并符合您拥有的任何标准。解决数据源受损问题将在整个组织中产生连锁反应,使每个人都更有效率和效率,并释放资源用于处理更大的数据问题。