让你的数据为AI做好准备的3个步骤

商有精准说 2025-03-28 04:27:32

大多数IT领导者会发现,依靠他们现有的数据管理实践来增加AI的应用是不可能的。

虽然许多企业已经运行了少数成功的概念验证,以证明GenAI的价值,但在未将生产AI就绪的数据成为标准实践之前,将这些概念验证进行扩展并将新技术应用于业务的其他部分将永远行不通。Gartner最近的预测显示,60%在没有AI就绪的数据的情况下运行的AI项目将在明年被放弃,这揭示了IT领导者需要立即解除的时间炸弹。

对于许多CIO来说,为哪怕一个AI项目准备数据也是一项艰巨的任务。“当他们踏上AI之旅时,许多人发现自己的数据是垃圾,”软件支持公司Rimini Street的CTO Eric Helmer说,“在某些情况下,他们不确定这些数据在数百个不同的系统中的哪个位置。当他们找到数据时,又往往不知道这些数据是否处于AI可以使用的状态。这往往会阻碍他们的AI愿望。”

为了应对即将到来的、要求在整个企业中支持AI项目使用的海啸,CIO们应该采取以下三个步骤,以确保使数据为AI就绪做好准备成为标准实践。

放弃使用传统IT来支持AI

“最终目标是拥有AI就绪的数据,这意味着质量高、一致性强、结构合理的数据,这些数据经过优化,可以有效地用于AI模型中,并为特定应用程序产生所需的结果,”安永全球AI领域负责人Beatriz Sanz Sáiz说。AI就绪的数据并不是CIO们只需要为单个应用程序生产的东西——对于所有需要企业特定智能的应用程序,他们都需要它。

然而,许多IT领导者发现,使用标准数据实践以及传统IT硬件和软件,无法实现这一目标。“在庞大的、互不连通的系统中清理数据,使其对AI有用几乎是不可能的,”Helmer说,“如果你进入一个人力资源系统并删除重复记录或以任何其他方式清理数据,这些更改可能不会传播到所有相关的数据存储中,从而造成数据不一致。”

为了定期训练企业特定用例所需的模型,CIO们需要建立AI就绪的数据的管道,采用新的方法来收集、清理和编目企业信息。安永最近对数据管理领导者进行的一项研究表明,大多数企业都还没有做到这一点。在超过1200个企业参与的研究中,有三分之二的企业要么没有适合AI的数据管理实践,要么不确定自己是否有这样的实践。因此,计划增加AI采用率的IT领导者显然需要重新考虑他们的数据管理方式。

据日立万达(Hitachi Vantara)AI领域的CTO Jason Hardy称,到目前为止,大多数企业一直在依赖传统系统,而这些系统已经在努力支持生产工作负载。现在,随着AI工作负载的增加,结果是出现了许多影响日常运营的下游问题。CIO们不仅需要改造基础设施,以便通过新的接口呈现大量数据,还需要处理GenAI以前所未见的方式产生的所有数据。“AI革命正在迫使所有行业的数据中心进行现代化改造,”Hardy说。

据Sáiz称,早在2018年左右,现代化就已经开始大规模进行。新技术问世,使企业能够开始改变其数据基础设施和实践,以满足对大型结构化和非结构化数据集不断增长的需求,这些数据集要为分析和机器学习提供动力。他们开始使用数据虚拟化,通过将数据消费与数据起源分离,减少了对大型数据仓库的需求。现在,随着自主式AI的出现,对高质量数据的需求比以往任何时候都增长得更快,这更加快了现有趋势的紧迫性。

使用AI改进数据,并用知识改进AI

Sáiz补充道,好消息是AI是解决方案的一部分。例如,可以使用GenAI生成合成数据,还可以使用其他形式的AI来帮助分析和提高数据质量。一些企业使用AI来分析数据分布,通过识别不在合理范围内的值,然后填充缺失的值。AI还可以帮助工程师定位有问题的数据集,应用不同的技术来确定给定值的真实性概率。“我们目前看到,‘AI用于数据’是企业中应用AI最大的领域之一,”Sáiz说,“数据和AI的革命同时进行,产生了双赢的局面。”

AI还可以通过拥有一个使用自助式AI来管理分散基础设施的中央智能,来实现更加分散的数据基础设施。数十万个智能体可以强制执行标准并确保数据一致性,据Sáiz称,这是公司在数据基础设施方面面临的最大挑战之一。

例如,AI可以帮助确保特定客户的记录在所有系统中(包括CRM、呼叫中心软件和财务应用程序)保持一致。“为了保持一致,每当客户与呼叫中心或网站互动时,所有系统都会在近乎实时的情况下获得更改,”Sáiz说,“过去,你需要更多的延迟和大量的手动检查,而现在,这一切都是由AI驱动的,AI不断检查状态和主数据集,根据智能判断是否需要在整个系统中更新记录。”

据Sáiz称,知识比数据更重要,因为它有助于解释数据。可以在数据基础设施之上构建一个知识层,以提供上下文并减少错误判断。“如果某人在电信行业运行一个预测模型,那么变量、输入和结果将与在金融预测中运行相同模型时的变量、输入和结果不同,”她说,“你越关注知识,你的AI就越准确。”

采用迭代方法进行转型

一些IT领导者觉得眼前的挑战令人难以承受,认为他们需要在开始AI之旅之前将所有的数据都调整到完美状态。但Hardy说,更好的方法是让他们以迭代的方式改变其数据管理实践和基础设施。“一旦你奠定了基本原则和实践,你就可以一次一个项目地进行转型,”他说。

其中一个基本原则是网络安全,这是CIO们的首要关注点,据Hardy称。IT领导者需要确保用于训练模型的数据不违反任何数据隐私规则,而且模型产生的响应与用户的访问权限一致。“AI系统需要知道是谁在提问,以便带回适当级别的信息,并且不暴露任何额外信息,”Hardy说。

当AI作为云服务提供时,还必须减轻暴露知识产权的风险。“根据你与服务的接口方式,以及数据的类型、主权要求、敏感性要求和法规,你可能会决定一些数据永远不应该存储在云中,”Hardy补充说,“制定指导原则将有助于你根据具体情况决定哪些数据保留在本地,哪些数据上传至云端。”

据Helmer称,应该建立一个管理机构来帮助确保遵循最佳实践。任何开发或部署AI应用程序的人都必须遵守一套规则,这些规则不仅与数据质量一致,而且与保留政策、数据依赖政策和所有适当的法规一致。

“在你的旅程中,决定每个项目的目标结果,”Hardy说,“然后弄清楚你需要什么数据,以及你需要与哪些系统接口来实现这个结果。与其在看不到任何回报之前就试图解决所有问题,不如一次关注一个数据转换结果。”

0 阅读:1

商有精准说

简介:感谢大家的关注