• GenAI正在改变组织管理和利用非结构化数据的方式。
• 非结构化数据包括文档、照片和视频,虽然数量巨大,但难以驾驭。
• 尽管GenAI提供了强大的工具来提取和利用这些数据,但专家强调需要强有力的数据治理。
GenAI正在革新组织管理和使用非结构化数据的方式,这是一种长期以来数量庞大却难以驾驭的资源,但如果没有明确的策略,它可能会打开“潘多拉的盒子”。
结构化数据包括常见的表格、Excel表和数据库,而非结构化数据则涵盖从旧邮件、PDF、采购订单和发票到培训手册和维修指南的所有内容。IDC数据智能与集成软件副总裁Steward Bond指出,由于管理不当,这些数据通常被忽视,闲置在硬盘或云存储中未被使用。
“我认为,使用GenAI来揭示‘黑暗数据’中隐藏的机会是巨大的,”Bond在接受Fierce Network采访时表示,“GenAI可以用于读取未标记或未标签的内容,识别内容中的信息(包括任何敏感信息),并添加适当的元数据,使其变得可见并可用于使用。”
组织生成了海量的非结构化数据,根据IDC全球数据球体(Global DataSphere)的估计,仅在2023年就创造了132泽字节的数据,其中64%来自企业。Bond表示,这其中很多是“黑暗数据”,即没有被适当地捕捉、标记或管理,因此难以访问和使用。
然而,大型语言模型非常适合理解和处理非结构化数据,因为它们通过大量此类内容进行训练。Bond解释说,大型语言模型可以基于非结构化数据输入回答各种问题并生成内容。
事实上,像检索增强生成(RAG)这样的技术提供了一种将额外数据融入模型提示中的方法,从而提高生成内容的准确性和相关性。
非结构化数据能告诉我们什么?
企业和服务提供商都认识到GenAI在从长篇文档、研究论文和电子邮件等非结构化来源中提取并结构化数据方面的潜力。
这种能力对于需要将非结构化数据与下游流程连接的组织至关重要,例如将采购订单集成到ERP系统中,IDC企业内容与知识管理战略研究经理Amy Machado表示。除了简单的提取,GenAI还可以帮助组织搜索、发现、总结,甚至基于现有的非结构化数据生成新内容。
Machado在接受Fierce采访时表示,这将以往难以访问的知识转化为可执行的洞察,从而推动业务流程和决策。“很多非结构化数据中存储了知识。”她补充道。
例如,AWS现在使用GenAI来增强其销售团队的能力,通过将CRM系统中的结构化数据与销售资料等非结构化数据结合,模型能够生成全面的客户账户摘要,为销售团队提供更多上下文相关的见解。
结构化数据提供了定量基础(例如,消费、管道)以及历史趋势,而非结构化数据则增加了定性的深度。像销售资料和外部网页数据这样的非结构化内容提供了结构化数据可能遗漏的背景和细节。
“GenAI和大型语言模型彻底改变了我们对非结构化内容的处理方式,过去大规模分析这些内容一直具有挑战性。”AWS GenAI首席技术产品经理Rupa Boddu在接受Fierce Network采访时表示。
清理不良数据
尽管利用GenAI处理非结构化数据的好处显而易见,但同样重要的是确保这些模型所使用的数据是准确的、公正的,并且不包含敏感信息。
非结构化数据就像一个数字垃圾场,信息被抛弃并遗忘了很多年。现在,许多公司对其中隐藏的信息几乎没有了解,打开这个“垃圾场”可能会带来不可预见的后果。
Gartner副总裁分析师Bart Willemsen表示,使用非结构化数据进行GenAI应用引发了有关隐私和数据治理的关键问题,“这是大多数企业似乎还未解决的问题。”
Willemsen指出,大多数公司实际上并不了解他们所积累的数据——在某些情况下,这些数据可能有几十年的历史——他们不清楚最初为什么会拥有这些数据,或这些数据服务于什么目的。
如果没有适当的数据治理,GenAI可能会传播错误信息或偏见,导致错误的输出和潜在的有害决策。因此,企业必须实施强有力的数据治理框架,以管理用于训练和部署GenAI模型的非结构化数据的质量和安全性。
Willemsen总结道,企业应该在使用任何AI之前,具备“绝对的、细致的”数据治理控制。“我不在乎AI技术本身有多好,如果你有糟糕的数据,那么你的AI也会很糟糕。”