利用机器学习中的空间元数据,提高地质钻芯的客观量化,如何操作

吐不满的痰娱 2024-12-11 13:09:59

文丨吐不满的痰娱

编辑丨吐不满的痰娱

前言

这项研究提出了一种利用数字岩心图像的空间背景来提高无监督机器学习算法描述准确性的新方法。添加空间元数据可将模型性能平均提高 25%,本研究中表现最佳的模型的准确率达到 90%。然后该模型的输出用于估算 400 米长的钻孔岩心内的新鲜岩石和蚀变岩石的数量,结果表明,该结果与地质学家对岩心本身的估计结果相当。

地质钻芯的重要性

钻入地球以回收岩心进行地质分析是一项必不可少的工具,它能为人们提供宝贵的意见,了解原本无法进入的环境,并产生可用于采矿、基础设施规划和重建地球历史的数据集。描述这些岩心的任务落在专家身上,他们系统地研究回收的材料,以生成一系列描述性和定量日志以及视觉岩心描述。

记录的特征可能包括但不限于岩石类型的变化、矿脉和蚀变特征、结构测量以及井下相对矿物丰度的变化。这些任务非常耗时,并且依赖于对岩心内关键特征丰度的主观估计。此外,人类的解释倾向于高估场景中特定特征的丰富程度,导致个体之间的估计值差异很大和客观的自动化方法可以解决这种潜在的偏见。

除了 VCD 之外岩心还会进行数字成像,在科学钻探的情况下,在进行详细的岩相和地球化学分析之前会测量其物理性质,但需要额外的处理才能使这些数据集可机器读取,从而限制了它们在新兴机器学习应用中的使用。

在钻井活动期间,还可以收集井壁的井下电缆地球物理日志,提供有用的连续数据集,用于将井孔特征与回收的岩心材料进行比较,以补偿不完整的岩心回收。大多数自动对井下岩石类型进行分类的尝试最初都集中在将人工神经网络应用于一维井孔数据。

然而与岩心图像相比,仅使用数值数据存在提供有关岩石的直接信息较少的局限性。最近,利用钻芯图像自动对岩石类型进行分类的努力都利用了卷积神经网络,因为它们更适合图像分析。在训练 CNN 对图像进行分类时,机器学习主要有三种类型:监督式、无监督式和半监督式。

三种学习方式的具体说明

其中半监督式涉及无监督学习与强度较低的监督式学习相结合。训练的初始“学习”阶段是 CNN 确定它认为哪些图像相似和不相似,但是,需要额外的步骤来为图像分配分类或标签。在监督学习中,每个训练图像都已标记,以便为模型提供目标输出,但这需要注释者付出巨大努力。

相比之下无监督学习不涉及任何标记工作,因为网络从每张图像中提取显着信息,称为潜在表示,而聚类技术允许根据这些简化的表示对图像进行分组。然后,专家检查这些群集并为每个群集提供标签。当采用半监督方法时,可以将专家标记图像的子集提供给无监督模型,以允许其对所有图像进行聚类并分配标签。

图像的标记基于其潜在表示在超维特征空间中相对于专家标记子集的位置。迄今为止,已经有许多尝试使用神经网络对钻芯图像进行分类,所有这些尝试都采用了略有不同的方法。

曾经一些研究者使用监督方法训练 CNN,将 1500 张 2D 灰度井壁电阻率图像数据集分类为三种纹理不同的沉积岩类型。他们的训练图像数量存在类别不平衡,使用的砂岩图像数量要多一个数量级,目的是提高模型识别潜在碳氢化合物储层的能力。

同样,还有一部分研究者使用监督工作流程比较了几种 CNN 模型架构在盒状岩心部分照片中识别三种沉积岩类型的性能,其中 ResNeXt-50 CNN 架构的表现优于其他网络。他们的训练数据集包括 76,500 个2 cm从盒子照片中裁剪出的补丁,并且所有模型都经过训练以识别图像中的非核心文物。

以避免将它们标记为地质感兴趣的类别。尽管这项工作显示出有希望的结果,但此类模型只能对少数不同的岩石类别进行分类,因此对于显示地质特征变化更大的更复杂的图像数据集的适用性有限。最近,一小部分研究者展示了一种基于微调 CNN 的监督工作流程,以识别地下工程项目中常见的 10 种岩石类型。

他们的工作表明,ResNeSt-50 的最佳预测准确率达到 99.6%。模型的监督训练需要专家精心准备输入数据,以确保每个所需类别都得到很好的表示。为此这些研究者们使用 15,000 个 3 cm 标记图像训练他们的模型,这些图像是每种岩石类型的最佳示例,首先丢弃不感兴趣的图像,例如破碎结构和蜡笔痕迹。

从训练数据集中删除的图像也是基于作者认为会使 CNN 感到困惑并导致它们错误分类感兴趣的特征的内容来定义的。对所有已知岩石类型的大型图像数据库进行标记将提供广泛适用的训练数据集,然而,与卫星图像和物体识别研究不同,目前尚无公开可用的训练数据集来对钻孔岩芯中的常见岩石类型进行分类。

部分原因是很少有资源用于标记此类数据集,但也因为很难将具有可变分辨率和质量的单个数据集组合到单个数据库中。为了解决这些限制,本研究旨在为研究人员提供一种以最小的努力按数据集分析大量图像的方法,希望可以开始出现广泛适用的岩石图像训练数据集。

此外已经证明将空间信息与数值数据集一起使用可以改善存储在数据中的地质信息的自动分类,在这里我们首次尝试利用空间信息对数字地质岩心图像进行分类。

相关研究框架的设计

在本研究中我们修改了两个无监督学习框架,这两个框架最初设计用于使用 3D 地理位置元数据来改善海底图像的语义解释,改为使用图像在 3D 钻孔岩心图像表面的 xy 坐标。第一个框架使用一个自动编码器,该编码器在添加和不添加此空间元数据的情况下都进行了训练。

而第二个框架使用两种对比学习方法,一种利用元数据,另一种不利用元数据。我们审查了每个框架的性能以确定哪个最准确,并提出了一种新颖的半监督工作流程,使用带有空间元数据的图像来训练 CNN。然后使用性能最佳的模型的输出自动生成热液蚀变范围的井下日志,并与专家生成的蚀变日志进行对比。

对比学习是一种无监督的机器学习技术,它尝试通过将h中相近的相似图像对与h中相距较远的随机不相似图像对进行比较来学习图像中的特征。这种比较的目的是最大化正对之间的相似性并最小化负对之间的相似性。对比学习的一个问题是,你必须确认正对图像确实相似。

为此,一些研究人员开发了一个自监督的视觉表征对比学习框架,该框架试图提高可变增强图像来自同一原始图像。在每次训练迭代中,都会选取N张图像的一个小批量进行增强。在增强过程中,会应用随机裁剪、颜色失真和高斯模糊,然后使用 CNN 作为基础编码器从增强图像中提取表示,即特征向量。

然后投影头由一个两层的多层感知器组成,它会产生一个嵌入被映射到潜在空间,在每次训练迭代中,使用具有线性速率缩放的随机梯度下降优化器来更新基础编码器和投影头参数,以实现最快的训练损失。使用 SimCLR 训练的 CNN 的微调也显示出更高的准确率,即使提供的手工标记图像数量减少了两个数量级。

在量化机器学习算法的性能时,有许多常用的性能指标,例如准确率、精确率和召回率。以前使用机器学习对岩心图像进行分类的尝试主要仅使用准确率来报告模型性能。但是,当训练数据集中每个类别的比例不平衡时,如果模型在对最丰富的类别进行分类时表现特别好,准确率可能会被夸大。

专家生成的 GT1A 孔蚀变数据包括对蚀变特征平均比例的视觉估计,以及连续井下间隔内相对较新的背景岩石。这些间隔的深度和长度由蚀变性质和程度的明显变化决定。为了与 GT1A 孔中厘米级的基于 AI 的数据进行比较,我们假设给定间隔中蚀变特征的比例代表该间隔中每厘米岩心。

通过这一假设,我们可以通过对间隔中所有蚀变类型的比例求和来计算基于连续井下视觉岩心描述的蚀变程度和背景岩石估计值。然后,通过计算 GeoCLR 在井下每厘米标记为“蚀变带”的斑块百分比,从基于人工智能的岩心记录数据中生成了可比较的深度分辨率数据集。

同样标记为辉长岩类的图像比例用于推断井下每厘米相对较新的背景岩的数量。GeoCLR 将“蚀变带”图像分类为 f 1 = 0.9,尽管验证数据集中分别有 3% 和 5% 被错误标记为泡沫和 A 型脉。泡沫被插入到蚀变和裂缝过于严重而无法在 DMT 岩心扫描仪上扫描的区域。

而脉状岩心与岩心的高水平蚀变同时出现。因此,这些类别的存在表明存在蚀变,因此它们的错误分类预计不会显著偏向井下蚀变程度图。

结语

本研究提出了一种新颖的半监督机器学习方法,用于分析和分类地质图像,该方法利用空间元数据来提高机器学习的准确性,并可将其实现到现有的 CNN 架构中。此方法可应用于任何带有空间元数据的地球或空间图像数据集。

文章描述过程、图片都来源于网络,此文章旨在倡导社会正能量,无低俗等不良引导。如涉及版权或者人物侵权问题,请及时联系我们,我们将第一时间删除内容!如有事件存疑部分,联系后即刻删除或作出更改。

0 阅读:0

吐不满的痰娱

简介:用冷静、专业的视角带给你不一样的认知 春花秋月