金融行业|商业银行替代数据应用综述——为银行找数据系列(一)

鲁鲁经济 2024-04-24 06:47:35

商业银行,替代数据,智能风控

数据是数字经济时代重要的生产要素,更是数字金融的基石,是金融机构数字化转型与金融科技发展的基础。虽然规模效应是数据要素价值释放的重要助力,但是若银行所拥有和使用的数据质量较差、可用性较低,不仅可能提升银行的储存、使用成本,还可能导致“投毒”模型、造成银行决策失误的问题。因此,选择哪些合适的数据引入和运用成为了未来银行数字化转型、做好“数字金融”大文章的重要课题。

实践中,替代数据(Alternative Data)在金融业务中的重要性已获得了多方的认可。传统信贷数据包括信贷额度、历史记录等信息,而替代数据是指金融消费者传统信贷数据之外的、具备信用补充性质的数据信息。替代数据的有效运用有助于缓解银行与企业之间的信息不对称,提升授信准确度,防范潜在信用风险,并在一定程度上能助力普惠金融的发展,降低部分市场主体的借贷成本。不过,当前我国银行使用替代数据也面临的一定挑战:

第一,替代数据来源多样,与数据来源机构的合作需要设计科学的机制。我国金融业此前对于替代数据的应用,来源多是政务或公用事业类数据,数据引入的治理也以行政力量为主。未来随着数据来源更加多样,也将引入更多来自市场机构的数据,需要更科学的市场治理机制。

第二,替代数据标准不一、质量参差不齐,对银行的数据治理能力提出较高要求。在此背景下,银行应当做好几点:一是需要进行数据质量的评价,二是需要进行多数据来源的数据贯标与对齐,三是要逐步建立在全国范围内从价值出发的数据筛选工作的能力。

第三,替代数据呈现出体量大、非结构化等特征,商业银行面临较高的数据分析能力挑战。大规模替代数据的引入与应用,商业银行必须具备相应匹配的数据分析能力,尤其是针对非结构化数据,需要储备相应的方法论。

第四,当前银行引入替代数据的采购成本较高。短期内数据资产以成本法估值的特点,以及数据交易仍少难以摊薄前期成本的情况,结合“点对点”的撮合交易模式,使得金融机构在从外部获取数据时容易承受额外溢价。

虽然2021年9月人民银行发布的《征信业务管理办法》规定:“金融机构不得与未取得合法征信业务资质的市场机构开展商业合作获取征信服务。”不过,在实践中,一方面,征信数据“断直连”更聚焦于网络平台等主体与金融机构的数据直连,公用事业等多种其他类别的信息并未“断直联”。另一方面,当前持牌征信机构数量较少,服务能力受到制约。因此,银行从授信的角度出发,仍有较大的可能和较强的动力通过多种渠道引入替代数据。

当前境内外对于替代数据的分类多是从实际应用角度出发,且存在分类多样化、缺乏统一性的情况。以世界银行在2019年发布的报告《信用评分方法指南》为例,较为成熟的替代数据大致可以分为四个类别:细分交易数据、移动应用数据、社交网络数据、公用事业数据。后续我们将从零售客户和企业客户两个角度梳理商业银行可以使用替代数据的境内外经验,形成为商业银行找数据的系列研究报告。

近年来,随着数字经济发展,经济活动中产生的数据种类和数量出现了爆炸式增长,数据已逐步成为数字时代新的生产要素。2023年,中央金融工作会议提出了要做好数字金融大文章的要求,进一步推动了数据要素在金融行业中的应用。在金融机构使用数据的全生命周期中,包括了数据的生成或引入、治理、存储、加工、应用、传输、销毁等一系列环节。除了银行经营过程中内部生成的数据之外,数据的引入是银行运用数据的起点。对于银行而言,选择适当的数据进行引入,不仅能提升数据购买、系统建设等投入的性价比,还可以避免过量引入数据所造成的储存成本增加、数据架构建设难度增大等问题。为了更好助力银行找准可以引入的数据,本文将聚焦于银行资产投放和授信等行为,对银行可用的替代数据(Alternative data)进行梳理。

一、数据:数字金融发展的基石

数据是数字经济时代重要的生产要素,更是发展数字金融的基石,有效筛选、用好数据是金融机构数字化转型与有效发展金融科技的基础。我们在2023年11月26日发布的《数字金融:内涵与机遇》[1]报告中指出,数据要素的开发与应用是数字金融的第一层内涵。因而,金融机构对于数据要素的高效开发是金融科技充分发挥作用、金融机构业务模式和渠道全面创新的坚实基础。

从金融机构有效运用数据的角度出发,引入充足、合适和高质量的数据,是银行使用各类金融科技之“术”赋能提升经营质效之“道”的必然要求。在数据的使用实践中,规模效应是数据要素价值释放的重要助力。充足的数据储备是数据应用的前提,引入丰富多样的数据将有助于业务前端创新,形成数据总量到业务应用的势能储备。不过值得注意的是,银行所拥有和使用的数据也并非越多越好,如果拥有或使用大量质量较差、可用性有限的数据,不仅会提升银行储存、使用数据的成本,还可能因为低质数据误导结论、“投毒”模型,进而造成银行微观乃至宏观决策出现失误。

由数据来源入手,将可以最主动地在事前把控好数据质量的“入口”,因此未来选准并引入合适的外部数据将成为银行发展数字金融的重要根基。从银行可以运用的数据来看,主要分为两类:一是银行在服务客户或开展交易过程中内部产生的数据;二是银行无偿或有偿的从各类外部来源所获得的数据。在实践中,不少金融机构对于行内已拥有数据的归集、梳理和运用已取得初步成效,因而对于数据资源价值的挖掘也逐步从内部转向外部。同时,根据我们在2023年12月15日所发布的《数字金融的大文章如何谱写?——2024年数字金融展望》[2]报告中指出,未来通过数据流通赋能业务发展将成为数据价值在金融领域释放的关注点。考虑到各类金融数据敏感性较强、安全等级较高,数据向外流通短期还有一定困难,因此对于银行等金融机构而言,通过数据流通赋能业务发展的关键在于外部数据的引入。

2024年1月,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》(国数政策〔2023〕11号,以下简称“《行动计划》”),旨在解决数据要素应用中存在的数据供给质量不高、流通机制不畅、应用潜力释放不够等问题。《行动计划》给出了工业制造、现代农业、商贸流通等总计12个数据要素聚集的重点领域,梳理了不同领域存在的、可应用的数据资源,并指明了各类数据资源运用的未来发展方向,可以视作我国各行业领域发展数字经济的“工作手册”。

应当指出的是,《行动计划》不仅在“金融服务”领域重点提出了“支持金融机构融合利用科技、环保、工商、税务、气象、消费、医疗、社保、农业农村、水电气等数据”的要求,还给出了其他经济领域运转过程中需重点关注的数据类型。考虑到对于金融机构而言,所有描述企业行为的数据都可以成为金融机构应该关注,并思考是否具有使用价值的数据。因此,《行动计划》在一定程度上给出了金融机构引入更丰富的外部数据的方向指引。例如,在绿色低碳领域,《行动计划》提出要“支持打通关键产品全生产周期的物料、辅料、能源等碳排放数据以及行业碳足迹数据”,虽然该要求并没有明确提到金融服务,但在碳交易过程中,金融服务不可或缺。我们此前在2023年9月17日发布的报告《数字人民币与碳账户融合发展意义重大》[3]中指出,数字货币与碳账户的紧密结合,将准确、高效、便捷地记录碳足迹,有助于推动智能合约在绿色金融业务领域的应用。又如,在交通运输领域中,《行动计划》提出要“构建覆盖车辆营运行为、事故统计等高质量动态数据集,为差异化信贷、保险服务、二手车消费等提供数据支撑”,由此而产生的数据更将可以直接应用于金融服务中。

二、替代数据:银行可用数据的潜在“富矿”

2.1 替代数据的使用重塑金融业

替代数据(Alternative Data)在金融业的重要性已获认可。美联储在2005年发表的工作论文《A Century of Consumer Credit Reporting in America》中给出了替代数据的定义,替代数据是指金融消费者传统信贷数据之外的、具备信用补充性质的数据信息(Hunt,2005)。根据上述定义,传统信贷数据包括信贷额度、历史交易数据等信息。因此,前述《行动方案》中提到的数据均属于替代数据范畴。

在我国,金融机构对于替代数据的应用也获得了监管部门的认可和鼓励。2021年9月27日,人民银行发布《征信业务管理办法》(人民银行令〔2021〕第4号),将信用信息“按照依法采集、为金融等活动提供服务、用于识别判断企业和个人信用状况等三个维度,将符合上述标准的基本信息、借贷信息、其他相关信息,以及基于这些信息的分析评价信息界定为信用信息”,其中的“其他相关信息”基本与此前美联储所述的“替代数据”定义相同。在人民银行为《征信业务管理办法》配发的答记者问中,人民银行还进一步指出[4],“随着数字经济的快速发展,互联网和大数据等新技术在征信领域广泛应用,大量有效‘替代数据’被采集、分析和应用于判断企业和个人信用状况,征信已突破传统借贷信息共享的范围”。因此,《征信业务管理办法》“将征信‘替代数据’应用纳入监管,并强调从事征信业务需取得合法资质”。

替代数据的有效运用有助于缓解银行与企业之间的信息不对称,从而提升信贷市场效率,并在一定程度上降低部分市场主体的借贷成本。IMF在2019年发表的《数据的经济效应与含义:全览视角》(The Economics and Implications of Data: An Integrated Perspective)报告中指出[5],数据可能会对银行和金融科技企业在贷款领域的市场结构产生影响,若有银行能将财务数据与来自互联网的各类替代数据相结合,将使得金融机构在竞争中获得比较优势:

第一,有助于提高银行的授信能力。北京大学国家发展研究院副院长黄益平在研究中指出,依靠大数据的风控模型具有突出的信息优势和模型优势,能够更加准确地预测违约,从而有效提升银行的信贷投放能力(黄益平和邱晗,2021)。

第二,促进金融服务的可得性,并降低普惠小微主体的借贷成本,助力普惠金融。此前,全球各主要经济体金融机构在面向小微企业等各类主体开展普惠金融信贷投放的过程中,一大痛点就在于银企之间的信息不对称。为了缓解信息不对称所造成的潜在信用风险高企,银行一般通过提升贷款利率,以更高的利息水平来覆盖可能的信用风险损失。清华大学研究团队的一篇研究论文指出,数据要素的交互将可以影响信贷市场的竞争格局,若商业银行与金融科技企业共享客户的财务数据和互联网数据,将有助于提高信用分析精度并促进市场竞争,不仅会增加高信用质量借款者获得贷款的概率,还会降低贷款利率(谢丹夏等,2022)。

2.2 商业银行替代数据应用存挑战

应当指出的是,虽然替代数据的应用对银行授信有着较好的提升效果,但同样存在一定的挑战。

第一,替代数据来源多样,与数据来源机构的合作需要设计科学的机制。人民银行征信研究中心2023年的研究成果指出,基于替代数据共享中的频率、数据专用性、影响数据共享的不确定性等,需要针对不同替代数据来源,选择合适的引入机制。目前较为成熟的替代数据治理机制有市场治理机制、层级治理机制与混合治理机制。市场治理是指在契约治理过程中,主要借助市场机制下的高激励强度实现替代数据流动契约的执行。层级治理是指在契约治理过程中,主要借助行政控制的力量推动契约的达成和执行。混合治理是指在契约治理过程中,既依靠市场治理的激励强度,也依靠层级治理的行政力量,从而在各方面处于中间状态。例如,当数据专用性越强、预期未来会与同一伙伴频繁交易、该伙伴是否合作的不确定性越高时,采用以行政力量为主的层级治理就更能节约交易成本(贺新宇,2023)。

应当指出的是,我国金融业前期替代数据的应用,由于来源大多是税务、公积金的政府公共数据,数据引入的治理机制也以行政力量为主导的层级治理为主。未来,随着数据来源更加多样,替代数据来源中也将出现更多的市场机构,需要更加科学的市场治理机制。各地大数据交易所一方面通过数据交易的收益提供了市场激励,另一方面也将具备一定的行政影响,或将成为混合治理机制的关键。

第二,替代数据标准不一、质量参差不齐,对银行的数据治理能力提出较高要求。不同来源的数据标准不统一,数据质量良莠不齐,信息黑箱严重,严重阻碍数据要素市场流动,是商业银行引入外部数据时面临的普遍情形。真实性原则、完整性原则、及时性原则、安全性原则是利用替代数据开展征信业务的主要原则(贺新宇,2023)。未来,商业银行的数据治理能力需在以下方面重点提升:

一是需要进行数据质量的评价工作。数据质量是影响数据使用的最重要因素,需要建立数据质量评价的普适方法论。与数据价值评估不同,数据质量评价不需将数据质量与货值进行对应,可以采用估值技术法对数据进行质量评价,应重点关注数据包含的信息量、完整性、有效性、及时性等。值得注意的是,数据造假同样属于数据质量问题,由于该问题容易在后续分析中造成严重的数据问题,需要设置前置模型对数据真实性进行检测。

二是需要进行多数据来源的数据贯标与对齐工作。由于目前数据要素市场相对分散,尚无法形成覆盖全国范围的数据产品,而在全国统一大市场的趋势下,跨地域企业不断增多,银行面临着跨区域授信场景,对覆盖全国范围内的统一数据有着强烈需求。然而由于数据在不同地区、不同行业、不同企业之间的标准不统一,建立统一的企业级数据字典并对引入的外部数据同步贯标是形成数据规模优势的难点所在。企业级数据字典覆盖银行各业务和技术活动中涉及的所有数据信息,通过对数据信息的表达、格式及定义的一致约定,实现对数据标准化、结构化的描述,为业务、技术人员提供明确的数据规范,促进数据统一。

三是要具备在全国范围内从价值出发的数据筛选工作。当前我国数据交易市场仍相对分散,数据产品品类复杂,质量参差不齐,即使经过数据交易所的初步审核,数据质量较双边交易有所提升,但仍无法保证数据能完全满足业务需求,或确保该数据可以带来足额的附加价值。因此,我们在2023年12月15日发布的报告《数字金融大文章如何谱写?——2024年数字金融展望》[6]中指出,未来全国性商业银行应考虑在总行层面建立数据筛选准入机制,统筹各业务条线、各分行的数据需求,在全国的数据交易所内进行数据筛选,综合考量数据来源、数据质量以及数据可能带来的价值,引入最合适的数据产品。

第三,替代数据呈现出体量大、非结构化等特征,商业银行面临较高的数据分析能力挑战。随着技术水平的进步,数据的内涵不断延申。

一方面,是数据的产生从主动记录到被动产生并记录。在银行存取款仍采用存折方式的时代,银行掌握的数据仅为客户的存取款记录,而这是需要客户到银行网点办理业务主动记录的。随着金融电子化的推进,当前银行的客户可以通过移动网络使用银行服务,使用过程中被动地产生大量数据并被记录下来,除账户信息外,还有用户对于银行APP的使用频率、使用习惯、风险好恶等,在获取用户许可后相关信息和数据不断的生成和记录,这不仅拓展了数据的维度,还极大的增大了数据的体量。

另一方面,是数据类型从结构化到非结构化。在数十年之前,数据经常和表格联系在一起,大多数的数据为字段的观测,具有明显的行列结构;而随着技术的进步,三维矩阵像素结构的图片、数列音轨结构的音频、连续三维矩阵结构的视频、序列结构的语言文字等,均是非结构化的数据,这些数据在人脸识别、语音控制、翻译等日常领域中已经深度应用。大规模替代数据的引入与应用,使得商业银行也必须具备相应匹配的数据分析能力,尤其是针对非结构化数据,需要储备相应的方法论。

第四,当前银行引入替代数据的采购成本较高,短期内数据资产以成本法估值且尚未形成规模化交易的情况,以及“点对点”的撮合交易模式或将使金融机构承受额外数据采购溢价。

从理论上来看,在早期的数据要素市场中,数据资产估值将以成本法为主,若是数据资产交易尚未规模化开展,则数据形成前期的固定成本将难以摊薄,从而会抬高数据资产估值。成本法操作简单,适合作为数据要素市场发展初期的估值方法,在推动企业数据资产入表上具有速度快、争议少的特点,也是目前主流的数据资产估值方法。但由于数据资产的成本主要集中在前期的固定成本上,若是无法形成大规模数据交易,那么可能出现金融机构等数据需求方在早期购买数据资产时承受额外“溢价”的情况。据调研了解,某地公用数据资产将前期的平台建设成本计入数据资产成本,最终由引入该数据资产的十数家金融机构平摊该项成本。应当指出的是,后续随着数据资产的大范围运用于交易,形成数据资产所需的前期固定成本被摊薄,单位数据资产的成本将有所回落,银行引入替代数据的成本将有所降低。

从实践中来看,目前各大数据交易平台仍然主要采取“点对点”的撮合模式,数据交易成本仍较高。以贵阳大数据交易所为例,其针对不同产品支持多元化的交易收费方式。一是针对数据查询、数据服务等交易标的,采取按次收费的方式,如货车风险评分的收费方式为每次8元,DSMM评估服务的价格为每次20万元。二是针对离线数据集等交易标的采取一次付费终身使用的方式,以金融场景中的数据资产包为例,其中包括农民工工资的数额、发放人数以及工资发放时间等,由贵州明翌达科技服务股份有限公司提供,标的价格为1万元。不过,一次付费终身使用的方式并未给出后续数据更新的具体条款。三是针对特殊数据产品或定制化服务,需采取面议价格的收费方式,如贵州省的气象在线数据产品服务、知识图谱构建与挖掘工具等。应当指出的是,未来,随着数据要素市场的成熟,数据资产流通的愈发健全和完备,数据流通过程中的交易方式也将不断丰富,更高的流动性和更丰富的交易手段也将可能逐步压降数据资产的标价,从而降低银行从外部获取数据的成本。

2.3 征信断直连对替代数据应用的影响

2021年9月,人民银行依据《个人信息保护法》等上位法发布《征信业务管理办法》(中国人民银行令[2021]第4号,以下简称“《征信办法》”),规定“金融机构不得与未取得合法征信业务资质的市场机构开展商业合作获取征信服务”。具体来说,即网络平台在与金融机构开展助贷等业务时,不能直接将网络平台获得和存储的个人信息以及平台其他数据直接向金融机构提供。而需统一经过持牌征信机构的转接,“网络平台—征信机构—金融机构”成为替代数据应用于金融业的新模式。

《征信办法》于2022年1月1日起施行,考虑到信用数据“断直连”将给互联网平台、数据公司等与金融机构的业务合作模式带来较大的调整压力,因而《征信办法》设置了过渡期,允许暂未取得征信业务资质但实质从事征信业务的市场机构在2023年6月底前完成整改。不过,在实际落地过程中,数据“断直联”仍存在一些细节有待厘清:

一是断直连的数据范围并不明晰。《征信办法》第三条规定:“信用信息是指为金融经济活动提供服务,用于判断个人和企业信用状况的基本信息、借贷信息、其他相关信息,以及基于前述信息形成的分析、评价类信息。”同时,《征信办法》规定:“征信业务是指对企业和个人的信用信息进行采集、整理、保存、加工,并向信息使用者提供的活动。”

从理论上来看,设定较为宽泛的信用信息定义,从广义上可以涵盖所有用于征信的信息,进而使得使用信用信息开展征信业务需要全部断直连。但在实践中,《征信办法》对数据“断直连”重点针对的是大型网络平台利用其数据与金融机构合作授信的业务模式,而大型网络平台数据仅是替代数据的一个类别,商业银行在引入社保、税务、公积金等替代数据用于授信时未受到影响。因此,征信数据“断直连”并非断掉所有替代数据,鉴于银行等金融机构仍然保有自主独立授信的需求,其引入替代数据仍然具有较高业务价值。

二是持牌征信机构数量较少,服务能力受到制约。目前,持有人民银行发放的个人征信牌照的机构仅有百行征信与朴道征信,上述两家机构先后于2018年与2020年获得人民银行个人征信业务许可。其中,百行征信的大股东为中国互联网金融协会,持股36%,另有考拉征信、腾讯征信等8家企业分别持股8%;朴道征信的大股东为北京金融控股集团,持股35%,京东科技、北京小米等4家企业共同持股65%。在上述两家机构获得拍照后,个人征信牌照审批陷入暂停。早在2021年11月,钱塘征信个人征信牌照业务申请已获人民银行受理,但审批结果却暂未公开。钱塘征信股东中,浙旅投集团、蚂蚁集团分别持股35%,同为大股东,钱塘征信个人征信牌照暂缓或是受到蚂蚁集团整改的影响。2024年1月24日,人民银行行长潘功胜在国新办新闻发布会上表示人民银行正会同浙江省政府指导钱塘征信申请办理个人征信牌照[7],或意味着个人征信牌照的申请审核工作再度开启。

短期来看,持牌个人征信机构的数量不会大幅增加,而且其同时面临巨大的人员、设备、技术、数据分析和治理能力等方面的压力,海量、高频、关联度低且场景性极强的替代数据,与传统信贷记录差异巨大,且更新迭代的速度极快,若仅靠两家持牌征信公司,很难据此形成完整的客户“画像”(张健华和朱诗怡,2023)。

因此,从商业银行自身征信的需求侧与持牌个人征信机构的供给侧来看,商业银行均有引入替代数据进行自主独立授信的需求。

三、金融行业替代数据应用综述

3.1 替代数据范围与分类

当前境内外对于替代数据的分类多是从实际应用角度出发,且存在多样化、缺乏统一性的情况,由于替代数据的实际探索运用走在了理论研究之前,因此现有的多种基于实践的替代数据范围界定和分类方式仍存在较多缺陷,有较大改进空间。

替代数据已将聚焦局限于银行可用于授信支持的范畴之内,然而,替代数据的定义方式决定了其范围仍然是广泛乃至无限的。由于经济的发展模式正在逐步走向电子化和数字化,可记录的信息逐渐增多,可应用的替代数据也日渐丰富,现有分类方式较难涵盖所有替代数据。

人民银行费宪进等(2020)的研究指出,由于各国经济金融环境存在差异,同类信息的采集难易度、用于信贷决策的价值不一,因此替代数据的采集范围和内容存在差异。费宪进等(2020)将替代数据分为八个类别:一是需要定期付款的付款数据,如电信、租金、保险或公用事业缴费;二是账户交易和现金流量数据等客户资产信息,如存款、收入信息等;三是客户稳定性数据,如职业、住址等更换频率;四是客户基础信息,如教育程度、工作岗位等;五是消费者资质信息,如证书、奖励、行政许可等;六是客户网络行为信息,如网络评论、社交平台信息等;七是客户社交节点信息。

清华大学五道口金融学院的研究则进一步将替代数据的分类进行整合[8],将目前应用较为广泛的替代数据分为以下四大类:一是公用事业数据,包括水、电、气、通信等缴费信息。二是政府和司法部门数据,包括纳税、法院判决、学历、就业等信息。三是场景数据,包括社交信息、电子商务信息、支付结算流水等信息。四是调查性数据,指有关消费者品性、一般名誉、个人消费者特点或生活方式的信息。

世界银行在2019年发布报告《信用评分方法指南》[9](Credit Scoring Approaches Guidelines),指出应用较为成熟的替代数据可以分为四个类别:一是细分交易数据(Granular Transactional Data),例如信用卡交易数据、企业转账数据等,交易数据可以提供更加丰富与及时性更强的客户财务状况(Barasch,2017)。二是移动应用数据(Mobile Data),智能手机使用量的大幅增加导致了各种各样的结构化和非结构化数据的出现,例如APP使用数据、地理位置数据等,可以极大改善传统授信方式的有效性(Grab,2018)。三是社交网络数据(Social Media Data),Blazquez and Domenech(2018)的研究指出,客户在社交网络的动态有助于更好地了解其生活方式、偿债意愿与能力。四是公用事业数据(Utilities Data),主要是是指税务、水电等公用事业账单支付历史记录。

从上述各项研究的分类可以看出,替代数据的分类原则大体相似,主要是从实际应用出发,没有严格标准。不过替代数据分类原则的相对多样化和缺乏统一标准也导致了替代数据的分类存在一定的局限性:一方面,导致分类之间存在互相交叉的情况,例如客户基础信息与客户资质信息较为同质化,社交网络数据与移动应用数据存在交叉。另一方面,覆盖范围不全面,消费、医疗、车联网等替代数据并未覆盖。

未来,随着替代数据的深度应用,由于替代数据的开放性,即几乎所有数据在进行零售与企业客户画像时均可有助益,替代数据的类别将更加丰富。

3.2 替代数据应用监管要点

替代数据的应用是以商业银行为代表的金融机构发展的重大机遇,一方面将可以提高商业银行的授信能力,在土地金融逐渐失效的大背景下,增强商业银行的信用贷投放能力;另一方面有助于推进普惠金融,可以扩大商业银行服务的客户群体范围。但替代数据的应用涉及个人隐私、数据安全、网络安全等诸多方面。2023年11月末召开的中央金融工作会议提出“数字金融”作为五篇大文章之一,数据要素作为数字金融的基石,针对替代数据在金融领域的应用需要全面科学的监管设置。

世界银行在2017年发布研究报告《替代数据改善中小企业融资》[10](Alternative Data Transforming SME Finance),其指出了未来针对替代数据应用的部分监管政策要点:

一是数据隐私保护。随着从客户的消费记录、移动足迹到社交媒体等收集到的替代数据范围和类型不断增加,人们对隐私和对数据收集和使用方式透明性的需求也愈发关注。伴随银行对零售客户画像的不断深入,必然会出现所收集数据向个人隐私数据的无限逼近。在强调个人隐私与数据安全的大背景下,合法合规是银行使用数据的红线。不同司法辖区的信息隐私法律、规则和原则也存在广泛差异。以数据隐私保护最为严格的欧盟为例,自《通用数据保护条例》(General Data Protection Regulation,GDPR)于2018年正式施行以来,欧盟、欧盟成员国的数据监管机构以GDPR为依据向美国大型跨国企业施以处罚的案例达到数百起。2022年,违规的罚款额达到创纪录的29亿欧元[11],处罚的主要原因包括数据垄断、侵犯个人隐私与数据泄露等。我国也在《个人信息保护法》中规定了个人信息与敏感个人信息的分类规则,以及“最小、必要、征求同意”的个人信息处理原则。

二是针对征信服务商(Reporting Service Providers)的监管。征信服务商包括征信机构、数据代理商、数据经济商、数据分析服务商等机构,由于征信服务商涵盖数据的收集、存储、分析与流转的全过程,其间涉及数据的权属、责任与权益的划分。数据这一新型生产要素的特殊性造成了征信服务商业模式的特殊性,结合数据安全与个人隐私保护,收集和共享替代数据的监管政策制定是监管当局需要面临的最大挑战。世界各国的征信模式均不相同,我国以人民银行征信系统为主包括个人征信与企业征信,辅以私营征信机构,即前述《征信办法》中的持牌个人征信机构百行征信、朴道征信与企业征信机构。美国则以私营征信机构为主,其中企业征信又分为资本市场信用和普通企业信用,资本市场信用机构有标普、穆迪、惠誉等,普通企业信用机构包括邓白氏等;美国个人征信体系机构以Experian、 Trans Union和Equifax三大征信机构为主体[12]。应当指出的有两点,一是针对征信服务商的政策制定需要在市场活力、监管合规与隐私保护中做出权衡;二是商业银行在引入替代数据的过程中仍需频繁直接接触数据经纪商、数据服务商等机构。

三是信贷产品的定价透明性。基于替代数据进行授信,可以在技术手段上实现信贷产品利率的“千人千面”,即按照客户的个体情况,针对性的确定贷款利率,以无限可选的利率去对应无限的客户需求。但是,千人千面的利率定价会造成公平问题,即算法黑箱普遍存在的“价格歧视”,在实际执行中面临挑战。世界银行认为,金融机构基于替代数据与模型进行授信时,要保证信贷产品的定价透明性,从而保证金融公平。算法的透明性与可解释性是金融监管部门的监管重点,人民银行在2021年3月发布了《人工智能算法金融应用评价规范》(以下简称“《规范》”)作为推荐性行业标准,提出在安全性评价、可解释性评价、精准性评价、性能评价四个方面对金融算法的评价标准。《规范》的安全性评价中规定算法所用目标函数设计上不存在肤色、性别、国籍、健康等偏见歧视。

目前来看,金融机构对替代数据的应用处于初级阶段,对于公用事业数据等易得性较高的替代数据应用较为成熟。在境内,税务、公积金、社保等公用数据已普遍被商业银行纳入考虑;在国际上,Experian等个人征信机构也已将水电费的支付行为应用于贷款违约的预测,以帮助银行进行贷前授信[13]。在其他替代数据的探索应用上,金融机构呈现点状创新为主的特点。例如,国内金融机构利用遥感气象数据实现物联网与金融业务的深度结合,利用遥感数据进行查勘定损和理赔,特别是农业方面的保险理赔等。北美人寿保险公司John Hancock自2018年起将逐渐停止承保传统人寿保险,转而只销售通过可穿戴设备和智能手机追踪健身和健康数据的互动式保险[14]。

对于商业银行来说,服务的客户大致可以分为零售客户、企业客户与同业客户,考虑到相较于其他两类客户,数据运用赋能银行对同业客户授信能力提升的边际作用相对较弱。因此,后续我们将从零售客户和企业客户两个角度梳理商业银行可以使用替代数据的境内外经验,形成为商业银行找数据的系列研究报告,其中既包括应用较为成熟的替代数据,也包括此前应用较少的新型替代数据。

参考文献:

(1)费宪进,汪雨,朱秋琪,等.征信视角下的替代数据应用研究[J].征信,2020,38(05):8-12+51.

(2)贺新宇.交易成本经济学视角下的替代数据共享机制[J].征信,2023,41(01):26-33.

(3)黄益平,邱晗.大科技信贷:一个新的信用风险管理框架[J].管理世界,2021,37(02):12-21+50+2+16.DOI:10.19744/j.cnki.11-1235/f.2021.0016.

(4)清华五道口金融发展与监管科技研究中心,“征信新规”下的信用数据分享问题研究,2022年第15期总第119期,2022年12月10日。

(5)尚龙飞,王华杰,徐露.基于条件代理重加密的区块链医疗数据共享模型[J].现代电子技术,2024,47(01):78-83.DOI:10.16652/j.issn.1004-373x.2024.01.014.

(6)谢丹夏,魏文石,李尧等.数据要素配置、信贷市场竞争与福利分析[J].中国工业经济,2022(08):25-43.DOI:10.19581/j.cnki.ciejournal.2022.08.006.

(7)张健华,朱诗怡.替代数据在征信业中的应用与国际经验[J].征信,2023,41(12):13-19.。

(8)Altman, E. I., & Sabato, G. (2007). Modelling credit risk for SMEs: Evidence from the US market. Abacus, 43(3), 332–357.

(9)Askar, M. , Aboutabl, A. and Galal, A. (2022) Utilizing Social Media Data Analytics to Enhance Banking Services. Intelligent Information Management, 14, 1-14. doi: 10.4236/iim.2022.141001.

(10)Berg, T., M. Puri, and J. Rocholl (2017): Loan Officer Incentives, Internal Rating Models and Default rates, Working Paper.

(11)Barasch, Ron. 2017. “Leveraging Alternative Data to Energize Your Lending Portfolio.” Yodlee.com. https://www.yodlee.com/blog/leveragingalternative-data-energize-lending-portfolio/.

(12)Blazquez, Desamparados, and Josep Domenech.2018. “Big Data Sources and Methods for Social and Economic Analyses.” Technological Forecasting and Social Change 130: 99–113.

(13)Ciampi, F. (2015). Corporate governance characteristics and default prediction modeling for small enterprises. An empirical analysis of Italian firms. Journal of Business Research, 68(5), 1012–1025.

(14)F. M. Manzira and F. Bankole, "Application of Social Media Analytics in the Banking Sector to Drive Growth and Sustainability: A Proposed Integrated Framework," 2018 Open Innovations Conference (OI), Johannesburg, South Africa, 2018, pp. 223-233, doi: 10.1109/OI.2018.8535833.

(15)Grab. 2018. “Grab and Credit Saison Form Financial Services Joint Venture to Expand Access to Credit for Southeast Asia’s Unbanked.” March. https://www.grab.com/sg/press/others/grab-and-credit-saisonform-financial-services-joint-venture-to-expandaccess-to-credit-for-southeast-asias-unbanked/.

(16)Grunert, J., Norden, L., & Weber, M. (2005). The role of non-financial factors in internal credit ratings. Journal of Banking and Finance, 29(2), 509–531.

(17)Hunt R. M. A Century of Consumer Credit Reporting in America[R]. Federal Reserve Bank of Philadelphia working paper NO.05-13,2005.

(18)Norden, L., & Weber, M. (2010). Credit line utilization, checking account activity, and default risk of bank borrowers. Review of Financial Studies, 23(10), 3665–3699.

(19)Tobias Berg, Valentin Burg, Ana Gombović, Manju Puri, On the Rise of FinTechs: Credit Scoring Using Digital Footprints, The Review of Financial Studies, Volume 33, Issue 7, July 2020, Pages 2845–2897, https://doi.org/10.1093/rfs/hhz099.

(20)Zhang, M., & Pang, L. J. (2019). Review of domestic application research of big datamining technology-SVM in credit risk evaluation. In 3rd international seminar on education innovation and economic management (SEIEM 2018). Atlantis Press.

注:

[1]https://open.weixin.qq.com/connect/oauth2/authorize?appid=wxf7eeddbe7ba26a5c&redirect_uri=https%3A%2F%2Fapp.cibresearch.com%2Ftiptap_web%2Findex.html%23%2FshareUrl%3Fid%3D19aa4299ef9b2dbfd92cd1e7807a4073%26from%3Dapp&response_type=code&scope=snsapi_base&state=123#wechat_redirect。

[2]https://app.cibresearch.com/tiptap_web/index.html#/shareUrl?id=35a3e8396b7f34fae7a6ed0a5aff2ede&from=app。

[3]https://open.weixin.qq.com/connect/oauth2/authorize?appid=wxf7eeddbe7ba26a5c&redirect_uri=https%3A%2F%2Fapp.cibresearch.com%2FshareUrl%3Fname%3D402388a08a4f8a31018aa233ae7e0016&response_type=code&scope=snsapi_base&state=STATE#wechat_redirect。

[4]资料来源:中央人民政府官网,中国人民银行有关负责人就《征信业务管理办法》答记者问,EB/OL,2021/10/1[2024/2/8],https://www.gov.cn/zhengce/2021-10/01/content_5640686.htm。

[5]资料来源:IMF官网,The Economics and Implications of Data: An Integrated Perspective,EB/OL,2019/9/23[2024/2/8],https://www.imf.org/en/Publications/Departmental-Papers-Policy-Papers/Issues/2019/09/20/The-Economics-and-Implications-of-Data-An-Integrated-Perspective-48596。

[6]https://app.cibresearch.com/tiptap_web/index.html#/shareUrl?id=35a3e8396b7f34fae7a6ed0a5aff2ede&from=app。

[7]资料来源:新华社,中国人民银行行长潘功胜:将设立信贷市场司 做好“五篇大文章”相关工作,EB/OL,2024/1/24[2024/2/8],https://baijiahao.baidu.com/s?id=1788961374382734359&wfr=spider&for=pc。

[8]资料来源:清华五道口金融发展与监管科技研究中心,“征信新规”下的信用数据分享问题研究,EB/OL,2022/11/28[2024/4/8],http://thuifr.pbcsf.tsinghua.edu.cn/PBCSF202215.pdf。

[9]资料来源:世界银行官网,Credit Scoring Approaches Guidelines,EB/OL,2019[2024/4/8],https://thedocs.worldbank.org/en/doc/935891585869698451-0130022020/original/CREDITSCORINGAPPROACHESGUIDELINESFINALWEB.pdf。

[10]资料来源:世界银行官网,Alternative Data Transforming SME Finance,EB/OL,2017/5[2024/4/8],https://documents1.worldbank.org/curated/en/701331497329509915/pdf/116186-WP-AlternativeFinanceReportlowres-PUBLIC.pdf。

[11]资料来源:中国商务部官网,2022年欧盟数据违规罚款总额翻倍至29亿欧元,EB/OL,2023/2/15[2024/4/7], http://ie.mofcom.gov.cn/article/jmxw/202302/20230203385050.shtml。

[12]资料来源:前瞻经济学人,2022年全球征信行业发展模式对比剖析 中国以公营模式为主,EB/OL,2022/3/24[2024/4/7],https://baijiahao.baidu.com/s?id=1728164776294914791&wfr=spider&for=pc。

[13]资料来源:Experian官网,Experian Boost: How to sign up, how soon it ‘boosts’ score,EB/OL,2022/4/13[2024/4/7],https://www.creditcards.com/education/experian-boost-how-it-works/#:~:text=Launched%20in%202019%2C%20Experian%20Boost%20is%20a%20program,a%20win-win%20for%20consumers%20and%20the%20credit%20bureau。

[14]资料来源:Insurance Journal,John Hancock Will Only Sell Interactive Life Insurance with Fitness Data Tracking,EB/OL,2018/9/19[2024/4/8],https://www.insurancejournal.com/news/national/2018/09/19/501747.htm#:~:text=John%20Hancock%2C%20one%20of%20the%20oldest%20and%20largest,devices%20and%20smartphones%2C%20the%20company%20said%20on%20Wednesday。

免 责 声 明

兴业经济研究咨询股份有限公司(CIB Research Co.,Ltd.)(中文简称“兴业研究公司”)提供,本报告中所提供的信息,均根据国际和行业通行准则,并以合法渠道获得,但不保证报告所述信息的准确性及完整性,报告阅读者也不应自认该信息是准确和完整的而加以依赖。

本报告中所提供的信息均反映本报告初次公开发布时的判断,我司有权随时补充、更正和修订有关信息,但不保证及时发布。本报告内容仅供报告阅读者参考,一切商业决策均将由报告阅读者综合各方信息后自行作出,对于本报告所提供的信息导致的任何直接或间接的后果,我司不承担任何责任。

本报告的相关研判是基于研究员本人的知识和倾向所做出的,应视为研究员的个人观点,并不代表所在机构。我司可根据客观情况或不同数据来源或分析而发出其它与本报告所提供信息不一致或表达不同观点的报告。研究员本人自认为秉承了客观中立立场,但对报告中的相关信息表达与我司业务利益存在直接或间接关联不做任何保证,相关风险务请报告阅读者独立做出评估,我司和研究员本人不承担由此可能引起的任何法律责任。

本报告中的信息及表达的观点并不构成任何要约或投资建议,不能作为任何投资研究决策的依据,我司未采取行动以确保此报告中所指的信息适合个别的投资者或任何的个体,我司也不推荐基于本报告采取任何行动。

报告中的任何表述,均应从严格经济学意义上理解,并不含有任何道德、政治偏见或其他偏见,报告阅读者也不应该从这些角度加以解读,我司和研究员本人对任何基于这些偏见角度理解所可能引起的后果不承担任何责任,并保留采取行动保护自身权益的一切权利。

本报告版权仅为我司所有,未经书面许可任何机构和个人不得以任何形式翻版、复制和发表。除非是已被公开出版刊物正式刊登,否则,均应被视为非公开的研讨性分析行为。如引用、刊发,需注明出处为“兴业经济研究咨询股份有限公司”,且不得对本报告进行有悖原意的引用、删节和修改。

我司对于本免责声明条款具有修改和最终解释权。

0 阅读:0

鲁鲁经济

简介:感谢大家的关注