一、评价思路概述
党的十九届四中全会将数据增列为一种生产要素,要求建立健全由市场评价贡献、按贡献决定报酬的机制,从数据交易市场的主要参与者“买卖双方”的关注因素出发,来探讨数据价值评价思路。通常情况下,卖方关注数据资产的交易价格能否覆盖数据投入的成本并实现溢价,买方关注购买数据资产后带来多少应用收益,而数据质量是数据应用的基础,同时在数据应用过程中存在数据泄露、违规使用等风险,影响数据应用价值的实现。因此,我们认为影响数据价值的最基本因素包括数据成本、数据应用、数据质量和数据风险。
基于上述4项影响数据价值的基本因素,我们提出”数据资产价值指数“计算公式:

计算公式:P=C×Q×U×(1-R)×(1-E)×F
其中,P代表标的数据资产价值指数,C代表数据成本系数,Q代表数据质量系数,U代表数据应用系数,R代表数据风险系数,E代表其他负向影响系数,F代表其他正向影响系数。其他影响指数E、F需根据数据市场发展进行调整。对于成本、质量、应用、风险这4项数据价值影响因素,可设置具体指标和权重进行量化评价,经标准化处理后,汇总得到百分制的评价分数。以数据质量系数Q为例,
其计算公式为: ,
其中,Q′代表数据质量相关的一级指标评价值,Wj代表一级指标的权重,pi代表数据质量相关的二级指标评价值,wi代表二级指标的权重。后文将在“评价指标介绍”章节,对成本、质量、应用、风险这4项数据价值影响因素的相关指标展开叙述。
遵循市场评价贡献、按贡献决定报酬的机制,对于不同应用场景下数据资产价值评价指标的选择与权重设定,由数据市场的主要参与者“买卖双方”协商确定。随着数据交易市场的发展,大量的数据交易记录将沉淀出,各类数据资产在不同应用场景下的指标选择、权重设定记录。通过这些记录,我们可以获得各类数据资产的应用场景集合,并筛选出不同应用场景下针对不同数据资产最为适用的评价指标及对应权重,最终形成数据价值评价的规则库。未来,在积累了一定数据资产交易记录后,将历史交易信息与规则库结合,通过AI建模形成数据资产价值评价与定价模型,最终实现数据资产的自动化定价。
二、评价指标介绍
(一)成本维度评价指标
数据资产的取得成本需要根据创建数据资产生命的流程特点,分阶段进行统计。
我们将数据资产的取得成本,划分为数据规划、数据获取、数据处理三个阶段的成本。
数据规划阶段的成本,主要包括项目经费、市场调研费、设计评审费、咨询费和数据规划相关的人工工资等。
数据获取阶段的成本,与数据的获取方式有关,包括内部生产运营过程获取的数据、间接调研方式获取的数据,以及外购方式获取的数据。通过内部生产运营过程获取的数据,其成本主要包括数据存储相关的设备折旧费、场地租金、水费、电费、空调费、网络费和下包商运维费等;通过间接调研方式获取的数据,其成本主要包括人工工资、设备折旧、场地租金、打印费、数据采集相关的网络费和下包商采集调研费等;通过外购方式获取的数据,其成本主要包括数据采买相关的人工工资、数据购买价款、税费、注册费和手续费等。
数据处理阶段的成本,与数据处理流程有关,包括数据核验、数据预处理和数据分析挖掘相关的成本。数据核验成本,主要包括核验相关的人工工资、设备折旧和分包商核验费等;数据预处理成本,主要包括数据预处理相关的人工工资、设备折旧和分包商数据处理费等;数据分析挖掘成本,主要包括数据打标相关的人工工资、设备折旧和分包商数据处理费,以及数据挖掘相关的人工工资、设备折旧、分包商数据研发费和可容试错费等。
以上各成本项目的发生额,可通过数据拥有者的财务记录、数据购买合同等相关文档获取。在获取各成本项目发生额的基础上,对各项成本进行加总,得到数据资产的成本总额。成本总额越大,数据资产的价值越大。
(二)质量维度评价指标
我们以全国信息技术标准化技术委员会提出的数据质量评价指标(GB/T 36344-2018 ICS35.24.01)为依据,从规范性、完整性、时效性、准确性、一致性、可访问性六个方面,对数据质量进行评价。
图3 数据质量评价指标示例
(三)应用维度评价指标
数据资产在应用场景中的价值,可从数据资源的稀缺程度、数据覆盖范围的多样性,以及在该场景中的应用深度等方面进行评价。商业竞争的本质,部分来自于对于稀缺资源的竞争。在制造差异化趋平的情况下,稀缺数据资源背后潜在的商业信息更加凸显价值。
数据资源的稀缺程度,是数据资产拥有者对数据独占程度的体现,可通过数据资产所拥有的数据量占该类型数据总量的比例来量化评价。数据覆盖范围的多样性,可通过数据维度(字段)丰富度进行评价,数据维度(字段)越多,数据表的信息覆盖范围越广,数据应用价值实现程度越高。
在数据维度(字段)丰富度的基础上,可进一步通过数据维度(字段)适用率进行评价。例如,某张客户信息表中有8个关于描述个人信息的字段,包括住址、薪资、性别、年龄、身份证号、手机号、职业、驾驶习惯,适用于精准营销场景的是住址、薪资、性别、年龄、职业这5个字段,那么该数据表在精准营销场景下的维度适用率为5/8,数据维度(字段)适用率越高,数据表的价值密度越大,数据应用价值实现程度也越高。
数据资产在某个场景中的应用深度,反映的是数据资产在应用时的可挖掘价值大小,可通过数据访问记录、接口调用频次等指标进行评价。数据访问记录或接口调用频次低,说明数据使用者在数次使用后,因其应用价值有限或可挖掘价值较少,无需再进行使用,业务场景的应用深度低,数据价值实现程度低。数据访问记录或接口调用频次高,说明需高频次使用或深度挖掘,业务场景的应用深度高,数据价值实现程度高。
(四)风险维度评价指标
数据资产在转让过程中,通常面临数据泄露、违规使用等风险,可能造成数据资产的大幅减值甚至价值完全损失。由于数据泄露、违规使用等风险发生的概率与数据控制者的数据安全能力直接相关,我们引入“数据安全能力成熟度模型”(DSMM)作为数据控制者的数据安全能力评价标准,并将评价结果与数据风险发生概率进行关联,如下表:
表4数据安全能力与风险发生概率对照表
由此可得,当标的数据资产在经过n次转让后,数据风险发生概率r的计算公式为:
其中,r 0为初始数据控制者的数据安全能力成熟度所对应的数据风险发生概率 ,r i为数据第i次转让至新的数据控制者时,该数据控制者的数据安全能力成熟度所对应的数据风险发生概率。
数据资产作为一种新型生产要素,当前国内外对其风险度量方面的研究较为欠缺,尤其是定量计算。上表所列示的“数据风险发生概率”应在未来相关研究、实践的成果上进行调整和修正,实现对风险维度的准确量化。
三、评价结果处理
由于数据资产各项评价指标的正负向性质不同,对不同性质指标直接加总不能正确反映不同作用力的综合结果,因此需要改变逆指标的数据性质,确保所有指标对数据资产价值评价结果的作用力同趋化。同时,数据资产各项指标的评价结果,存在百分数、金额、时长等单位不统一的问题,因此需要将不同量纲的特征转化为同一数值量级,确保数据的可比性。因此,在明确数据资产评价指标的基础上,需对各指标的评价结果进行数据标准化处理,统一转化为0~1之间的评价值。
本文借鉴优劣解距离法和同趋化处理,对各项指标的评价结果进行数据标准化。
优劣解距离法的基本逻辑为,数据资产的各项指标评价结果,与该项指标的最优值越接近(最优值由第三方评价机构基于行业调研和实践经验提供),则评分越高。
同时,通过同趋化处理各评价指标的性质不同的问题。根据指标性质分为正向指标和负向指标,正向指标数值越大,评分越高,负向指标数值越小,评分越高,这将决定最优值为较小值还是较大值。
计算思路为,分别计算各项指标评价结果与该项指标的最优值间的距离M、与最劣值间的距离N。计算公式为:假设某项指标的评价结果为x,最优值为y,最劣值为z,则与最优值距离为M=|x-y|,与最劣值距离为N =|x-z|,指标项评价值p= N/(M+N)。以“维度数量”这项指标为例,假设该项指标的最值分别为5个和100个,标的数据资产的实际维度数量为80个。经判断,指标性质为正向,因此最优值为100个,最劣值为5个,即M=|80-100|=20,N=|80-5|=75,“维度数量”这项指标的评价值p=N/(M+N)=75/(20+75)= 0.79。
表5指标评价结果数据标准化处理(注:指标评价结果x与指标最值y,z均为假定数值)
在实际操作中,随着行业的变迁,可能出现标的数据资产的某一指标数值超过第三方评价机构认定的最值范围。当超过范围的数据样本累计到一定程度,考虑进一步更新最值范围。同时,当区间内数值分布不均匀时,优劣解距离法不适用,可考虑采用同类排名、正态分布等方法,处理单位不统一的问题,将不同量纲的特征转化为同一数值量级。
经过上述标准化处理后,各项指标的评价值分别乘以各自权重,得到上级指标的评价值,经层层分级加权汇总,得到数据资产的成本系数、质量系数、应用系数和风险系数,代入数据资产价值指数评价公式,即可得到标的数据资产的价值指数。由于各指标评价结果经数据标准化处理后,均转化为0~1之间的评价值,且各级指标的权重之和均为100%,因此最终得到的数据资产成本系数、质量系数、应用系数和风险系数取值也在0~1范围内。因此,数据资产价值指数P的取值范围为0~1 。
四、评价运用实例
数据的价值在于与应用场景的结合,不同应用场景下,数据所贡献的经济价值有所不同,以下我们以金融信贷里的风控场景为例,来估算标的数据资产的价值。
金融信贷生命周期管理大致可分为贷前、贷中、贷后三个阶段。贷前风控,主要进行准入审核、额度授信、支用审批等,这就需要收集用户在信用贷款之前的个人财务数据和其他基本数据。例如:年龄、家庭成员等。贷中风控,主要进行额度管理、流失预测、营销响应等,这就需要收集用户在贷款后的还款情况和各金融产品的使用状况信息。通过贷款人在贷款之后的各种还款情况,可以预测该贷款人或同类型贷款人在未来时间的还款能力和违约风险。贷后风控,主要进行催收、还款率预测、账龄滚动、失联预测,收集那些已经违约用户的各种金融数据。通过逾期客户的金融数据预测未来该用户无法偿还的概率,推测该笔贷款成为坏账的可能性。
我们选取贷中风控场景,该应用场景下的标的数据资产为“客户贷款后的还款情况和各金融产品的使用状况”相关的8张数据表,包括描述贷款关联静态信息的信贷合同表及字段数据、对公客户表及字段数据,描述贷款动态变化信息的对公信贷业务借据表及字段数据、贷款展期表及字段数据,描述贷款主体分账户资金流水信息的对公信贷分户账表及字段数据、对公信贷分户账明细记录表及字段数据,描述贷款主体其他账户总体资金流水信息的对公活期存款分户账表及字段数据、对公活期存款分户账明细记录表及字段数据。鉴于篇幅限制,我们选取 “贷款展期表”中的部分数据进行价值评价。
以下详细展开对标的数据资产的价值评价过程:
第一步:选取标的数据资产适用的评价指标,计算得到各项指标的评价结果。
首先,选取标的数据资产的成本维度适用的评价指标,计算得到成本总额。计算内容如表8所示。
表7 成本维度评价结果表
其次,选取标的数据资产的质量维度适用的评价指标,计算得到指标评价结果。计算内容如表9所示。例如,在计算表中字段“银行机构代码”的长度规范率时,根据指标约束规则“12位人行行号数字”,我们统计出该字段取值为12位数字的数量是1266804,以及该字段取值不为12位数字的数量是12796。长度规范率表示数据长度符合规定格式要求的数量占该字段总数据量的比率,则字段“银行机构代码”的长度规范率=(数据长度符合规定格式要求的数量/总数据量100%”=[1266804/(1266804+12796)]100%=99%。
表8 质量维度评价结果表
再次,选取标的数据资产的应用维度适用的评价指标,计算得到指标评价结果。计算内容如表10所示。
表9 应用维度评价结果表
最后,评价标的数据资产的风险发生概率。标的数据资产未经过转让,初始数据控制者的安全能力成熟度为级别3“充分定义”,根据上文的“数据安全能力与风险发生概率对照表”可知,初始数据控制者的数据安全能力成熟度所对应的数据风险发生概率r 0为1%,代入数据风险发生概率r的计算公式:
第二步:对评价结果进行标准化处理,统一转化为0~1之间的评价值。具体计算内容如表11所示。
表10 指标评价值计算表
第三步:对各指标项的评价值进行加权汇总,得到标的数据资产价值指数。计算内容如表12所示。
表11 数据资产价值指数计算表
综上,标的数据资产的成本系数、质量系数、应用系数、风险系数分别为:
C=0.46×100%=0.46;
Q= 0.98×100%×15%+(0.84×40%+0.74×60%) ×40%+0.8×100%×30%+0.97×100%×
15%= 0.8445
U= (0.01×50%+0.57×50%) ×30%+0.33×100%×70%=0.318
R=0.01×100%=0.01
代入数据资产价值指数评价公式,得到标的数据资产的价值指数为:
P=C×Q×U×(1-R)=0.46×0.8445×0.318×(1-0.01)=0.1223