1. 数据汇聚建设需求
(1)数据归集平台
数据归集平台是数据的采集工具,可实现将各市直部门与各县(市、区)共享的数据从单位内部的业务系统数据库归集到单位的前置库,也可实现将数据从数据中心归集库同步至分布式大数据计算平台。数据归集平台需具备数据源管理、实时采集、数据读取、数据装载、数据对账、任务管理、断点续传、数据加密、运维监控和归集数据统计等功能。

主要技术指标包括:
支持适配各种关系型数据接入,包括 Oracle、MySQL、SQLServer、 PostgreSQL、MongoDB、Sybase、Teradata 和DM、GBase、GaussDB、kingbase;
支持主流大数据平台对接,包括但不限于 Hadoop、FusionInsight、 MaxCompute 等大数据平台;
支持文件搬移与文件解析功能;支持文件夹或目录增量同步功能;支持针对文件夹的子文件夹及文件增、删、改操作的实时增量同步功能;
支持流式数据接入,如kafka;
支持空间数据接入,包括但不限于PostGIS、ArcGIS、OracleSpatial;支持基于日志的数据库实时增量数据抽取功能,包括 Oracle、MySQL;;
支持基于日志的OraclePDB 可插拔数据库的实时增量数据抽取功能;支持基于日志的分布式数据库(PolarDB-X)增量同步功能;
支持实时、周期性自定义频率的任务调度;
支持批量创建作业功能;支持在ETL 任务同步时,批量作业通过一个任务管理多张表的数据同步;支持同步至目的库时增加入库时间;
支持邮件告警、短信告警功能,支持自定义条件来发送邮件或短信告警;
支持用户管理、角色管理、白名单管理功能,支持自定义角色权限;
ETL 组件库支持数据抽取、关联、排序、脱敏、清洗转换、聚合、装载等功能;
对海量文件(10000+以上文件),支持批量操作功能,支持批量选择传输文件,自动进行文件传输的功能;
支持 Web 页面的拖拉拽式数据交换管理;支持系统配置导入和导出功能;
支持异构数据库在无目的表的情况下自动建表功能。;
支持自动断点续传功能.当遇到网络故障或服务器故障修复时,自动重启中断的交换任务,从故障点续传数据;
在结构化小数据(单行 200 字节)场景下,至少支持一种关系型数据库之间的传输速度不低于 100MB/s,每秒传输数据速度达到 60 万行以上;支持加密传输功能:支持数据AES、SM2、SM4 交换功能,能够实现
数据加解密;支持数据日期类型、INT 类型等非字符串类型字段的数据加解密;支持数据传输通道加密功能(SSL);
采用的软件产品需能兼容国产芯片,需提供与龙芯、众志、神威等任意一个国产芯片兼容性互认证明材料(要求提供相关认证证书扫描件)。
(2)大数据存储计算平台
大数据存储计算平台需采用分布式大数据离线计算存储引擎,针对大规模数据分析场景提供便捷的分析处理的手段,针对政务 TB 级别数据实现离线和实时处理能力,需采用分布式架构,存储能力和计算能力可横向扩展。数据存储采用分布式文件系统,需支持多种存储格式,具有高可靠性和高性能,支持列式存储和高压缩比。需支持与常见数据源如 Hadoop、HDFS和文件进行数据交换,以及流式数据导入。大数据存储计算平台需具备分布式架构、多租户管理、运维管理、集群管理、服务中心和告警中心等功能。
本项目需建设不少于 192 虚拟核的计算能力,应提供不少于 36TB 数据存储能力(108TB 裸存储),满足黄山市各市直部门与各县(市、区)的大数据储存与计算能力。
主要技术指标包括:
具备多副本高可靠的分布式文件存储能力,具备结构化、半结构化、非结构化文件,具有高吞吐量和低延时的访问能力;
具备 PB/TB 的分布式离线数据仓库服务能力,支持结构化数据列式存储,通过分布式内存计算实现OLAP 分析处理能力;
具备key-value 型的宽列分布式NoSQL 数据库能力,具备海量半结构/非结构化数据下的实时存储、高并发吞吐、点搜索等能力;
支持基于内存迭代计算架构,提供多种批数据处理接口,快速实现 TB/PB 级别大数据分布式并行计算;提供 mapreduce 计算模型和图计算模型能力;
支持基于 SQL 的批数据处理模式,内置丰富的函数库,具备包括数学函数、字符串函数、日期函数和窗口函数等高级数据分析功能;
支持用户创建自定义函数,满足不同的计算需求;
具备实时数据处理引擎功能,可对流式数据进行实时分析和处理,快速实现分布式并行实时计算;
具备实时计算任务的智能运维能力,通过多维指标分析快速发现潜在异常信息,降低运维压力和门槛;
具备多种类型的数据源和数据库之间实时数据管理能力,如 Kafka、 MySQL、GaussDB、Oracle 等;
具备记录数据的操作审计日志功能,为事后审计提供数据支撑;
具备将物理资源划分为逻辑资源池的功能,防止资源抢占,提升资源使用效率;
具备运维大盘功能,能够直观的展示运维平台当前的运行状况,包括但不限于集群服务器数量、集群磁盘使用率、集群内存使用率、集群 CPU使用率、集群服务组件在各主机上的分布概况,同时提供集群服务状态趋势信息展示,包括集群CPU 趋势,集群内存趋势,集群负载趋势等信息;具备集群管理功能,能够监控集群中主机各状态信息,包括但不限于CPU 使用率、磁盘使用率、内存使用率等;
具备对底层分布式文件系统、资源调度系统等服务监控功能;
具备服务管理功能,支持服务配置修改、服务启动关闭和服务日志查看操作;
支持冒烟测试,便于集群安装完成后的基本功能验证;具备主机和服务告警功能,可通过邮件发送告警信息;
大数据计算平台采用全冗余架构,无单点故障,保障服务高可靠性;大数据计算平台底层采用三副本数据存储,不同副本数据分布在不同的计算节点,保障数据高可靠性;
具备快速扩容功能,支持计算能力和存储容量可同步线性扩展;具备支持独立扩容(Kerberos)管控节点、HBase 服务节点、ES 服务节点、Kafka服务节点、计算服务节点,提升集群整体稳定性。
(3)数据填报系统
面向业务方基层组织信息化能力不足或突发事件条件下原有信息化系统不足以准确支撑的场景,数据填报系统用于解决用户在缺乏信息系统支撑的条件下,依靠人工或简单表格工具的方式进行复杂数据收集。
填报系统需要可以通过定制填报任务、分发填报任务等方式,实现对突发、应急、无先例可循事件的数据标准化收集和收集任务完成情况监控。数据填报系统需要具备编制数据填报表单、数据填报服务发布管理、数据填报任务生成、填报任务执行和数据反馈等功能。
主要技术指标包括:
支持表单设计功能,支持表单工具组件,包括单行文本、多行文本、单项选择、多项选择、数字控件、日期时间控件、文件上传控件、地图控件;
支持多方联合制表功能,支持按照多部门及个人指定角色处理;
支持批量任务派发功能,能够支持设定包含多部门、多用户的任务组,并面向不同任务组派发填报任务;
支持数据核录功能,支持按照均分、匹配、范围等多种策略针对性派发核对、补录任务;
支持填报任务的审核功能,可根据实际要求设置审批流程,支持多部门、个人的并行与串行审批;
支持批量数据填报工具,支持本地数据以 Excel 等文件格式进行批量填报。
2.数据管理建设需求
(1)数据治理平台
数据治理主要目的是为上层应用提供高质量的数据。因此数据治理的结果直接决定基于数据的项目建设成果,是数据资源库建设的重要基础支撑平台。构建数据治理平台,实现数据从采集到数据应用的全生命周期管理,通过数据地图、数据血缘等辅助工具,让黄山市各市直单位更加了解和掌握数据资产,帮助平台实现数据运维。
数据治理平台需具备数据标准管理、元数据管理、业务术语管理、数据生命周期管理、数据质量管理、数据地图、数据血缘等功能。
主要技术指标包括:
支持以部门为单位,展示部门内项目空间、数据表、数据连接、任务等信息的数目,其他统计信息包括但不限于部门管理统计信息、数据表统计信息、数据标准统计信息、数据质量统计信息等;
支持各种主流类型的数据存储和处理平台,包括但不限于 MySQL、Hive、 Oracle,GaussDB、KingbaseES、DM 等,支持元数据信息动态更新和元数据信息展示功能;
支持元数据版本管理,记录元数据历史版本、差异比较;支持元数据变化通知,通知内容应包括变更的具体内容;支持元数据继承,可进行克隆表、接入转换任务配置;
支持全链路数据血缘生成、查看、分析功能,支持提供包含采集、加工、共享分发全流程的数据血缘;支持展示细粒度的数据血缘关系,包括数据库级、数据表级、字段级数据血缘关系展示;
支持自动数据血缘生成功能,包括但不限于数据集成、清洗、SQL 加工、数据共享的自动血缘生成;
支持多种建表方式,包括但不限于可视化建表、DDL 建表;支持以目录形式对数据表进行管理,支持收藏数据表;
支持按照多种条件组合查询数据表,查询条件包括但不限于数据表描述、业务标签、创建者、生命周期、大小、项目空间名称、分区表属性等;
支持表信息查看,包括但不限于表的元数据信息,例如主键信息、分区信息,表数据预览,表血缘详细信息;
支持管理数据元、字典表、限定词;
支持数据台账导出,能够展示数据从接入、治理、编目、对外应用支撑、应用使用各个环节的全景,支持定制展示环节以及每个环节展示的属性列表;
数据标准支持多租户(工作空间)实例,每租户实例可以使用独立的数据标准模板;
支持定制多行业标准模板。系统支持预置行业模板,并支持用户自定义扩展;
支持按照标准的发布状态进行数据元版本管理,版本变更支持在线审批;
支持批量导入和导出数据标准定义;
支持在线建模;能够以在线的方式管理逻辑模型和物理模型,并支持对不同模型基于主题域实现分组、编目管理;
支持逻辑模型和物理模型的联动,能够实现增量更新,支持物理模型一键建表;
支持可视化建模,应具有数据模型管理、模型加工任务管理功能,能支持在线进行物理模型来源数据映射配置,并自动生成数据加工任务,配置方式包括但不限垂直拆分、水平拆分、多表联合、多表连接、自定义映射、多表权威去重等;
支持批量导入和导出逻辑模型;
支持加密,提供加密工具,支持将逻辑模型及加工逻辑加密存储,支持逻辑模型加密导入;
支持质量评估任务管理功能,包含但不限于空值核验、唯一性核验、值域核验、数据格式核验、注释完整性检测等,并可对质量评估结果生成质量评估报告;
支持自定义规则模板能力,可以通过 SQL、JS 等形式,自定义质量检测规则;
对系统预置规则,自定义规则,可以以相同的方式配置。质量模块可以自动执行系统预置规则、自定义规则,并输出统一的质量检测;
支持质量评估,能够批量配置评估对象和评估规则,定期输出评估报告,且评估报告支持Word、Excel 格式;
支持质量工单流程管理,质量工单能够指定责任人进行派发质量工单支持数据比对功能,能够根据数据标准对问题数据进行数据比对,定位数据问题;
支持在数据清洗全流程中嵌入质量监控流程,支持监控结果超阈值时阻断或放行清洗流程,出现质量问题后可触发告警;
支持对检测对象进行自动的分布式切片,分布式执行,检测性能支持弹性扩容。质量检测性能指标应能够随分配资源的增加,基本呈现线性增加;
支持对结构、空间形态的数据进行数据质量检测的功能,能够对结构化、非结构化数据进行检测;
支持各种主流类型的数据存储和处理平台,包括但不限于 MySQL、 MaxCompute、Hive、Oracle,GaussDB、KingbaseES、DM、PostgreSQL 等;
支持多租户(工作空间)功能,能够为不同业务部门提供独立的数据管理租户(工作空间)。
(2)数据资源目录系统
数据资源目录系统是将所有数据资源进行统一的资产化管理的有效工具,通过数据资源目录系统可以实现对各类数据资源进行体系化梳理,针对每个数据资源按照统一的管理规范进行编目注册,形成数据资产清单,面向各部门提供目录化的数据资产查询和检索功能,帮助各部门清晰了解全市数据资产情况,并可在数据资源目录门户上在线的进行数据共享交换申请和审批,实现数据资产的便捷、可控和有序共享。
数据资源目录系统需具备目录编目注册、目录发布、目录维护和共享业务管理等功能。
主要技术指标包括:
支持目录编制、目录提交、目录修改、目录导入与导出、目录删除、目录发布与版本管理等资源目录管理功能;
目录支持挂接服务如协议转换等;
支持资源关联,支持库表、接口、文件类型的资源关联。支持库表挂接方式选择、交换方式设置、目录分类展示、目录检索、资源审核、周期设置功能;
支持流程化的资源发布、申请、供应、流程审批功能;支持批量审批功能;操作目录的发布支持部门级和平台级审批;资源的授权需支持部门审批。
(3)数据供需协同平台
数据供需协同平台是用于对公共数据在跨部门数据共享过程中的需求提出、责任确认、责任实施、共享使用的全过程进行场景化、精细化、流程化的管理。数据供需协同平台需具备三清单管理、供需管理、供需调度、智能管理数据共享服务等功能。
主要技术指标包括:
支持数据共享类型供需关系的流转,并提供了单目录或者多目录数据申请流程,支持一次性申请多部门或者多个数据集的数据。
提供针对供需流程的整体统计指标,并通过不同的指标维度进行统计;提供统一的供需任务待办列表,用户可方便快捷的完成需要本部门处理的任务;
提供供需流程管理功能;
提供供需调度管理功能,包括工作流引擎、供需流程视图、供需运行监控等功能;
提供智能化的供需管理能力,在需求提出、需求审批、数据准备阶段,自动推荐与需求数据相似度匹配较高的信息项,并自动推荐信息项对应的部门和目录信息;
提供文件备份功能;
提供系统支撑功能,包含统一用户中心、消息中心、日志中心。
(4)评估考核平台
参照省级建设要求与建设内容,结合黄山实际情况,建设数据评估考核系统,通过对目录编制、数据归集、数据标准、数据质量、供需对接、数据共享等方便设立合理、有效的评估指标,评估市域各部门政务信息资源共享工作的完成程度和效果,以评估评价强化数据资源共享的常态化工作,结合行政管理相结合的措施,督促各部门保质保量完成政务信息资源共享相关工作。
评估考核应具备考核指标管理、考核评估模型建立、考核结果查看,支持以仪表盘、坐标图、报表等多种图表组件形式,对评估过程、评估结果进行多维度、多角度、多层级的数据分析和可视化展示。
主要技术指标包括:
提供评估考核指标管理功能,评估考核指标从数据目录编制、数据共享情况、数据质量情况、数据应用情况等方面分类别罗列出评估项,并对每个评估项的评估要点进行说明。
提供评估考核模型功能,根据数据使用需求情况,针对不同行业考核情况,设置指标建模边界,按照业务逻辑建立评估模型。
提供评估考核结果功能,对评估结果库中的数据,进行纵向横向比较,分析指标差异,形成评估考核结果报告。
提供信息采集模块,需要对接多个数据系统获取数据的业务表现数据,同时需要对接不同的数据源采集获取数据的质量相关信息,供质量指标计算和模型构建。
提供数据质量分析模块,对数据元信息获取之后,针对数据质量进行分析分级,找出数据质量问题和数据建设缺陷。
提供数据质量模型,从规范性、完整性、准确性、一致性、时效性和可访问性来评价数据值质量。
提供考核评估管理功能,提供考核评估的结果统计分析、评估过程追踪、考核结果的报警、追踪、监管等功能。
(5)数据资产展示系统
建设数据资产展示系统,实现对黄山市数据资产的全局管理和可视化呈现,帮助数据资源管理部门清晰了解本市的数据资产“家底”。数据资产展示系统需具备数据概览、资产归集、资产链路和资产共享等功能。
主要技术指标包括:
提供数据服务总体指标,包括但不限于:调用总量、业务系统数、表数量、接入数据总量、字段个数、主题/专题模型个数、服务资源个数、接口调用次数、支撑应用个数;
提供数据接入总量类指标,包括但不限于:接入部门总数、业务系统个数、接入部门排行;
提供数据接入增量指标,包括但不限于:多个维度的数据接入增量、多维度增量接入趋势,增量接入排行;
提供实时接入类指标,包括但不限于:总体、部门、表的实时接入指标;
提供数据治理类任务相关指标,包括但不限于:任务数量、工作流数量;
提供模型建设情况指标,包括但不限于:资源库、主题库、专题库建设情况;
提供血缘相关指标,能够展示表之间血缘关系;
提供共享总量指标,包括但不限于:调用总次数、成功总次数、失败总次数、服务资源总量、服务资源调用排行,支撑应用调用排行、支撑应用个数、应用名称、描述、所属部门、订阅资源列表;
提供共享类增量指标,包括多时间维度的资源调用情况、多时间维度应用调用情况,时间维度包括但不限于:年/月/周/天;
提供实时调用指标,包括但不限于:资源实时调用次数、应用实时调用次数、成功次数、失败次数。
(6)数据开发平台
数据开发平台实现多源、异构数据的分析处理、关联融合,支持主题模型建立、管理,模型在线开发服务、全生命周期管理、模型知识库沉淀、模型灵活调用、主题数据产品形成和数据价值挖掘等功能,满足各类数据处理、数据挖掘和数据分析要求。
数据开发平台需具备一站式开发、工作流管理、作业调度、运维监控、协作开发、空间隔离等功能,还需具备实时数据开发处理能力,包括实时数据清洗、实时SQL 开发等功能。
主要技术指标包括:
提供一站式集成开发环境,满足大数据环境下的开发、调度、运维等需求;
支持开发、生产空间隔离,可以对空间中数据、资源、代码和配置进行隔离;
支持团队协同开发,具备代码版本管理、多人协同模式下的代码锁管理和冲突检测机制;
支持通过图形化的拖拉拽方式、零编码交互完成数据的转换、过滤以及工作流开发,便于自主管理作业的部署以及生产监控运维;
支持工作节点开发,包括但不限于集成类型节点、数据开发类型节点、算法开发类型节点、数据清洗类型节点;
支持工作流运行管理,能够管理工作流执行路径,包括但不限于串行、并行、分支条件,并应具有从此处开始运行功能;
支持智能化依赖推荐,能够基于工作节点的输入输出表,自动推荐上下游依赖关系;
支持工作流的导入导出操作,包括但不限于工作流、自定义函数、资源文件和模型等,可实现离线备份和异地发布;
支持版本管理功能,能提供工作流和工作节点的版本查看及版本回滚;可对已删除的工作节点或工作流进行恢复;
支持实时开发,能处理 Kafka 源数据,支持 Oracle、华为 GaussDB, Mysql,DM,Kafka 输出;
支持实时数据运维功能,支持查看 FlinkSQL 和application 的任务状态;可以查看任务运行实时指标,可自定义运维指标;
支持实时开发工作台,能提供基于 FlinkSQL 的可视化SQL 编辑器,应支持实时SQL 任务的管理、启动、暂停、取消等操作;
支持实时清洗,能够完成实时数据清洗过滤、实时数据转换、内置规则组件调用、自定义清洗规则、配置问题数据处理方式、清洗流程试运行;
支持调度管理,包括一次性调度与周期性调度,其中周期性调度应支持按分钟、小时、日、周、月、年调度,工作流可跨周期依赖;
支持启停功能,支持工作流重跑;
支持补数据,可通过设置工作流运行的起止时间,来达到导入历史数据的目的;
支持数据运维大盘,能够直观的展示各空间工作流运行情况,包括但不限于任务运行情况、任务出错排行和空间任务数量排行等,从各个维度展示系统的过去一段时间内的运行情况;
支持作业管理,能实现作业状态查询、启停操作,并支持引擎告警和工作流告警策略配置,可通过邮件方式发送告警;
支持数据接入任务运维,管理任务实例、状态、关联工作流,支持查看数据抽取、写入数据量等指标;
应具备内置的数据清洗和过滤组件。数据过滤组件应包括但不限于长度过滤、正则过滤、标准值域过滤、空值过滤、比较过滤;数据清洗组件包括但不限于字典标准化、身份证校验转换、JS 自定义清洗;
支持规则库,能提供去除空白、空值过滤、全角半角转换、正则校验、长度校验、去重等内置规则,并支持规则自定义;
支持配置导入导出及备份恢复;
支持用户角色权限控制,包括系统管理员、空间拥有者、空间管理员、开发人员和测试人员,不同的角色拥有不同的运维权限,用户只能查看到自己拥有权限的空间相关的运维信息;
支持SQL 工作节点加密;
采用多点部署方式,具备弹性扩容能力,能避免单点故障导致整个系统不可用,保证系统的高可靠性。
3. 数据赋能建设需求
(1)安徽省大数据平台黄山子门户
数据资源门户是黄山市数据资源汇总展示的入口,可以帮助用户了解数据代表的业务含义,弥补业务与 IT 之间的隔阂,让数据更容易的被组织内部的各种角色所理解。同时,还可以很容易的获取数据的属性信息,让用户对数据资料有更全面和直观的了解。以数据目录的形式展示部门发布的数据及服务,其他用户可以按分类、部门浏览数据,也支持关键字搜索数据。
安徽省大数据平台黄山市子门户主要功能包括数据资源检索、数据资源申请、数据资源受理、数据资源授权、数据资源使用、数据共享管理和资料中心等功能。
安徽省大数据平台黄山子门户相关用户体系未来需要完成与皖事通、皖政通平台进行对接,实现平台用户单点登录和用户体系集成。
主要技术指标包括:
提供数据资源目录检索功能,以从主题、业务、来源、资源状态等方面对数据资源目录进行查询检索。
提供数据资源注册功能,市直部门数据局可在子门户中依据已梳理的数据资源目录进行目录所属资源信息的梳理、注册、发布、更新等,资源类型包括数据库表类、接口类、文件类、视频类等。
提供数据资源申请功能,市直部门数据局可基于安徽省大数据平台黄山市子门户的数据资源目录,根据实际应用的需求,选择目录申请数据,提交申请信息,发起申请流程。
提供数据资源受理功能,受理各市直部门之间数据资源共享申请,由市数据资源局进行实施规范性检查。
提供数据资源授权功能,对于市内无条件共享类数据,市直部门可基于子门户直接使用。有条件共享类数据,由数据提供方授权,不予授权的应提供依据。
提供数据资源使用功能,市直部门可基于子门户获得已授权的数据资源,门户支持库表类、接口类、文件类、视频类等资源的使用。
提供资料中心功能,提供资料查阅下载服务。资料包含数据资源目录管理、共享管理等建设指导意见,应用系统、数据仓库相关建设标准,以及安徽省大数据平台黄山子平台操作指南等文件。
(2)指标体系运行平台
指标体系运行平台是针对指标和指标体系的数字化管理工具,实现对指标及指标体系的定义、计算、加工、发布、运行、预警、优化、权限控制等全生命周期的运行管理能力。
主要技术指标包括:
支持用户平台流程引导:指标体系设计、指标数据接入、指标仓库、指标监测、指标开放、指标应用;
支持数据概览、趋势分析、指标分布、明细动态的指标数据信息查看;支持数据概览统计维度:指标总量、专题数量、指标数据条数、监测指标数量、指标自动化率;
支持专题和指标批量模板一键导入,同时支持专题导出、专题和指标一键导出;
支持指标目录多层级添加,支持不低于 5 级指标目录录入;
支持XMIND 源文件导入直接生成专题目录;
支持智能创建专题和指标,通过智能算法识别文件中的指标体系并自动构建为思维脑图(支持导入 pdf、word、excel、xmind 等格式文件);上传文件后系统完成对文件的解析并可进行下一步编辑操作;
支持通过页面操作思维脑图绘制,提供展开、缩放层级显示操作; 支持指标生命周期状态呈现,包括:设计中、待开发、开发中、已开发、已上线、已下线;
支持单个指标依历史详情记录;并支持多个历史时间节点差异在时间轴上对比;
支持多指标之间的加工计算(加、减、乘、除)创建复合指标;
支持基本信息、配置信息、接入信息表单扩展字段创建,并支持扩展
字段,包括:字段名称、字段类型、排序、显示、excel 是否显示、是否必填等,多种元组件样式信息配置;
支持对某个任务关注,有更新时站内信通知关注人;支持任务线上一键催办;支持统计当前账号下所有任务、待办任务、关注任务;
支持任务创建、配置任务部门、任务详情;
支持针对某一指标或专题的模糊全局查找。支持对单个资源进行收藏。并可查看该指标或专题被调用的次数;
支持对单个资源指标画像查看,包含:档案分析、预警分析;支持通过发布/取消发布功能控制指标对外的开放;
支持检测质量问题类型,包括:缺少数据记录、缺失字段记录、数据波动异常、数据格式异常、重复定义指标及超期未生成数据;
支持生成指标质量分值;并支持指标体检分值历史记录生成次数查看;支持 3 种数据对接方式:API 对接、库表对接、手动填报对接;并提供API 对接、库表对接字段信息规范;
支持阈值监测配置,可自定义阈值设定优质指标、红色告警、黄色告警;
支持趋势监测配置及里程碑监测配置;支持告警记录手动推送对象;
支持阈值监测、里程碑监测、趋势监测类型的数据记录展示;支持数据维度最新告警、历史告警展示;
支持结合机器深度学习算法模型解析该预测指标适合几类模型算法最佳。其中平台能提供的预测类型模型包括:多元线性回归预测模型、简单指数平滑模型、二次指数平滑模型、三次指数平滑模型、季节性自回归移动平均模型、广义自回归条件异方差模型、自回归整合移动平均模型、Prophet 预测模型、循环神经网络预测模型、门控循环网络预测模型、长短期记忆网络预测模型、集成学习回归预测模型等;
支持不同指标类型实现自适应预测模型,输出预测结果;
支持通过模板列表选择创建大屏,提供大屏布局组件设计和配置;支持提供不少于 4 套通用大屏模板;
支持对平台自有算法模型的管理,包括:模型创建时间、更新时间、模型状态、模型版本、调用次数、模型描述;
支持通过自定义组件设计报告模板。自定义报告支持不少于 8 种元件库,包括:指标数值、柱状统计图、排名图、饼状统计图、表格、折线统计图、时间、SQL;
可设置模板支持不少于 2 种推送方式;并支持设置模板通知对象、更新频率;
支持报告内容预览。支持报告内容导出为 word 格式;并支持报告重新推送、重新生成;
单用户指标体检平均响应时间不高于 0.1 秒;
单节点指标查询支持不少于 500 并发用户数。
(3)数据共享服务平台
面向黄山市各市直部门与各县(市、区),提供文件数据资源、库表数据资源、API 数据资源的共享交换服务,满足各部门间的数据互联互通需求,满足重点业务应用的跨地区、跨部门的数据共享交换需求。数据共享交换平台支持多种数据交换方式,包括直接交换、授权交换、API 交换,将支持文件类型、库表类型、API 接口类型等数据资源的共享交换。
主要技术指标包括:
支持对服务进行分组,将有关联的服务汇聚在一起,便于用户使用、管理;
支持基于信息资源目录的服务展示、检索、统计功能;
支持 RESTful 反向代理能力,支持手工录入和通过 Swagger 文档导入 API 服务;
支持 WebService 转 RESTful 能力,支持通过指定 WSDL 文档自动生成 RESTfulAPI 功能;
支持数据表转服务能力,支持SQL 语句录入和图形模式,支持根据主流关系型数据库的数据元信息自动生成 RESTfulAPI 功能,包括 MySQL、 Oracle 和PostgreSQL;
支持HTTP 自定义服务能力,支持对服务请求报文和应答报文的转换;支持 Dubbo 转服务能力, 支持通过指定 Dubbo 接口文档自动生成RESTfulAPI 功能;
支持以webSocket 形式提供服务;
支持加密或特殊认证的HTTP 服务接入功能;
支持任务切片功能,支持基于字段拆分的子任务切片,以多任务并发方式完成数据传输。
支持服务组管理功能,支持服务级限速、应用级限速、防重复设置功能;支持服务认证功能,提供服务插件管理功能;
支持信息统计功能,支持可按照目录、交换、服务等维度统计,支持流程超期告警、数据归集超期告警、数据源超期告警功能;
支持告警查看功能,支持集群状态、CPU、内存告警信息,支持告警配置功能;
支持用户操作审计功能;
支持接口编排功能,包括对接口进行编辑、重组、排序操作.支持沙箱机制的服务联调对接;
支持行过滤、列过滤,支持服务化推送任务。支持数据库基于时间戳的数据变化捕获。
支持异构数据库之间数据推送。支持本地文件推送。
支持csv、xls 等格式文件转库表进行推送。
支持按照按分钟,天,周,月进行推送任务调度。
支持异构数据库之间的自动建表,支持自动映射异构数据库库表元数据信息,实现快速建表。
(4)数据开放平台
建设数据开放平台,面向社会公众开展政府数据开放工作,数据开放资源类型分为数据服务、接口服务、文档服务三类。数据开放平台主要功能需求包括数据开放门户、数据开放管理和数据沙箱等。
主要技术指标包括:
提供数据开放门户首页功能,提供全站资源检索功能。
数据开放门户须与市政府门户网站的“数据开放”进行深度融合,统一风格、统一地址、统一展示。
提供数据开放目录功能,以数据资源目录为基础,通过开放属性统一对社会公众进行数据目录的开放。
提供开放统计分析功能,支持通过开放数据目录总量、开放数据总量(有条件、无条件)、覆盖领域数、开放部门数等多个维度,展示资源的整体开放情况。
提供互动反馈功能,数据使用者在查询数据开放目录时,发现有需要公开,但未提供到数据开放目录的信息资源时,可以填写开放数据反馈表,提交至市数据资源管理局,由市省数据资源管理局根据信息资源类型以及所属部门分派给相关部门,进行数据资源开放。
提供个人中心功能,支持查看个人基本信息、访问日志信息、收藏的资源信息、订阅的资源信息、对资源评论的信息以及反馈信息,同时支持修改个人基本信息和密码。
提供数据开放内容管理功能,包括开放内容管理、开放数据管理、咨询反馈管理、评论管理、敏感词管理、运行分析等功能。
提供数据沙箱功能,实现数据的“可用不可见”,沙箱用户可根据沙箱中的业务数据和业务逻辑开发应用模型,并将脱敏后的计算结果对外提供授权使用。
4. 市县一体化建设需求
黄山市数管平台采用市县一体化模式建设,即黄山市建设一套市级数管平台,市县两级共用一套市县一体化数据管理平台,支撑市县两级数字化发展建设需要。
1)区县逻辑子平台
本项目建设过程中,需为各区县分别建立逻辑子平台,即为黄山市下辖各区县(含黄山风景区)分别配置一套市级相关平台的租户,考虑到市直部门需求,本项目共需提供 40 套租户授权,每套租户授权具体包括大数据存储计算平台、数据开发平台、数据治理平台、数据共享服务平台和数据资源目录系统,其中各租户具备以上各平台除系统管理相关功能外的所有功能,且租户之间需满足代码、数据、工作空间、权限等完全隔离要求,供各区县和市直部门独立使用。平台租户需满足与平台自身相同的性能指标要求。
2)区县数据子仓
本项目需完成各区县数据子仓的存储、计算和开发空间的规划和划分工作,并将相关账号、权限和配置信息下发各区县数据资源管理部门。同时需基于本项目建设的人口、法人等相关基础库和主题库,进行区县数据的拆分,并回流到对应区县租户的数据存储和开发空间,形成基础版本的区县数据子仓。
3)区县数据实施服务
本项目建设过程中,需完成各区县财政投资已建成的各类信息系统的数据资源调研与数据归集工作,并完成相关数据的去脏、去重、质量检查和数据标准化等数据治理工作。最后按照统一的数据资源目录建设规范,完成区县数据资源的统一编目、资源挂载、数据上报等工作。
4)技术咨询与培训服务
本项目需要数据运营团队对各县区信息化项目提供技术指导和咨询服务,为各县(市、区)提供大数据平台工具的使用培训与技术指导,培训形式分为现场培训及远程培训,帮助区县使用一体化数管平台快速高效的完成自身数据处理工作。
5)数据标准体系服务
本项目需要制定全市的相关数据标准体系,供各县(市、区)在大数据建设过程中指导使用,统一市县两级的数据标准,为后续的市县两级数据汇聚融合打好基础。同时相关数据标准也可以作为区县自身相关业务应用建设时的数据设计参考,指导区县业务系统的数据建设,从数据生产的源头统一数据标准,降低未来业务系统数据汇聚和治理的工作量。
6)数据运维与安全服务
本项目建设和运营期间,需要为各区县提供统一的数据运维服务,同时为区县的数据资源提供统一的数据安全保障服务,让数据的业务流转安全控制和数据的应用安全保障相互结合,实现平台使用过程中常态化的安全管理。
5. 省市级联建设需求
黄山市子平台将按照安徽省一体化数据基础平台的相关要求,完成与省级平台(数字江淮和安徽省一体化数据基础平台)无缝对接和级联,实现全省数字资源的一体化管理。具体对接内容包括:黄山市子门户与省平台对接、数据资源目录与省平台对接、数据归集与交换与省平台对接、数据共享服务与省平台对接、数据供需协同与省平台对接、数据开放与省平台对接、评估考核与省平台对接等。
1)黄山子门户与省平台对接
安徽省大数据平台黄山子门户需完成与安徽省安徽省大数据平台总门户的级联对接工作,实现省级平台向黄山市子门户的链接跳转等对接功能。
2)数据资源目录与省平台对接
各市直部门在本市子平台进行数据资源目录编制、数据资源目录发布、数据资源目录变更,支持本市数据资源局进行数据资源目录审核。
3)数据归集与交换与省平台对接
黄山市子平台按需获取总平台、分平台数据,按共享要求向总平台推送市域数据。
4)数据共享服务与省平台对接
黄山市子平台负责本市的接口注册与管理,并做好接口上报。
5)数据供需协同与省平台对接
黄山市子平台对跨层级数据需求,可通过级联接口提交到总平台,由总平台分发给数据资源提供方,并通过级联接口同步数据资源提供方的数据需求响应情况到子平台。黄山市子平台通过级联接口获取总平台上提交给本市的跨层级数据需求清单,分发给本市数据资源提供方,得到数据需求响应结果并通过级联接口同步反馈到总平台。
6)数据开放与省平台对接
数据开放采用省市两级分级建设,黄山市子平台建设的公共数据开放平台通过链接的方式挂接到安徽省公共数据开放平台。
7)评估考核与省平台对接
黄山市子平台参考总平台考核指标体系,并结合黄山的实际情况,对评估指标不断优化完善。提升市域各部门数据完成程度,提高各部门数据资源共享的质量,并按需推送评价结果至总平台。
(二)标准规范体系建设需求
参考安徽省江淮大数据中心和安徽大数据平台相关建设标准规范体系,结合黄山市实际进行相应的调整和扩展,形成符合黄山市大数据实际工作相适配的相关标准规范体系,并协助黄山市各级数据资源管理部门申报国家标准和省级地标。本项目标准规范体系建设共分为基础、技术、安全、工具、应用、管理 6 个部分。
(三)数据安全体系建设需求
按照数据全生命周期安全的原则,结合黄山市数据资源管理局业务特点和数据安全风险分析,通过部署数据资产安全管理,数据库水印系统、数据库审计系统、数据脱敏系统、应用审计系统等数据安全产品,形成数据安全治理能力。具体需求包括:
支持数据分级分类管理功能,根据数据平台数据的属性及特征,定义数据分级分类原则及方法,并建立起对应的数据分级分类体系,为数据安全管理提供标准,为数据安全实施提供指南。本项目遵循江淮大数据中心和安徽省大数据平台的数据分级分类相关标准规范,并结合黄山市实际开展数据分级分类工作。
支持数据脱敏控制,可以对不同用户和应用对数据库数据的访问进行实时的隐私数据屏蔽,帮助有效保护重要数据资产。数据脱敏需提供包括静态脱敏、动态脱敏功能。
支持数据水印保护功能,支持将标识信息(如版权信息、机构/员工 ID)通过一定的规则与算法隐藏在结构化数据中,隐藏后数据库的使用价值几乎不变。
支持数据资源安全管理,通过对全域数据深度挖掘和扫描梳理,构建基于数据价值全面、翔实的数据资产安全管控体系,并从资产的视角对数据源、数据表/文档、字段进行实时、动态监测,直观呈现核心数据资产的分布、状态、使用、流转等详细信息,为数据的安全治理和风险管控提供依据和量化支撑。
支持数据库审计功能,通过对数据流量进行深度解析来实现对数据库的审计,帮助用户实时统计访问数据库的请求和风险,提升数据库运行监控的透明度,降低人工审计成本,实现数据库全业务运行可视化、日常操作可监控、危险操作可控制、所有行为可审计、安全事件可追溯。
支持 API 审计功能,梳理庞杂的应用及接口,绘制接口画像和接口访问轨迹,监测敏感数据流动风险,识别接口调用的异常用户行为,为业务数据合规正常使用和流转提供数据安全保障。
· END ·
声明 | 数说农业是数说政通旗下专注于农业农村信息化、数字化的自媒体平台,是数说123自媒体矩阵的重要成员,全景展示国内农业农村、乡村振兴、供销、乡镇政府的信息化案例、解决方案、发展趋势、商机分析,欢迎业内人士沟通交流。