【无标题】

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

如果要评选大数据或者数字化转型领域中哪个词最让人费解、最讲不清楚“数据治理Data Governance”绝对是候选之一。说实话笔者到现在也没有完全整明白因为数据治理包含的范围太广了可以说是包罗万象任何和数据相关的行为和动作不管是技术手段还是业务规则不管是组织架构还是规范制度都可以归入数据治理的范畴。

数据治理最权威的定义应该来自于国际数据管理协会DAMA数据治理是对数据资产管理行使权力和控制的活动集合。在DAMA发布的《数据管理知识体系指南DMBOK2.0》中给出了数据治理车轮图如下

 

从上图可以看出数据治理位于车轮图的正中央是数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理等10大数据管理领域的总纲为各项数据管理活动提供总体指导策略。

可以说数据治理是企业战略、组织架构、数据标准、管理规范、数据文化、技术工具的一个综合体。关于数据治理的详细探讨超出了本文的范围感兴趣的读者可以查阅相关文献。本文要探讨的是档案数据需不需要治理应该如何治理

国家档案局档案馆(室)业务指导司领导今年4月份在“中国电子文件管理论坛”上作了《从数字档案馆室到智慧档案的路径和构想》的报告其中给出了档案数据治理的框架如下图红框所示

 

上图将档案数据治理划分为数据采集存储、数据治理分析和数据处理汇聚三个业务域而数据治理分析又包括数据标准、数据模型、数据质量、数据处理、数据安全和数据校验六个组成部分。

总之关于数据治理的说法很多也不存在对与错的问题只有适不适合的问题。笔者想说的是档案数据治理应该特别强调前端控制新版《中华人民共和国档案法》第三十七条规定“电子档案管理办法由国家档案主管部门会同有关部门制定”。也就是说档案部门需要制定各类电子数据、电子文件归档的规范标准和管理办法并建立档案信息资源管理体系将符合归档要求的各类电子数据、电子文件接收入库纳入档案信息资源库管理范围实际上这就是档案数据治理换句话说档案部门要求提交归档移交的数据就是治理好的符合归档移交要求的数据而归档移交接收之后进入档案信息资源库的就是规范的数据已经基本不需要治理。

当然规范有序、张弛有度的档案信息资源体系的构建是前提条件否则哪怕是符合归档移交要求的数据入库之后也会随之混乱从而又需要重新治理。以下笔者结合多年的档案信息化项目实践经验给出档案信息资源体系的建设规划。

档案信息资源体系

档案信息资源体系包括统一的目录体系、交换体系和档案信息资源库的建设。在合理的信息分类的基础上建立统一的目录和索引建成并逐步完善信息资源目录体系建立数据共享交换机制提供统一的标准和规范交换体系对信息资源的建设进行统一的规划并充分考虑到将来的扩展分期分批组织建设档案信息资源库。档案信息资源体系示意如下图所示

 

其主要组成部分介绍如下

档案信息资源库

是档案信息资源体系最为核心和重要的组成部分。档案信息资源库的建设要做到结构合理、标准统一、管理规范实现信息的有序流动和广泛共享。根据档案系统的特点档案信息资源库的初步规划可以划分为目录数据库、全文数据库、多媒体数据库、规范标准库、档案管理库和系统维护库六部分

目录体系

通过定义信息资源目录体系建立信息资源管理机制实现目录注册、目录管理和信息检索等功能

元数据库

元数据是描述数据的数据通过元数据应用程序可以知道在信息资源库中存在哪些表和字段以及它们之间的关系应用程序在正确访问、操作处理和显示数据时需要参考和读取元数据信息。通过建立统一的元数据库为信息资源在各个应用系统中的共享奠定基础

数据接口

包括元数据访问接口、数据访问接口和数据交换接口。信息资源体系通过对外提供访问接口达到有效屏蔽网络异构、操作系统异构、数据库异构给数据访问带来的影响保证信息资源库技术变化不会影响到应用系统的访问的目的从而既实现了应用的透明访问又支持了信息资源库的不断发展和管理机制的不断完善。

02

目录体系设计

目录体系是信息资源体系的一个重要组成部分它相当于是信息资源的地址簿外部应用对信息资源库的访问都是通过目录体系完成。特别是对于档案信息资源而言档案全文不管是扫描图像文件还是原生电子文件都是非结构化数据按照一定的目录结构存储在文件系统中需要通过目录体系进行指引和调用。目录体系具有以下功能

目录注册

建立描述资源的核心元数据标识并描述所有的信息资源包括信息资源的名称、背景、组织、关系等信息

目录管理

建立描述信息资源的分类体系以此为基础将所有信息资源分类管理

信息检索

与信息资源存储相关联描述资源的访问信息包括权限、访问方法、访问地址等以此为基础通过资源目录记录的信息获取资源实体。


 

典型的目录结构如下图所示

 

左侧的目录结构和右侧的电子全文根据档号规则建立实现了目录数据和全文数据的自然关联便于资源的访问调用。

元数据库设计

由于档案信息资源库中存储的档案类型包括但不限于文书档案、声像档案、科技档案、会计档案、实物档案、各类专业档案、各类专题档案、各类民生档案等为了实现各种档案类型的统一维护、快速扩展和跨门类查询有必要建立元数据库。目录体系中涉及到的元数据也都存储在元数据库中。

在元数据库中首先按照相关标准规范的要求建立各种档案类型的数据结构模板库新增档案类型时既可以在继承现有数据结构模板基础上扩展也可以新建数据结构模板便于将来再利用。这种基于模板的自定义表结构设计一方面考虑到数据结构的规范性同时又充分考虑到数据结构扩展的灵活性和快速性。

数据结构自定义的界面操作示意如下图所示左侧档案类型树根据相关规范标准提供了各类数据结构模板右侧可以对数据结构进行维护

 

04

资源建库以档案馆为例

档案信息资源的来源包括但不限于馆藏档案数据录入与档案数字化成果的接收、电子档案移交接收、日常管理信息的录入、网上政务大厅归档数据接收、实体档案辅助管理信息的采集、备份数据的导入、现有的档案数据库的迁移等各种方式如下图所示

 

说明如下

1. 档案信息资源库中的数据从不同角度来看可以划分为多种类型

从数据产生的性质来划分

目录数据

记录了档案的条目信息和元数据信息存放在关系数据库中

全文数据

以文本或影像格式存放在存储设备上记录了档案的全文内容

多媒体数据

特殊格式的全文数据以音视频格式存放在存储设备上记录了档案的全文内容

业务规则数据

包含各类业务规则和规范标准信息比如业务规则库、元数据模板、数据字典信息等

档案管理数据

记录了档案从收集到长期保存或销毁的全过程、全方位管理信息

系统维护数据

记录了系统运行的各种信息包括系统初始化数据、用户权限数据、系统日志等。

从数据的档案分类属性来划分

包括文书、照片、声像、科技、会计、实物、婚姻等类型。

从数据产生的利用范围来划分

开放数据

包括对公众开放的数据和对政府工作人员开放的数据需要根据统一的要求来划定

控制数据

不能够在互联网上开放的数据但这些数据可以通过申请授权后提供利用

保密数据

不能开放只能由档案管理员使用或通过申请后只能到档案馆查询利用的数据

系统数据

管理数据、系统维护数据一般是系统内部产生的数据这些数据只面向档案管理员和系统管理员。

2、信息资源收集主要包括三种方式

在线录入

提供了档案目录信息的手工录入等方式

接收进馆

通过各种数据交换手段将OA系统、政务系统和各类业务系统产生的电子档案数据接收进馆

数据导入

通过脱机存储设备的方式完成数据移交比如网络条件不具备的立档单位移交数据。

3、从数据利用的角度讲分别面向档案管理员、系统管理员、各级领导、机关人员、社会公众和档案利用者。

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6