首页  >   档案要闻

档案弥合数字鸿沟——国际档案理事会罗马年会回顾之四

发布时间:2023-05-11

    新一代信息技术的发展促进了社会转型、业务变革与思维创新,展现了数智赋能的强大力量。区块链、大数据、物联网、虚拟现实(VR)、人工智能、机器学习等不仅改变了档案工作的应用场景与管理对象,也一定程度上影响着我们的生活方式。在此背景下,技术的更新迭代、软件的设计方式与数字资源的长期保存等方面将面临哪些机遇和挑战?档案管理员应如何将新兴技术与职业规划相结合?文件管理者、档案管理员与技术人员、政策制定者之间又存在怎样的距离关系?在“档案弥合数字鸿沟”(Archives Bridging the Digital Gap)这一子主题中,与会者立足当前技术领域的发展现状,深入探讨数字化转型背景下的档案馆、档案与人工智能、数据处理、数字保存等内容,阐述了对上述相关问题的思考。


议题一:面临数字转型的档案馆

   挪威国家档案馆遵循“可持续发展、面向用户、多元协同”三大原则,充分考虑公共管理部门中涉及的决策者、供应商、档案管理者等多方需求,允许公共部门依据业务需求和安全原则提出新的归档流程方式,并在此基础上进行优化。当前,挪威国家档案馆已实现两大举措。一是建立“文件、数据和透明度监督沙盒”,使创新者可以在此空间中进行探索,由多方主体共同协商和监督,以降低风险成本;二是搭建标准化平台,重新思考符合用户需求、立法规范和组织目标且契合当前技术发展需求的标准化方案,以满足动态化管理需要。

   电子文件须遵循真实、完整、可靠、可用的“四性”保障原则,阿曼的电子文件实践以此为基础,由政府机构合作开展了电子文件和文件管理系统项目,主要包括咨询与治理、电子管理系统两项内容,以期在电子文件全生命周期管理、国家电子文件管理标准和指南的制定,以及扩大电子文件系统边界技术等方面提供支持。


议题二:档案领域的人工智能

   在此议题中,多位学者先后探究了人工智能的内涵、作用与应用前景。有学者探讨了我们所希望的人工智能是什么样的、人工智能可以实现什么等问题,并通过问卷调查与黑匣子模型举例,认为机器学习通过大量的模型训练,可以对主题、实体、日期、编号及其他特征进行描述与分析,助力文本挖掘与知识管理。

   另一学者以“档案和文化管理背景下的人工智能素养”为题,重点探讨了文化、档案和人工智能三者之间的关系,提出需要解决如何在档案管理中提升人工智能素养的问题,即允许个人批判性地评估人工智能技术、与人工智能进行有效沟通与协作等,并希望人工智能可以在数据捕获、清洗、实施、可视化、分析、评估和共享的数据全生命周期阶段充分发挥作用,满足跨学科项目合作所需要的文化素养。

   会议还围绕纸质档案数字化产生的真实性、可信性等问题,提出应采用AI技术直接从文本中提取信息;利用物联网技术保障可追溯性和文件完整性;利用区块链和数字身份识别技术,验证文件的完整性、保密性和真实性等,从而保障电子文件与纸质档案具有相同的效力,并保障原件和副本在内容和形式上的一致性。专家组强调,此项工作应符合ISO 9001/2008和ISO/IEC 27001:2013的标准要求,以保障其规范性和科学性。


议题三:数据处理的档案学视角

   当前社交媒体已成为公众开展交流的重要途径,同时也是数据传输、传递与创造的主要平台。通过访问社交媒体中的存档数据,可以为科学研究提供大量信息,并能在一定程度上防止因平台注销导致大量数据丢失等问题。然而,研究表明,目前社交媒体存档的实践开展仍处于早期阶段,尚未有较为完善的模型能满足存档的所有功能。有学者分析了目前社交媒体存档软件和实践模型的专业特性,并通过里克特量表的形式选取31位信息科学领域专家开展调研,对相关结果进行因子分析,总结发现“规定时间内自动删除存档”“恢复已删除数据”“付费才能获得完整版本”等是可以取消的,而“本地存储”是应增加的。

   韩国开展了韩国电子文件数据集系统研究。该系统以铁路基础设施建设为应用对象,引入电子采购系统、业务处理系统和地理信息系统三大系统,包括档案标识、分类、管理标准建立和实施四大部分,重点围绕生成、使用、维护、处理和归档的全生命数据周期进行管控。


议题四:数字保存——本土与全球的解决方案

   为推动数字化转型发展,德国开姆尼茨市制定了数字议程,要求对具有可迁移性的电子文件进行永久存档,并提出应强化文件管理系统的权限设置,对于纸质档案、数字化副本与电子文件进行分类管理。此外,开姆尼茨市开展了电子市政档案项目,积极开展保管库建设、更新和发展、保存、数据迁移等工作,提升业务程序的透明度,促进数字资源的共享利用。

   学者以南非夸祖鲁-纳塔尔省的城市网络归档框架为例,强调网络归档对于保护有价值的信息资源和提供长期访问具有重要作用,并指出网络归档面临着版权争议、网络爬虫等一系列问题,建议围绕网页创建、存储、使用、归档和信息删除等行为建立问责制度,并及时维护与更新网站,以便为用户提供服务。

   目前,数字资源存储面临载体失效、元数据和著录信息不完整、所有权与来源不清晰、文件删除或损坏、文件格式过时、没有软件许可证或供应商支持,以及格式转换等一系列问题,针对这些问题,学者开展了自动传输与Microsoft 365内容的长期数字保存研究。该项目采用嵌入式技术,允许用户搜索、移动和复制归档内容,并采用预定义文件标签的方式提高用户的工作效率和投资效益,从而满足了数字资源长期保护、存储量日益增长及投资效益最大化等需要。


议题五:背景中的文件(RiC)应用

   2019年,国际档案理事会档案著录专家组针对此前发布的文件著录系列标准《背景中的文件(档案)》(Records in Context,RiC)补充发布了《背景中的文件(档案)-本体》,即档案文件上下文本体框架(Records in Contexts-Ontology, RiC-O)以及《背景中的文件(档案)-概念模型》(Records in Contexts Conceptual Model,RiC-CM)两项内容,为档案资源情境化组织管理提供了全新视角。RiC-O是为RiC-CM模型实现OWL语义本体提供转换和创建RDF档案数据的通用词汇和规则,同时还为档案元数据发布关联数据、支持SPARQL语义查询和实现基于本体逻辑的推理提供了符合语义网环境和标准的语义互操作基础,实现了全球信息互联,打破了用户壁垒和时间壁垒,为档案资源整合和互操作利用提供了灵活的框架,目前已在多方面有所应用。

   法国国家档案馆实验室(ANF)启动“ANF Sparnatural demonstrator”项目,开发高效且用户友好的搜索界面,为终端用户提供查询RDF/RiC-O数据集的工具。经过首次评估,ANF将XML/EAD和XML/EAC-CPF源数据大规模转换为符合RiC-O的RDF具有可操作性,查询工具界面的直观、灵活和交互性也得到认可,并且ANF实验室已能自行为其他数据集和项目设计Sparnatural搜索界面。未来,ANF将为符合RiC-O的RDF数据生成并发布通用Sparnatural搜索本体,并可视化该知识图谱。

   无独有偶,瑞士研究的数据聚合器Connectome将RiC-O应用为聚合文化遗产数据的中介格式。Connectome聚合器的目标是建立一个可持续的平台,保障文化遗产数据在人文和社会科学研究中的长期可用。在此语境下,RiC作为一种强大的格式,可以聚合来自不同文化遗产环境的元数据,使其在Connectome知识图谱中形成关联。


议题六:档案著录——新技术、新领域

   数字化转型已是发展的必然之势,使用关联开放数据(Linked Open Data,LOD)进行档案著录成为档案馆数字化转型态势下的发展方向。LOD允许在不完全依赖于显式链接的不同引用对象之间建立关系。从实体到关系,其实现了不同数据模型之间的链接,以及合作和多元模式运作的权力下放,这种独立于特定软件重用的共享知识库保证了数据的价值。然而,开发一个泛在档案关联数据目录服务仍面临诸多挑战。关于RiC-O的决策、用户主导的开发与面向未来的开发、档案集在用户界面的显示、层次结构到图形的转换、遗留数据、元数据随时间变化的记录等都是其棘手之处。

   在数字环境中,文化遗产保护也在隐私、版权和保护规则方向上开拓了新视角。欧盟的知识产权法保护原创作品,《意大利文化与景观遗产法典》明确公共行政部门对公共文化遗产复制品的“产权”,专著、期刊、报纸上发布公共文化遗产图像不再收费。不仅如此,意大利所颁布的个人数据保护法对于个人数据档案管理、机密个人数据的发布、个人数据在线存档资源、个人数据来源的数字化都作出了明确规定,包括对逝者个人数据的保护、数据传播与交互之间的差异、访问与发布包含机密信息的文件权利的区分等。在不同方向上,技术支持都是新领域数字化转型管理中必不可少的。


议题七:使用人工智能管理、保存和搜索文件

   人工智能方法是否能够构建或重建档案聚合,并为其创建元数据模式?“InterPARES Trust AI”项目以此为研究问题,旨在评估现有的AI技术是否可以在档案生命周期现行或半现行阶段解决非聚合、非范围化或非上下文化记录的问题,以及使用AI工具是否可能重新建立大量非语境化记录之间的档案纽带以集成不完整的档案保留元数据模式。截至目前,该项目选择了100家开发IT产品的公司,对于企业的CU05进行评级,即评估其AI在识别或重组数字记录的档案聚合及丰富元数据模式中的作用,并针对其中26家公司开展问卷调查,调研AI技术在历史、现行、未来阶段协助创建/重建档案聚合的使用情况。未来,该项目计划制定AI解决档案聚合问题的评估标准,通过不同领域的案例分析得出研究问题的结论。

   AI在档案领域的实践应用也日趋丰富。为完成电子档案转移,智利国家档案馆通过制定并发布档案移交要求、提供全过程技术援助、开发信息门户网站和程序等方式消弭智利公共机构档案管理差距,分阶段完成了数字转移计划。为获取健康保护研究数据并改善公共卫生状况,世界首个国家卫生档案馆挪威国家卫生档案馆自2019年起接收境内所有医院的全部患者死亡档案,现今,1500万件纸质档案经过数字化和元数据注册,于数字保存系统中实现数字访问,并构建相关健康统计数据。同时,该馆以OCR文本为基础,使用AI以查找结构化数据,测试和开发AI以通过元数据查找非结构化数据。

   原载于《中国档案报》2023年5月11日 总第3981期 第三版



来源:中国档案报    作者:南梦洁 殷名