如果说2023年国际档案界聚焦的是以ChatGPT为代表的生成式人工智能技术,到2024年,人工智能依然是国际档案界关注的热门话题。基于Transformer架构研发的大语言模型推动人工智能技术迈入发展新阶段,其展现的卓越性能和广阔前景引得各国纷纷加大应用力度或拓展应用深度。随着政策倾斜与资金涌入,2024年人工智能的应用迎来了新的爆发,各种智能体应接不暇,赋能社会各项工作提质增效。在此背景下,国际档案界不断探索人工智能的深化应用,更为理性地审思热门技术的机遇和挑战。 1.积极拓展人工智能应用场景 国际档案界持续推进人工智能的研发与应用,不断拓展其在档案工作中的应用场景。一是档案数据的识别转录:3月,美国方德伦(Fondren)图书馆借助人工智能推出新的数字馆藏网站,实现音频档案的快速转录,提高工作效率;8月,丹麦国家档案馆计划应用人工智能搭建算法平台,辅助航海日志档案的识别与数据化转换;10月,瑞典国家档案馆推出开源的A I转录模型和相应的软件平台,协助本国档案机构和个人用户快速转录1600—1900年的手写档案;11月,芬兰国家档案馆也基于Transformer架构推出了免费的手写体识别模型,帮助用户识别馆藏手写档案。二是档案资源的智能检索:2月,加拿大高尔特(Galt)档案馆引入人工智能模型Archipanion,协助馆藏照片档案元数据的自动标注,并可基于语义检索用户所需的照片,大大节省了元数据著录和检索的时间;7月,美国微软公司基于人工智能设计了媒体档案的动态存档方案,自动分析档案内容并创建对应的元数据,实现海量媒体档案的快速检索;8月,印度总统府照片档案馆借助Premagic公司的人工智能,实现馆藏档案的即时检索,满足用户便捷获取档案照片的需求。三是利用服务的方式创新:8月,俄罗斯莫斯科档案馆拟在其My Family平台上创建基于人工智能的问答系统,帮助解答用户问题,改进线上阅览体验;10月,俄罗斯莫斯科机器人档案馆计划引入人工智能系统和计算机视觉技术,提高档案监管效率和利用请求的处理速度,充分满足用户利用档案的需求。四是馆藏档案的数字化修复:8月,俄罗斯Yandex公司训练了用以恢复视频档案的人工智能模型,帮助档案馆修复模糊和细节缺失的视频档案,提高档案的质量和可用性;11月,意大利卡塞塔(Caserta)国家档案馆接收了卡塞塔皇宫博物馆的档案全宗,并计划应用人工智能进行修复和增强,以恢复卡塞塔历史,方便用户利用。 以上案例展示了国际档案界正在深化人工智能的应用场景,较之2023年创新应用生成式人工智能优化档案检索和举办档案展览,2024年应用人工智能不仅可帮助档案馆将海量馆藏从数字态转向数据态,提高检索效率、创新服务方式,还能为数字化保护和修复提供新的可能。如此一来,不难理解2024年国际档案界对人工智能的持续投入:7月,英国电影学院设立首个以人工智能为重点的基金,支持动态图像遗产的开发和共享;11月,阿联酋国家档案馆根据其长期战略投资于人工智能的应用,促进馆藏开发利用。这些情况表明未来数年内人工智能在档案领域的应用前景较为广阔。 2.理性审思人工智能 尽管人工智能的应用前景光明,但2024年实践案例也体现出国际档案界对人工智能的理性审思,主要表现在两方面。一是反向思考档案对人工智能的价值,国际档案界初步达成共识:档案具有真实可靠且价值密度高的优点,可为人工智能提供优质训练语料。1月,新加坡国家公共图书馆利用馆藏图书、研究资料和档案资源开发了由生成式人工智能驱动的聊天服务原型“ChatBook”,为用户提供较为可靠的回答,彰显出档案资源应用于人工智能训练的可行性;3月,英国广播公司BBC计划将其电视广播档案作为人工智能训练数据出售,为此正在与科技公司谈判,体现出档案数据的经济价值。类似的案例在2023年12月已有发生,苹果公司欲购买新闻档案的内容使用权用于训练生成式人工智能模型,说明科技公司对高质量档案内容价值的认可。虽然以上案例并未确定档案资源是否已经出售,但档案作为人工智能的优质训练语料是不争的事实。 二是理性思考人工智能应用的科学态度,国外档案同行认识到不宜把一切馆藏资源交给人工智能处理,也不能完全信任人工智能的处理结果。前述案例中,美国方德伦图书馆的工作人员虽承认人工智能有利于提高档案检索效率和准确性,但还需要关注运用人工智能的伦理问题;加拿大高尔特档案馆认为人工智能在处理黑人文化档案内容方面存在不足,此外,还需深入研究原住民照片档案的图像,以确保档案内容能被所有用户理解;俄罗斯Yandex公司的研究人员更是警示人工智能在修复视频档案时不要生成原来不存在的内容,务必保证视频档案的真实原貌。可见,国际档案界在应用人工智能时注意加强伦理审视、理解文化多元、避免虚构档案。 同时,国外档案同行对人工智能应用也秉持发展的眼光。4月,美国国家档案与文件署(NARA)组织论坛讨论人工智能对开放政府的积极影响,认为人工智能在保护个人隐私、提高利用效率、促进开放审核和整合档案资源等方面存在作用空间;5月,NARA禁止机构内的所有电脑使用ChatGPT以防止泄露涉密信息,但计划于12月推出名为“Archie AI”且面向公众的人工智能聊天机器人;10月,美国国家档案馆公布了新的战略框架,强调通过负责任地使用人工智能进行能力建设。美国对待人工智能的态度转变启示国内外档案界应根据具体的环境条件动态调整对人工智能应用的态度,在保障档案真实安全和符合伦理的情况下负责任地应用人工智能,提高档案管理的效率和质量。 国际档案界对人工智能的理性审思,呼应了笔者的观点——“面对热门技术,国内外档案界应始终保持理智和辩证态度,积极采用新技术的同时理性应对新技术的局限或风险,避免盲目跟风”。在人工智能的应用中需要解决新的问题,比如,基于档案的优势将其作为人工智能训练的数据或语料使用需更加谨慎,要做好相应的涉密筛查和隐私保护,以避免隐私泄露和信息滥用。尤其是国家档案馆等非营利机构更要慎重考虑档案数据出售的法律限制和伦理风险。瑞典和芬兰两国的国家档案馆基于馆藏档案开发的人工智能转录模型均免费提供利用,从侧面反映出档案馆自身基于馆藏开发的人工智能工具仍具有公共性,需服务于社会公众。 文章来源:节选自《审思人工智能 推进在线利用 巧用档案传播—— 2024年国际档案界回眸》(《中国档案》2025年第2期) 作者:黄霄羽 作者单位:中国人民大学档案学院、中国人民大学档案事业发展中心 |
|