工作坊1:从古籍图像到智能问答
——古籍数字化、知识化、智能化全流程实践
时间:2025.7.20上午
地点:北京城市图书馆
语言:中文
讲师:
杨 浩,北大人工智能研究院 副研究员
伞红雷,北大数字人文研究中心 科研助理(文献学方向)
刘凯然,北大数字人文研究中心 科研助理(历史学方向)
王兆基,北大数字人文研究中心 博士生(大模型方向)
盛一涵,北大数字人文研究中心 学生研究员(史学本体方向)
内容介绍
本次工作坊将系统介绍古籍数字化、知识化、智能化全流程的基础知识和原理,并依托北京大学数字人文研究中心研发的“识典古籍”平台和“吾与点”平台,手把手辅导学员从古籍图像OCR开始,到自动生成知识图谱,并最终创建定制化的智能问答应用的全流程实践。
随着人工智能技术的不断发展,古籍的处理已从数字化迈向知识化和智能化的全新阶段。数字化是指将古籍扫描图像转化为机读电子文本并点校整理;知识化是指从这些数字文本中提取用户所需的关键知识单元并生成知识图谱;智能化是指基于古籍文本和生成的知识图谱,自动创建”三国问答”、”数字苏轼”等定制化的聊天机器人,让古籍中所蕴含的知识活起来。本次工作坊将带领学员系统学习和实践从古籍图像到智能应用全流程的转化过程,掌握智能时代开发古籍的前沿工具与方法。
1.古籍数字化:如何利用智能工具整理一本古籍
2.古籍知识化:如何从古籍的数字整理本中抽取数据,并自动生成知识图谱
3.古籍智能化:如何基于已生成的知识图谱,创建定制化的智能问答机器人
工作坊2:大规模文化遗产图像资源数据化
时间:2025.7.20下午
地点:北京城市图书馆
语言:英文+中文
讲师:
Christophe Roche,ERA Chair Professor in AI for SSH (TALOS), University of Crete
Maria Papadupoulou,Associate Professor, University of Crete
位通,北京大学信息管理系/数字人文研究中心,助理教授
内容介绍
随着数字化技术的发展,如何将海量图像资源转化为可分析、可处理的结构化数据,已成为当前学术研究和应用中的重要问题。在考古学、历史学、艺术史和古典文献学等领域,图像作为一种重要的信息载体,承载着丰富的历史和文化信息。这些图像资源的数量庞大、种类繁多,且其中包含的信息往往以非结构化形式呈现,如何高效、精准地对其进行标注和分析,成为了当前学术研究和应用中的一大挑战。本次 workshop 聚焦于大规模图像资源数据化工作,依托格图智能数据化系统,讲述数据建模、图像标注、数据分析、知识图谱生成等全流程内容。
1.基于图像构建领域本体
2.图像语义分割模型训练
3.格图智能数据化系统进行图像知识抽取
4.案例练习
工作坊3:大语言模型在古籍智能信息处理中的应用
时间:2025.7.20下午
地点:北京城市图书馆
语言:中文
讲师:
王东波,南京农业大学 教授
赵 雪,南京农业大学 博士生
刘 畅,南京农业大学 博士生
朱冬梅,南京农业大学 博士生
内容介绍
围绕古籍这一领域化的数据,团队把大语言模型的相应技术、方法和理念融入到古籍智能信息处理的相应任务当中并验证了大语言模型在领域适应性上的整体性能。基于整体而系统性的探究,从教学的角度出发,研究团队开发了密切围绕古籍数据的大模型教材。根据“古籍智能处理和活化利用”专题 Workshop的要求,研究团队设定了大语言模型在古籍智能信息处理中应用的培训主题和内容。
1.垂直领域大语言模型构建研究
2.大语言模型评测
3.大语言模型检索增强
4.古籍处理与多模态大模型
工作坊4:AI编程在多模态文化记忆资源智能化处理中的应用
时间:2025.7.20下午
地点:北京城市图书馆
语言:中文
讲师:
夏翠娟,上海图书馆,研究员
严承希:中国人民大学信息资源管理学院,讲师
内容介绍
结合实际案例,通过实操引导的方式,共同学习与探讨AI编程在多模态文化记忆资源智能化处理中的应用,帮助没有编程基础的图书馆员或人文社科领域的研究者、学生掌握AI编程的方法、工具和流程,并能完成指定的任务(根据参与者的意愿可选择完成:文本数据的结构化处理、图像资源的目标检测和对象提取、多模态知识图谱的构建、基于知识图谱的检索增强生成等)。最终达到能结合参与者的实际应用场景和需求完成相应任务的目的。
1. AI编程在多模态文化记忆资源智能化处理中的应用场景、相关方法、工具介绍
2. AI编程在多模态文化记忆资源智能化处理中的实际案例介绍与实操演示
3. 利用AI编程的方法和工具完成指定的任务(根据参与者的意愿可选择完成:文本数据的结构化处理、图像资源的目标检测和对象提取、多模态知识图谱的构建、基于知识图谱的检索增强生成等)