工作坊1:智能数据的生成、应用与管理
时间:2025.7.20 9:00-12:00
地点:北京城市图书馆
语言:中文
讲师及助教介绍:
杨 浩,北大人工智能研究院 副研究员
伞红雷,北大数字人文研究中心 科研助理(文献学方向)
刘凯然,北京大学数字人文研究中心 科研助理(历史学方向)
王兆基,北京大学数字人文研究中心 博士生(大模型方向)
盛一涵,北京大学数字人文研究中心 学生研究员(史学本体方向)
王心宇,北京大学数字人文研究中心 学生研究员(计算哲学方向)
内容介绍
本次工作坊将系统介绍智能数据生成、应用与管理的基础知识和原理,并依托北京大学数字人文研究中心研发的“识典古籍”平台和“吾与点”平台,手把手辅导学员从文献数字化开始,到多模态图文数据抽取、知识图谱自动生成,最终构建定制化的智能研究助手。
随着人工智能技术的持续演进,文献处理已从数字化迈向知识化和智能化的全新阶段。本次工作坊将涵盖以下三个核心环节:
- 文献数字化:讲解如何通过一整套智能整理流程,将古籍文本的扫描图像整理为高质量、可交互的机读电子文本。
- 图文数据提取:指从文本、图像、PDF扫描书影等多种类型的原始材料中,智能实现文字识别、信息提取与知识整合,从而高效、批量地处理文献,并生成便于分析和处理的结构化数据。
- 知识图谱生成:指从原始文献材料中自动抽取出研究者自定义的知识单元,建立起基于复杂语义关系的知识图谱,为人文研究提供可视化的关联网络。
- 智能助手构建:从研究者私有的文献数据出发,创建如“三国问答”、“数字苏轼”等垂直领域的智能问答系统,提供个性化智能研究辅助工具。
通过上述环节的系统讲解与实践操作,学员将全面掌握智能工具在数据处理、知识重构与智能问答中的具体应用方法,进而构建契合自身研究需求的智能化工作流程。
学员规模:50人
费用:500元/人
报名链接:https://fv4nltk75z.feishu.cn/share/base/form/shrcnhGQj7iezldPByLCeh8HLVd
工作坊2:大规模文化遗产图像资源数据化
时间:2025.7.20 14:00-17:00
地点:北京城市图书馆
语言:英文+中文
讲师:
Christophe Roche,ERA Chair Professor in AI for SSH (TALOS), University of Crete
Maria Papadupoulou,Associate Professor, University of Crete
位 通,北京大学信息管理系/数字人文研究中心,助理教授
杨晓勇,北京大学信息管理系,硕士生
裴清妍,北京大学信息管理系,硕士生
内容介绍
随着数字化技术的发展,如何将海量图像资源转化为可分析、可处理的结构化数据,已成为当前学术研究和应用中的重要问题。在考古学、历史学、艺术史和古典文献学等领域,图像作为一种重要的信息载体,承载着丰富的历史和文化信息。这些图像资源的数量庞大、种类繁多,且其中包含的信息往往以非结构化形式呈现,如何高效、精准地对其进行标注和分析,成为了当前学术研究和应用中的一大挑战。本次 workshop 聚焦于大规模图像资源数据化工作,依托格图智能数据化系统,讲述数据建模、图像标注、数据分析、知识图谱生成等全流程内容,探索基于图像的人文研究路径与方法。
1.本体在数字人文领域的应用
2.基于图像的本体构建方法
3.格图智能数据化系统的应用案例
4.案例练习
学员规模:50人
费用:500元/人
要求:
1.了解本体基础知识,Protégé工具使用。
2.了解图像语义分割技术基础知识。
报名链接:https://forms.office.com/r/gHRmzSaf5h
工作坊3:面向文科生的AI编程与多模态数据处理
时间:2025.7.20 9:00-12:00
地点:北京城市图书馆
语言:中文
讲师:
夏翠娟,上海图书馆,研究员
杨建梁,中国人民大学信息资源管理学院,副教授
何赛玉:中国人民大学信息资源管理学院,硕士生
内容介绍
结合实际案例,通过实操引导的方式,共同学习与探讨AI编程在多模态文化记忆资源智能化处理中的应用,帮助没有编程经验的图书馆员或人文社科领域的研究者、学生掌握AI编程的方法、工具和流程,并能完成指定的任务(根据参与者的意愿可选择完成:文本数据的结构化处理、图像资源的目标检测和对象提取、多模态知识图谱的构建、基于知识图谱的检索增强生成等)。最终达到能结合参与者的实际应用场景和需求完成相应任务的目的。
学员规模:50人
费用:500元/人
要求:
参加工作坊之前,请做好如下准备:
- 代码编译器:Visual Studio Code 及通义灵码、CodeGeeX、Github Copilot等AI编程插件;
- Python 版本,3.9+ 。
- 知识图谱存储与检索:Neo4J5.20.x
- 大模型本地化部署:ollama,AnythingLLM
需提前思考自己的场景和需求,准备好需要处理的资料或数据。
报名链接:https://forms.office.com/r/pPqLDvM5PF
工作坊4:大语言模型在古籍智能信息处理中的应用
时间:2025.7.20 14:00-17:00
地点:北京城市图书馆
语言:中文
讲师:
王东波,南京农业大学 教授
赵 雪,南京农业大学 博士生
刘 畅,南京农业大学 博士生
朱冬梅,南京农业大学 博士生
内容介绍
围绕古籍这一领域化的数据,团队把大语言模型的相应技术、方法和理念融入到古籍智能信息处理的相应任务当中并验证了大语言模型在领域适应性上的整体性能。基于整体而系统性的探究,从教学的角度出发,研究团队开发了密切围绕古籍数据的大模型教材。根据“古籍智能处理和活化利用”专题 Workshop的要求,研究团队设定了大语言模型在古籍智能信息处理中应用的培训主题和内容。
1.垂直领域大语言模型构建研究
2.大语言模型评测
3.大语言模型检索增强
4.古籍处理与多模态大模型
学员规模:50人
费用:500元/人
要求:
- 代码编译器:Pycharm or Visual Studio Code;
- 自备或租赁云服务器;显存>16GB;算力>7.0; Python 版本,3.10.6 ;Cuda 版本,11.7。
- 数据存储与处理设备:MySQL数据库,Navicat16及以上版本
- 数据标注软件:PPOCRLabel半自动化图形标注工具