漫威宇宙知识图谱

漫威宇宙知识图谱构建——简略项目报告

1 项目背景及内容

漫威宇宙是由漫威影业基于漫威漫画角色制作的一系列电影组成的架空世界和共同世界。本项目尝试为漫威宇宙中出现的主要角色,构建一个知识图谱,帮助我们更深入地了解漫威宇宙。项目内容包括数据采集、知识存储、知识抽取、知识计算、知识应用五大部分。

2 数据采集与处理

我们通过手工标注、自动抽取获得了源数据,然后对数据进行了合并、检查、修复与增强,得到了适合项目使用的json格式数据。最后对数据进行了分析摘要,将其转化为了后续各项工作所需要的格式。 知识图谱共包含3849条N-Triple数据、1535个实体、1287条关系;实体类型13种、关系类型32种、关系频数从200至3呈长尾分布。

3 知识存储

为了后续工作的需要,我们选用了两种知识存储框架:Apache JenaNeo4j,二者都可以利用N-Triple格式的数据进行转化存储。在完成存储后,我们进行了简单的查询测试存储的正确性。

4 知识抽取

在这部分我们使用DeepKE对我们之前得到的数据集进行中文的关系抽取的实践和测试。使用了DeepKE当中提供的cnn, rnn, capsure, transformer, gcn, LM等模型进行了相关的训练和测试验证。

5 知识计算

在本章节中我们基于Neo4j进行图计算,对角色网络特征、多项节点中心度特征进行了分析,使用了多种方法对图谱进行了社区检测。以知识图谱数据为依托,从中发掘了很多数据模式和特点。

6 知识应用

在这一部分,我们主要利用知识图谱设计了两种应用场景:问答系统和可视化交互系统。我们利用Refo实现的问答系统可以对知识进行一定程度的推理,给出回答。

而可视化系统则可以更直观的查看知识图谱的全貌和部分社区细节。

下图为我们各项工作的拼剪,由于篇幅所限,无法详细叙述,具体内容请参见完整项目报告。 result

数据与资源

其他信息

价值
作者 郝家辉 黄亦非 叶大源 姚璐
最近更新 一月 25, 2021, 15:58 (UTC)
创建的 一月 25, 2021, 15:58 (UTC)