A Dataset for Chinese Event Extraction in Investment Research
更新
- 20220703 论文已录用
- 20220604 双盲审稿暂时隐去作者及机构信息
背景介绍
目前,中文数据集主要来源于百度的千言数据集评测LUGE、中文信息学会主办的CCKS、中国计算机学会主办的CCF-BDCI等会议和比赛,但这些数据所涵盖的范围相对较窄,事件类型比较少,与真实的场景还是有一定的差距。因此,我们基于金融投研业务的实际需求,联合太保科技和太保资管共同标注了本数据集。
内容简介
我们将新闻分为5大类、包括市场行为、财报信息、公司运营、信用评估、公司声誉。原始的风险事件经过讨论和投票,将相似度较高的(如:收到法院传票、胜诉、败诉)等做了合并精简。最终共计59个风险事件。
标注方式
我们使用投资决策支持系统积累的新闻语料作为数据的来源,语料库包括(各大主流财经类资讯平台、传统媒体、新媒体),经过算法初筛,选出金融领域对投资有指导作用的新闻。再经过5位业务专家的标注,标注结果一致性>3的会给到资深业务专家审核,过滤掉约20%后,最终用来构建数据集。
数据特点
- 源于真实场景:太保资管项目,围绕业务在投资方面的经验和需求
- 覆盖面广:本次发布的版本v1.0,包含15个行业、4000家A股上市公司、59个风险事件
- 专业性强:每条数据由5个金融行业标注员标注,结果达成一致的,经过资深研究员审查通过后入库
详细内容
本数据集将投稿CCKS2022资源论文,数据详情请查阅后续上传的论文。