智慧教育开放知识数据集

author author     2022-12-22     405

关键词:


智慧教育开放知识数据集

作者:王嘉宁 

⚠️ 所有有关智慧教育的项目已完结停更,不再维护,感谢您的支持


  智慧教育知识图谱的研究是近年来十分热门的领域,本人自从开辟智慧教育知识图谱博文账号至今,已收到多个博友的信息,对关于智慧教育知识图谱开放知识数据的渴望十分强烈!本人也持续在的NLP和CV相关领域内研究,并试图能在智慧教育领域有所建树。
  本文主要提供开放知识数据集,主要以中学学科、高等教育学科为主。截止2019年10月17日,目前已提供中学数学、数据结构相关NLP数据集。
  如果本文及提供的开放数据集对您的研究(应用开发、算法研究、毕设等)有很大帮助,请在引文引用该博文。

一、数据下载

  可以直接在下面的链接列表中选择相应的数据集并下载,列表中简要描述了数据集的格式,部分数据正在整理中,实时更新,敬请关注。

由于各个学科的性质及领域知识结构不同,博主个人无法完成所有中小学以及大学专业的相关学科图谱的数据集构造,欢迎广大各领域的博主加入到我们的智慧教育自然语言处理数据集的构建中,延续开源的理念,造福广大程序员!!

序号

数据集

文件大小

句子数量

实体数量

实体对数量

发布日期

下载地址

1

初中数学(NER+RE)

501kb

6661

706

11250

2019.02.19


2

高中数学(NER+RE)

506kb

2232

2399

11250

2019.02.19


3

数据结构(RE)

15.5mb

176919

657

16826

2019.11.11


*数据结构数据集具体使用说明请下载后见README.txt。
  仍需要预训练中文词向量作为模型的微调,我们提供了预训练的三种词向量,分别为word2vec、glove和GWE。

序号

词向量类型

文件大小

下载地址

1

word2vec

45.65MB

​​word2vec中文词向量​

2

glove

41.24MB

​​glove中文词向量​

3

GWE

56.94MB

​​GWE中文词向量​

其中GWE为中文汉字字形特征提取方法构建中文词向量。

二、数据说明

  1. 数据来源于网络资源中,包括百度百科、百度文库、维基百科等包含学科知识点的语句。
  2. 数学、物理学科由于含有公式,因此涉及公式的句子可能语法上读不通,但不妨碍模型的训练学习;
  3. 文件中包含原始数据集样本(context_entity),实体(entity),训练集(train_data),测试集(test_data)以及实体关系数据库sql文件;

      (1) 数据集样本(context_entity):每一行代表一个样本,每个样本包含两部分,一部分为原始句子,一部分为该句子的所有实体。实体是按照其在句子中首次出现的位置排序而成。格式例如:

平方根是开方运算的基础,是引入无理数的准备知识。 平方根,开方,无理数

     (2)实体(entity):包含该数据集涉及的所有实体,即知识点。实体分为两类,“1”表示该学科切实存在的实体,例如“三角形”、“对数函数”等,标注符号为“KNOW”,“2”表示该学科的定理、定律、法则、求解方法等逻辑概念,例如“点差法”、“正弦定理”等,标注符号为“PRIN”。

     (3)训练集和测试集(train_data和test_data):本人通过程序将数据集按照out of beg抽样方法将context_entity划分训练集合测试集,测试集为袋外样本。两个文件格式如图所示:

智慧教育开放知识数据集_自然语言处理


    (4)sql数据库文件:本人自行设计web程序手动的为每一个样本的每一个实体进行了关系分类,并存储在sql中。sql包含context、entity、entity_relation和relation四个表,其中entity可忽略。大家可以自己设计sql代码获取关系。

  1. 关系种类:本人设计知识点的关系一共12种,如下表:

序号

英文符号

关系名称

说明

1

rely

依赖

某个知识点依赖于另一个知识点,两个知识点有必要的前后顺序关系,或者某个知识点的存在必须依赖于另一个知识点的存在

2

b-rely

被依赖

某个知识点被依赖于另一个知识点,两个知识点有必要的前后顺序关系

3

belg

属于

某个知识点内容从属于另一个知识点范畴内

4

b-belg

包含

某个知识点包含另一个知识点内容

5

syno

同义

两个知识点名称不同但指代同一个内容

6

anto

反义

两个知识点意义相反

7

simi

近义

两个知识点有相似的内容

8

attr

属性

某个知识点(或名词)是另一个知识点的属性,例如“面积”和“矩形”

9

b-attr

拥有

某个知识点拥有的属性是另一个知识点

10

Appo

同位

两个知识点在一定范围内具有相同的父节点

11

other

其他

两个知识点具备其他关系

12

none

无关

两个知识点没有关系

  1. 标注规则

  在命名实体识别任务中,需要有标注过的数据集,按照绝大多数的科研标注规范,以B表示该实体中首字符的标识,I表示该实体其他字符的标识。若该词只有一个字则仅为B。例如“三角形”标注为“B-KNOW I-KNOW I-KNOW”,而“正弦定理”则标注为“B-PRIN I-PRIN I-PRIN”。

  备注:因为该数据为人工标注,因此在数据集中的sql数据库中,relation_id=12代表“无关”,同时两个实体若没有关系记录的默认为“无关”。当然存在两个实体从来没有组成对,但它们有关联的这种的可能,因此这部分数据需要进行实体链接和知识推理步骤完成。

三、数据使用

  数据在训练时使用train_data文件,例如使用python代码需要先读取文件,再对每一个样本划分两个部分:原始句子sentence和该句子的所有实体entitys。
(1) 读取数据集:

with open(./context_entity,r,encoding="utf-8") as f:
for i in f.readlines():
sentence , entitys = i.split( )

(2) 数据集标注:

def getTag(dataset):
#根据数据集原始样本及对应所有实体,进行序列标注,生成已标注的样本
#参数:dataset:已读取的数据集
#返回格式: [ [原始样本,原始样本的序列标注序列],... ]
entity_dict = readEntitys()
context_tag = []
for i in dataset:
raw_context = i[0]
entitys = i[1]
tag = [O]*len(raw_context)
entitys.sort(key=lambda x: len(x))
entitys.reverse()
for j in entitys:
label = kind_dict[entity_dict[j]]
label_start = B- + label
label_ = I- + label
for k in re.finditer(j,raw_context):
if O in tag[k.start():k.end()]:
tag[k.start():k.end()]=[label_start] + [label_]*(len(j)-1)
context_tag.append([raw_context,tag])
return context_tag

(3) 实验测试:
  本人暂时仅进行了命名实体识别的测试,模型采用BiLSTM+CRF+word2vec,以初中和高中数学测试集为例,相应的精度、召回率和F1值如下:

序号

数据集

结果

1

初中数学

智慧教育开放知识数据集_知识图谱_02

2

高中数学

智慧教育开放知识数据集_知识图谱_03

(4)应用测试:

智慧教育开放知识数据集_数据集_04


  备注:数据可能存在一些噪声,因为在对每一个样本进行实体标注时是采用模式匹配实现的,可能存在标注错误问题,例如对于句子“一元二次方程组成的方程组是一元二次方程组”,很容易把前头的“一元二次方程”标注为“一元二次方程组”,而这里的“组”应该与“成”字为“组成”。类似的问题可能会存在,大家下载后可以再做更细的处理。

四、自定义创建数据集

  授人以鱼不如授人以渔,简单教大家如何制作这一类的数据集,简要概括如下:

  1. 确定学科领域的范围。例如确定初中数学学科的知识范围为人教版。
  2. 搜集相关的知识点。例如初中数学内有知识点“全等三角形”,而高中数学里面有“导数”等。
  3. 通过百科、文档或者网页爬取等方式获取句子级别的数据,简单进行清理后组成数据集。
  4. 首先通过已搜集的实体对每一个句子进行模式匹配,搜索出每个句子中所有的实体。
  5. 对每个句子的每个实体进行检查,并为每一个实体对划分关系类别。这一步骤可通过web程序实现,已分过的实体对下一次就不用重新划分了。

  博客记录着学习的脚步,分享着最新的技术,非常感谢您的阅读,本博客将不断进行更新,希望能够给您在技术上带来帮助。欢迎转载,转载请注明出处。


十四,教育知识图谱的概念模型与构建方法研究

十四,教育知识图谱的概念模型与构建方法研究论文名称:教育知识图谱的概念模型与构建方法研究李振,周东岱.研究对象以知识图谱为基础,构建教育知识图谱概念模型,对其智能化构建方法进一步研究。研究动机知识图谱... 查看详情

教育行业数据可视化应用方案与实践

...计算、人工智能、物联网、大数据等技术的结合,“智慧教育”的需求也变的紧迫,需要围绕“智慧教育”而产生的产品和解决方案也在迅猛发展。(图片来源于网络)智慧教育要以教育新基建促进线上线下教育... 查看详情

布谷蓝途:易知微「可视大脑助力智慧教育」主题分享精彩实录

...谷蓝途作为国内前沿的大数据方案与服务提供商,在智慧教育数字化建设领域高瞻远瞩,始终先行一步,这与易知微对数字化转型的理念与实践 查看详情

打造中国数字校园2019中国北京智慧教育展

一、展会信息展会名称:2019年北京国际智慧教育展览会展会时间:2019年5月16日-19日展会地点:中国国际展览中心(静安庄馆)主办单位:×××科学技术部××××××中国国际贸易促进委员会北京市人民政府支持单位:×××教育部... 查看详情

智慧幼儿园方案:ai技术如何助力幼儿园智慧建设?

一、方案背景 1、行业背景 1)市场红利"二胎"及"三胎"政策全面开放,人口出生率有所上升,加上中国家庭教育消费升级,以及家长教育观念转变,幼教行业市场规模逐年扩大。 2)政策助推... 查看详情

智慧校园是实现智慧教育的必由之路

何为智慧教育?随着信息技术从数字化向智能化方向发展,IBM在2008年提出“智慧地球(SmartPlanet)”概念并将其应用于教育领域。智慧教育是利用新一代信息技术更好地实现“为全体学生服务”的新教育模式,主要具有五个方面... 查看详情

破解校园数字安全难点,联想推出智慧教育安全体系

...见不鲜,教学系统的稳定性与师生的信息安全问题成智慧教育行业的痛点。数字教育双刃剑显现,智慧教育安全吗?8月9日,联想中国举办了以“创新技术守护教育安全”为主题的沙龙,联想GIC全球... 查看详情

hive常用交互命令—悟空智慧教育

...ql>/opt/module/datas/hive_result.txt以上文章内容来源于《悟空智慧教育》:www.wukongone.com,《悟空智慧教育》是一家专业的大数据视频教学网,专属定制您的未来。 查看详情

“互联网+教育”高峰论坛在深圳举行,智慧校园建设将进入快车道(转载)

...公司签署了《大数据应用战略合作协议》,决议共同推进智慧校园战略。  “教育和互联网结缘,不是新形式。”国家信息中心党委书记、常务副主任杜平说,教育+互联网早已有之,但在过去它不等于智慧教育。“我认为它... 查看详情

华为云classroom聚焦人才数字化转型,引领智慧教育改革新模式

随着教育行业数字化转型进程加快,利用现代化云端技术手段,线上线下相结合方式建立的全新OMO产教融合一体化已成为行业趋势。华为云Classroom平台沉淀了华为多年研发实践经验和多种前沿技术,以赋能伙伴、助力... 查看详情

帮助粉丝用青泥学术大数据推荐毕业论文选题(围绕教育信息化2.0疫情期间线上学习质量问题steam教育智慧教育等突破点来抉择)

需求本科论文水平,青泥学术可以起到一定帮助。说明我也只是读了一个学期的硕士而已,谈不上多高的指点,可能比一些人更努力一些。所以我的学术造诣不算太高,不敢盲目建议。但是君子性非异也,善... 查看详情

从数据到智慧

知识体系打造一直是个人到团队的非常核心的能力;近期在更新笔记软件,以及整理知识体系的时候,面临很大量的知识,不禁回想起之前的看过的一些文章;也继知识,大脑与实践进一步探讨这个话题&#x... 查看详情

从数据到智慧

知识体系打造一直是个人到团队的非常核心的能力;近期在更新笔记软件,以及整理知识体系的时候,面临很大量的知识,不禁回想起之前的看过的一些文章;也继知识,大脑与实践进一步探讨这个话题&#x... 查看详情

权威发布!2019北京智慧教育装备展

  什么叫教育?教育的内在精神就是激发人类对于真善美的渴望。这个世界上除了真善美,还有什么更值得追求的东西吗?真就是求真知,真求知;善就是顽强人格,积极的价值观,以及对众生的宽容。美在于什么?在于内... 查看详情

.NET 的开放、免费、多维数据集数据结构

】.NET的开放、免费、多维数据集数据结构【英文标题】:Open,free,cubedatastructuresfor.NET【发布时间】:2011-07-1114:16:19【问题描述】:我正在着手开展一个项目,该项目允许用户以类似于OLAP系统中提供的方式对数据进行切片和切块... 查看详情

dikw:数据信息知识智慧的金字塔层次体系

...的准确定义。   本文试图通过数据-信息-知识-智慧的DIKW层次体系,分析四者之间的联系与区别,以及在实际应用中的作用,对知识的内涵和价值进行阐述。    关于DIKW体系    DIKW体系是关... 查看详情

知识体系——从数据到智慧,这几步你做对了吗?

...97433333383&wfr=spider&for=pc知识体系——从数据到智慧,这几步你做对了吗?风亦有青17-10-0220:35智慧最近看到很多反思碎片化阅读、知识付费、知识焦虑的文章,有好几篇文章里都引用了这句话——只有当潮水退去... 查看详情

官方通知2019智慧教育博览会_2019北京教育装备展

2019年5月16至19日隆重召开北京教育装备展展会时间:2019年5月16日--19日/展会4天展馆地址:中国国际展览中心(北京市朝阳区北三环东路6号)展商报到布展:2019年5月14日(星期二)8:00-17:002019年5月15日(星期三)8:00-18:30开幕时间:2019... 查看详情