数据通信基本概念(精选8篇)

时间:2023-07-01

数据通信基本概念篇1

关键词:本体学习;自动化;本体构建

一、本体的定义

本体一词来源于哲学,它指的是一种存在的系统解释。近年来,在计算机科学中关于本体的研究越来越多。在人工智能界,Ontology被定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。在信息系统、知识系统等领域,最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”。W、N、Borst对该定义进行了引申“本体是共享的概念模型的形式化的规范说明”。Fensel对这个定义进行分析后认为Ontology的概念包括4个主要方面:

概念化(conceptualization):客观世界的现象的抽象模型。

明确(explicit):概念及它们之间联系都被精确定义。

形式化(formal):精确的数学描述。

共享(share):本体中反映的知识是其使用者共同认可的。

目前,关于本体的公认的定义是Gruber在1994年提出的:“本体是关于领域共享概念的一致的形式化说明”。这个定义包含3层含义:

共享概念包括用来对领域知识进行建模的概念框架、需要互操作的主体之间用于交互的与内容相关的协议以及用于表示特定领域的理论的共同约定等。

本体必须是一致的,即本体概念和关系不能出现逻辑上矛盾的陈述或推理上的逻辑矛盾。

本体的描述是形式化的,支持对领域概念和关系的推理。

二、基于本体学习的自动或半自动本体构建方法

由于人工的方法费时费力,使得本体的构建成为一项艰巨的任务。因此,如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方向。

国外在该方向的研究很活跃,把相关的技术称为本体学习技术(Ontology Learning),其目标是利用机器学习和统计等技术自动或半自动的从已有数据资源中获取渴望的本体。根据源数据结构化程度,可以将本体学习技术分为以下类别:

(一)基于结构化数据的本体学习

结构化数据主要是包括关系数据库或面向对象数据库中的数据。现在的应用大多采用关系数据库来组织和存储数据。但是关系模型有一个致命弱点,即它不能用一张表模型表示出复杂对象的语义。

基于结构化数据的本体学习的主要任务就是分析关系模型中蕴涵的语义信息,将其映像到本体中的相应部分。

从数据库中抽取本体,一般的做法是:利用数据库的逆向工程或映射技术将关系模型转换为一种中间模型,然后将该中间模型转换成本体。

例如,Johannesson提出了将关系模型转换成一个概念模型,该概念模型实际上是扩展的实体――关系模型的形式化表示,然后由用户对该概念模型进行修订生成最终的本体。

Rubin等人提出了一种使用关系数据库中的数据来丰富指定本体中的实例,并自动获取这些实例在相应属性上值的方法。Stojanovic等人使用映射技术将关系数据库模式映射为本体。通过考察数据库中的表、属性、主外键和包含依赖关系,给出了一组从关系模型到本体的映像规则,在根据这些规则的基础上能够直接获取候选本体。由于关系模式中蕴涵的语义十分有限,所以只适合构建轻量级的本体。Kashyap提出首先根据关系模式得到一个初步的本体,然后基于用户查询进一步丰富该本体中的概念和关系。由于用户查询具有很大的随机性,所以很难保证结果的质量。Astrova通过对数据库中的元组的分析,得到了概念间的继承关系。

(二)基于非结构化数据的本体学习

非结构化数据是指没有固定结构的数据,例如纯文本、Web网页、Word文件和PDF文件等。目前,基于非结构化数据的本体学习技术的研究主要集中在从纯文本中获取本体。由于缺乏一定的结构,要使机器能够自动地理解纯文本并从中抽取出需要的知识,必须利用自然语言处理(Natural Language Process,NLP)技术对其预处理,然后利用统计、机器学习等手段从中获取知识,重点是从文本抽取领域概念、实例,并发现概念之间的关系。

对于概念的获取,常用统计方法是计算概念在文本集中出现的频率,如果该频率大于指定的阀值,则将其作为领域本体中的概念。对于概念间关系的获取有基于模式,概念聚类,关联规则挖掘的方法。基于模式的方法需要判断文本中词的序列是否匹配某个模式,如果匹配,则可以识别出相应的关系。概念聚类的方法是利用概念之间的语义距离,对概念进行层次聚类,聚类的结果就是概念间的分类关系。关联规则挖掘的方法常用来获取概念间的非分类关系,其基本思想是,如果两个概念经常出现在同一文档(或段落,句子)中,则这两个概念之间必定存在关系。

目前,从纯文本中获取概念和概念间分类关系的研究比较多,但对概念间非分类关系的获取,大部分方法都停留在判断两个概念之间是否存在关系的层次。该方法需要人工预先制定模板。

(三)基于半结构化数据的本体学习

大量的XML格式和HTML格式的网页,以及它们遵循的文档类型定义(XML Schema或DTD)等具有隐含结构的数据都是半结构数据。本体学习的方法是利用一些映射规则从中获取本体。

另外,机器可读的词典也是一种特殊的半结构化数据,通常使用语言学分析,语义分析和模式匹配等方法来获取特定领域的概念及概念之间的关系。鉴于传统字典对于每个字词所定义的同义词、字根、原形等关系,该建构方法就是利用这种词汇与词汇之间的关系――上位词、下位词来确定概念的阶层关系。基于字典的建构方法是其他建构方法的基础,然而以此方法建构的本体通常为一般性的描述,并不是与特定领域相关的本体,因此必须结合其他方法以及由领域专家的参与才能形成有意义的本体架构,故此方法无法独立使用。该建构方法不仅受限于字典本身的范围大小,而形成不同范围的子领域,还存在无法适应环境变化的要求而造成遗漏信息。

Papatheodorou等人提出了一种从XML或RDF格式的文档中获取概念间分类关系的方法;Modica等开发的OntoBuilder工具能够用户浏览行为从XML和HTML标记的半结构化数据源中生成本体的功能。2003年,Volz等人提出了一种基于XML Schema和DTD的本体学习方法。该方法依赖于一组从源数据到本体的映射规则或模式匹配规则,如何获取这些规则就成为关键。

总之,采用本体学习技术,虽然可以简化人工构建本体的工作量。但在实际的知识获取过程中,有些知识虽然人能理解,但很难确切地表达出来,比如很多隐含的概念和概念间的关系,这些关系都是隐含在人的头脑中或者是文档中的。另外这些隐含的概念及概念间的关系要用形式化的方式确切地表示出来更加困难。

参考文献:

1、邓志鸿,唐世渭,张铭等、Ontology研究综述[J]、北京大学学报(自然科学版),2002(5)、

2、Thomas R,Gruber、Toward Principles for the Design of Ontologies Used for Knowledge Sharing[J]、Revision,1993(23)、

3、Fensel D,Harmelen F Vl、OIL:An Ontology Infrastructure for the Semantic Web、IEEE Intelligent Systems,2001(2)、

数据通信基本概念篇2

[关键词]概念模型 信息系统 用户 理解 沟通 实验室研究

[分类号]N945、12

概念模型通过一套正规化的符号语言描述现实世界,是信息系统开发中记录系统需求的重要工具,如E-R图、数据流程图、UML等。记录的系统需求成为项目中各方沟通的媒介:系统分析员与用户沟通以确认系统需求;系统开发人员间沟通开发细节。显然,两方面沟通均有效才能保证开发出符合用户需求的应用系统。而以往研究多关注系统开发人员间的沟通,忽视了与用户的沟通。

当前,用户参与需求分析愈加被重视,有效的用户参与被认为是系统成功和用户满意的有力保障。Davies等人的调查表明,与用户的沟通有效性超出其他技术和管理因素,成为概念模型使用中最重要的问题。然而还缺乏直接的研究和证据解释概念模型在与用户沟通中的作用机理。

鉴于此,本文将以概念模型与用户沟通过程中的认知特点为基础,分析和解释概念模型影响沟通效果的作用机理,并通过实验室研究方法获得数据支持。

1 文献回顾

1、1 概念模型的沟通有效性

基于概念模型的沟通效果本质是阅读者正确理解模型中信息的程度,可以定义为阅读者正确掌握的信息量与模型全部信息量的比率。但信息本身具有不同的类别,近年来研究中多依信息类别将理解效果划分为不同的维度,以深入分析模型对沟通有效性的影响。如Agarwal等根据信息组成分为简单信息(仅包含基于结构的或基于过程的信息)与复杂信息(包含两类型信息),研究发现开发人员使用面向过程的概念模型理解复杂信息显著优于面向对象的概念模型。而在简单信息理解方面无显著差异。

理解效果的维度,即信息类别的划分不存在统一的标准,主要依研究目的而定,如上述研究中的信息分类是为了寻求信息结构与模型结构的匹配。

1、2 概念模型理解效果研究

阅读者理解模型中信息的过程是概念模型与阅读者个人交互的过程,因此分别受到模型特点及个人特点两方面因素的影响,如图1所示:

对于模型因素,以往研究发现了一些好的品质,如信息完整性、清晰性等。满足好品质的模型能够提升理解效果,如Gemino等通过实证研究验证了本体论语义更清晰的模型更利于理解。

个人特点中的因素关注较多的如个人经验、知识。经验越丰富,知识储备越充足,个人理解效果必然越好。如Khatri等的实验室研究验证了开发人员所具有的模型技术知识以及应用领域知识对阅读效果的影响作用。

然而,这些研究能够回答的现实问题很有限。首先,用户具有高的应用领域知识水平及低专业技术知识和实践经验,现有研究对这样的复合因素组合的情况难以解释。此外,除了模型特点中的“好品质”,不同的模型仍然存在其他差异影响阅读者理解过程,但作用效果可能因人而异。如有研究发现相对于面向对象的建模方法,面向过程的模型更利于开发专家全面识别信息,而对开发新手不存在这样的差异。因此,本文将根据用户整体的认知特点分析其与概念模型特征的交互关系。

2 理论与假设

2、1 用户阅读的认知过程

概念模型主要的呈现形式是图形,为了更深入认识用户阅读概念模型时的认知特点,可以借鉴图形理解的相关理论:感知理论与认知理论。

感知理论解释了阅读者将所看到的图形信息放入短期记忆的感知过程,包括三步:辨识图形中各符号对象;根据模型中符号的空间布局对符号进行分组及确定层次关系;对符号初步组织并放入短期记忆。专业的训练和实践能够使开发人员具备组织图形信息的技巧;而用户未接受过培训,只是按照阅读文本时的习惯策略从左向右、自上而下地组织模型信息,因此放入短期记忆中的信息基本是按照模型的信息组织方式。

认知理论解释了信息放入短期记忆后的认知过程,包括两个活动:搜索长期记忆中的相关知识;对图形信息进行解释并与长期记忆整合。影响认知效果的根本因素是认知计算量。对用户来说,主要依靠搜索长期记忆中关于业务环境等的知识来解释图形所传达的含义。根据认知匹配理论,当放人短期记忆的信息结构与用户长期记忆中的知识组织方式一致时。搜索相关知识的效率将提高,整合新知识时也减少了结构关系的转换计算,使得总的计算量降低,因此认知正确性将提高。

综上所述,概念模型的信息组织方式与用户长期记忆中知识结构的匹配程度是影响认知过程正确性的重要因素。

本文将以面向对象与面向过程的概念模型为例,验证上述分析。两类模型对信息的组织方式显著不同:面向对象的模型将信息分类、抽象为对象,以对象为中心组织与对象相关的属性、行为、通讯等信息,如用例图中围绕各角色的行为活动(即用例);而面向过程的模型将信息抽象为信息流,通过信息处理流程中的前后衔接组织信息,如数据流程图中“处理模块”的输入和输出“信息流”。

认知心理学中众多研究结论显示出人们的自然思考方式首先是分类,这正是面向对象思想的基础。因此可以说,面向对象模型的信息组织方式与未接受过专业学习的用户脑中的知识组织更加匹配。由此判断,与面向过程的概念模型相比,采用面向对象的概念模型更利于用户理解。

假设1:描述同一系统信息时,用户使用面向对象模型的理解效果显著高于面向过程模型。

2、2 基于语义网络理论的理解效果

语义网络理论对人脑中的知识组织方式作了很好的解释:人的长期记忆中,知识是通过节点互联的网络来组织的。节点代表任何实体、抽象类、属性等概念;节点间的连接表示概念间的某种关系。一条信息可能包含一个、两个或多个节点,而多个节点之间的关系可能是直接关联,或是通过某些节点间接关联。

显然,当信息包含的节点数较少、节点间的连接较少时,认知过程的搜索和整合计算量都更小。因此,为了进一步分析用户认知特点与概念模型的交互作用,本文根据信息中所包含的节点数及连接关系的复杂程度,将理解效果分为简单理解与复杂理解。

有研究曾发现,不熟悉概念模型的阅读者在使用用例图和使用数据流程图识别单个信息点的完整性上没有差别。这是因为,理解简单信息时的认知计算量很少,面向对象模型信息组织的优势不显著;但随着信息复杂度增加,两类模型认知计算量的差异将显现出来。

假设2:描述同一系统的简单信息时,面向对象与面向过程概念模型的用户沟通效果无显著差异;

假设3:描述同一系统的复杂信息时,面向对象概念模型的用户沟通效果显著高于面向过程模型。

3 研究方法

3、1 实验对象及实验过程

本文采用实验室研究方法收取数据。实验在大学课堂道行,选修同一课程的管理学院各专业学生自愿参加,最终参加学生41人。实验中学生被随机分为两组,依次完成三项任务:阅读描述同一系统的系统需求说明,两组的阅读材料不同;回答关于系统理解效果的测试问题,包括简单信息及复杂信息;填写个人经历以及实验感受的问卷。

3、2 实验设计

3、2、1 实验情境 待开发的系统是一个校友录系统。大学生对这样的系统较为熟悉,符合学生作为系统用户的角色。实验人员在实验开始时将以系统开发者的角色进入,并说明实验参与者将作为该系统的用户,实验目的是使用户理解系统的构建内容。

3、2、2 需求说明 两组阅读的需求说明分另0由用例图(Use Case Diagram)与数据流程图(Data Flow Dia-gram)来描述,两者是当前使用最广泛的概念模型,分别代表面向对象与面向过程的概念模型。两组模型描述了相同的系统内容,所传达的信息量一致,只是表达形式不同。由于实验时间的限制,所描述的系统只具备简单的功能。

3、2、3 理解效果 用户的理解效果通过回答问题的正确率来反映。所有问题均为判断题,共14题:关于简单理解的问题共7题,只涉及需求中两个概念及直接连接关系;关于复杂理解的问题共7题,涉及三个以上概念及其关系。所有14道问题的正确率反映用户的整体理解。

3、2、4 实验后调查问卷 问卷主要通过五点量表测量实验中的假定条件以及控制变量。包括三个问题:阅读者对概念模型的学习程度、阅读者对校友录系统背景的熟悉程度(这两者用来保证学生作为用户角色的有效性)以及阅读者感知的模型阅读难度。感知的阅读难度也是影响模型使用的重要因素,因此在本研究中作为控制变量。

4 实验结果与讨论

4、1 实验数据剔除

实验收集到数据41份,首先剔除回答不完整的数据1份,然后对实验的前提假定进行检验。统计阅读者的模型知识表明所有参与者都没有学习过概念模型知识,同时95%的参与者较熟悉或非常熟悉校友录系统。为进一步保证实验的有效性,根据参与者对系统背景的熟悉情况剔除了解很少或完全不了解的参与者数据3份。最终获得有效数据37份,其中用例图组19份,数据流程图组18份。接下来将使用SPSS统计软件对数据进行分析、验证假设。

4、2 模型对用户理解的影响

采用多元方差分析方法验证两概念模型组阅读效果的差异,并将用户感知的模型阅读难度作为协变量以控制其对因变量的影响。两组用户的简单理解效果没有显著影响(显著性=0、617),支持了似设2;复杂理解效果方面,用例组(均值=0、722)显著高于数据流程图组(均值=0、579),显著性=0、007,支持了假设3;总体理解效果方面,用例图组(均值=0、726)也显著(显著性=0、043)高于数据流程图组(均值=0、643),支持了假设1。如表1所示:

4、3 用户不同层次的理解效果

通过对同一用户简单理解效果与复杂理解效果的配对均值检验来反映前文中关于理解划分的认知基础。用户对简单问题的理解效果显著高于对复杂问题的理解(显著性=0、045),如表2所示:

4、4 讨论

4、4、1 用例图组用户的总体理解效果显著高于数据流程图组(假设1) 基于前面的分析,该结论在理论上验证了影响用户理解效果的一个重要的概念模型因素――模型信息组织结构特征,该因素与用户知识组织结构交互影响用户理解效果,即使用与用户知识组织结构更相近的概念模型得到的用户理解效果更好。这为概念棋型的选择和评价提供了一个较可靠的一般性的依据。该结论为实践中而向对象的概念模型在用户沟通方面的意义提供了证据支持,为开发项目选择概念模型提供了直接的参考。

本文基于认知特点的分析认为用户与开发人员在理解概念模型时(无论是感知过程还是认知过程)具有显著差异,对比以往研究中面向过程的慨念模型更有利于开发人员理解的结论,本实验室研究的结论间接证明了用户与开发人员认知特点上的差异。

4、4、2 用户对不同复杂度信息的理解效果差异显著

用户对简单问题的理解效果显著高于复杂问题;且用例图/数据流程图在简单和复杂信息理解效果方面的表现显著不同(假设2,假设3)。这些结论验证了认知复杂度是用户理解效果的本质影响因素,进一步解释了具有不同信息组织特征的概念模型是通过影响用户认知计算量影响用户理解效果的。

同时,该结论具有更高的可靠性。可以对以往一些研究结论进行解释:即由于所设置的信息过于简单或没有选择对用户认知计算量有影响差别的概念模型,以往研究可能获得概念模型对用户沟通效果无影响作用的结论。这再次肯定了该领域研究中以用户认知特点为基础的重要意义。

5 结语

数据通信基本概念篇3

关键词:数据标准化;数据元素;数据;信息分类与编码

中图分类号:F270、7文献标识码:A文章编号:1672-3198(2008)02-0126-02

1 引言

从国际上关于数据标准化所经历的历程可以看出:企业信息系统建设的核心是数据。按照James Martin信息工程理论:数据是稳定的、处理是多变的。所以从这一理论可以看出企业信息系统建设的核心之核心是数据资产。国际上的数据建设也是从一个无序向有序逐渐过渡的,一直将数据“孤岛”向数据集成化发展。

2 数据元素基本理论

2、1 数据元素规范与标准化框架

(1)数据元素的组成。

数据元由对象类、特性和表示三部分组成,其中对象类用于收集和存储数据的事物,例如,人、井、岩芯、管线、储罐都是对象类等;特性是用来区别和描述对象的,例如,颜色、性别、年龄、收入、地址、价格等均为特性;数据的表示部分中最为重要的方面是值域,值域是数据元允许(或有效)值的集合。对于值域,数据元中存在两种类型的值域,一种是所谓取值是固定的,即取值是可枚举的,例如,人眼睛颜色这个数据元,其取值可能包括:Brown、Gray、Green、Hazel、Blue,另一种是概括的,即数据元取值是有定义域约束的,其取值可能是有限的,但是无法列出全部值,例如人的年龄,其取值范围可能是1-200,并且每位要求是十进制表示。为便于理解,

(2)数据元结构模型。

① 数据元概念(DEC):对象类与特性联合在一起形成数据元概念,数据元概念在数据分类中是非常有用的,一般来讲,数据元概念是一个抽象意义上的数据元,但这类数据元的对象类已经限定,只有经过对数据元概念中的各个要素再进一步的限定,才使数据元概念变成真成有意义的应用数据元素。所以,数据元概念本身具有抽象性与分类性。

② 通配数据元:特性与表示联合在一起形成通配数据元,通配数据元素也具有抽象意义,对于这类数据元来讲,它的特性与表示已经确定,所以它具有通配性,如果将这类数据元与具体的对象类联系在一起,那么该类数据元就可以具体化为有意义的应用数据元。

③ 数据元类型:数据元概念与通配数据元形成数据元类型。

数据元是由数据元概念和表示两部分组成。当一个表示被联合到一个数据元概念上时,就能够产生数据元。数据元和数据元概念间存在多对1的关系,也就是一个数据元必须对应一个数据元概念,而一个数据元概念可以有多个数据元,换句话说,多个数据元可以共享一个数据元概念,数据元结构模型见图1。

数据元与表示之间的关系是一对一的关系,也就是一个数据元需要一个表示。当数据元的概念模型相同而表示不同时就是两个不同的数据元,数据元中的表示是描述数据元中的数据元概念中的特性,即数据元中的特性有且仅有一个表示。

在数据元概念中对象类和特性之间是一对一的关系,一个对象类需要只需要一个特性(或者特性类),一个特性(特性类)只描述一个对象类,当一个特性和一个对象类建立关联时就产生了一个数据元概念。

同实体关系类的数据模型相比,模型中的实体相当于数据元中的对象类,而实体的属性本当于数据元中的特性和表示。

3 数据元的元模型

经过对数据元理论与实际数据规范化应用的研究,我们提出了数据元的元模型,见图2。

图2 数据元元模型

该框架模型是将对象类、特性类、分类模式由此演生的基本数据元和应用数据元、值域以及数据标准值、实例标准值以及标准实体有机的关联在一起。揭示了数据元与应用的紧密关系。整个模型高度概括了数据标准化的核心工作。

4 数据元素与信息编码间的关系

如何对企业的各种信息进行有效的分类,并对其进行编码这是信息化过程中一个非常重要的过程。其实数据元素与信息分类及编码有着密不可分的关系,在表2中给出了数据元素分析方法与信息分类与编码的对应关系。

5 数据元应用的领域

数据元素理论属于信息标准化的基础理论,即是数据规范化理论基础。数据元分析在信息分类、数据的集成参考模型、数据模型优化设计、数据元字典以及制订数据交换标准等方面得到应用。

数据元的研究,目前在国际上相当流行,而在国内的研究还处于起步阶段。通过几年的研究,目前,我们已经将这一方法论用于石油上游的数据规范化中,并取得了良好的效果,目前,正在将这一方法论用于中石油的ERP数据平台中的数据规范化中。相信,随着这一方法论的在石油石化领域的不断应用,必将为石油石化信息化建设起到科学的指导与推动作用。

参考文献

数据通信基本概念篇4

关键词:中医医案;领域本体;喘症;知识库

中图分类号:TP182;TP315 文献标志码:A

中医医学历史悠久,同时也产生了与中医学有关的大量文献。在中医学走向现代化的过程中也产生了海量科学研究数据和文献,但是这些资料存在着分散、片面等状况不能被有效地利用。由于历史的久远和中国地域的辽阔,同一事物在不同时期、不同地域有着不同的名称,更是加大了实现古医学与现代医学资源共享的障碍。

语义检索可以通过从语义网上获取数据从而给出与检索者请求的查询结果以及请求的相关资源,从而解决了关键词一词多意或多词一意等局限性,提高了检索的准确性和全面性,实现了机器理解与人机交互的协同能力[2]。在基于本体的检索系统中,领域本体[3-4]的Ontology层提供共享的术语和概念,而知识库则使用这些语义的共享来表达领域事实,因此本体层是语义搜索引擎的关键所在。本文引入信息工程的知识库架构和基于领域本体的知识库构建理论,将中医喘证知识作为形式背景,使用Protégé 工具及OWL 语言构建了基于中医喘证本体的领域知识库实例,解决了案例知识的表示和组织问题,为下一步中医喘证案例推理的研究奠定基础。

1知识库

知识库是针对某一领域问题求解的需要,采用某种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识的集合[5]。

领域知识是指在某一专门领域中重要问题或概念以及概念之间的相互关系的集合。领域知识库这一术语源于人工智能领域。在人工智能领域,领域知识主要应用于知识的专家系统和自然语言理解的系统中。

1、1知识 目前,知识这一概念有3种比较有代表性的定义:①Feigenbaum:知识是经过消减、塑造、解释、选择和转换的消息。②Bernstein:知识是由特定领域的描述、关系和过程组成。③Heyes-Roth:知识=事实+信念+启发式。知识常常是模糊、不确定或不完全的。而且知识还处在不断地动态变化过程中。

对于任何知识,通常采用Heyes-Roth提出的知识的三维空间来描述。即知识的范围、知识的目的和知识的有效性。范围由具体到一般,目的从说明到指定,有效性由确定到不确定。知识的三维空间描述,见图1。

图1 知识的三维空间描述

大量的数据经过加工后才会有价值,经过分析处理的数据形成了信息,信息的作用后有时间和范围的限制。为了使信息在较长的时间内有效,必须进行一系列的内部处理,这个过程叫综合,综合后的信息组成了知识。

从计算机科学的观点来看,知识是信息综合处理的结果。在综合过程中,信息传递相互比较,结合成有意义的链接。数据、信息和知识具有层次关系,它们的层次关系,见图2。

图2 数据、信息和知识的层次关系

1、2领域知识 领域知识主要应用在基于知识的专家系统和自然语言理解以及有关概念的约束的集合。知识工程对领域知识进行了3方面的描述:①领域知识是一个概念模型,这个概念模型包括概念和概念之间的关系。②领域知识是概念和概念之间的约束。③领域知识是陈述如何推导计算出新概念和新概念之间的关系的规则。

领域知识的2个基本概念:①领域特征概念:是领域知识的概念化,是各种相关领域内的重要概念的语义描述。②领域特征属性:是指某一领域内的概念所具有的特点,领域特征概念可以是词,也可以根据需要扩展成短语甚至词串。

2本体

2、1本体的概念 本体原本是一个哲学上的概念,在被引入信息科学之后,其定义尚未统一, Studer在1998年对本体的定义得到最多认同,他提出"本体是共享概念模型的明确的形式化规范说明",此定义包含4层含义:①概念模型:本体论的研究对象;②明确:某套概念及其相互之间关系被准确定义;③形式化:计算机可读的精确的形式化描述;④共享:本体中反映的知识是相关领域中公认的概念集。

2、2本体构建步骤 以本体构建[6-8]原则[清晰(Clarity)、一致( Coherence)、可扩展性(Extendibility)、编码偏好程度最小(MinimalEncoding Bias)、本体约定最小(Minimal Ontological Commitment)]为基础,国内外学者提出了一种构建本体的实际操作方法,归纳为两种模式:①利用现有文献和领域专家使用手工的方式创建概念关联;②将已有的叙词表改造成本体,或者采用学习机制,进行自动或自动化的本体构建。

目前国际上被认可的本体手工构建方法主要包括有骨架法、企业建模法、Methontology、KACTUS、循环获取法、IDEF-5、七步法等本体构建方法。

本文架构的中医喘症知识库即采用七步法构建本体。

2、3本体构建工具 目前构建本体的工具有很多种,不同的专业领域选取不同的本体构建工具,本文选择由斯坦福大学研制开发的Protégé(使用Java和开放资源作为操作平台)作为本体的建模工具,OWL(Ontology Web Language)作为描述本体的语言。Protégé提供了本体概念类,关系,属性和实例的构建,并且屏蔽的具体的本体描述语言,只需在概念层次上进行本体模型的构建。

3中医喘证医案的本体和知识库构建

3、1中医喘证医案的研究背景数据整理 收集和整理《吴鞠通医案》、《丁甘人医案・伤寒案》以《中华医典》所收录的75部医案著作中所涉及的喘证医案为研究对象[9],以"喘主证"、"喘息"、"喘逆"、"喘鸣"、"咳喘"、"上气"等关键词为核心概念,筛选整理医案,最终确定相关属性字段10余个,建立了较为完善的中医喘证医案数据库,如图3所示,将此作为研究对象的形式背景,见图3。

图3 喘症医案数据库

3、2形式背景中概念树的组织

3、2、1定义类及层次关系 从喘证本体中自上而下抽象出基本类及层次关系,并采用Protégé建立中医喘证领域本体类关系初步模型。其中,类对应本体体系中的Class,对象对应本体体系中的Instance或Individual例如,外感型喘是实喘的子类,实喘又是喘证的子类,用OWL描述上述关系具体如下。

3、2、2定义并应用各类之间的关系 每种关系相当于一个二元组或多元组函数,各函数的定义域和值域为喘证本体模型内部的各本体类和子类对象,可分别由各关系所对应的ObjectProperty属性的domain和range两个子属性来设置函数的定义域和值域,以便于本体模型内部各类通过上述关系进行关联,以下显示的是ObjectProperty属性"痰象"以及它的特殊性质,其中"痰象"的定义域是案例,值域是由"痰白"、"痰黄"和"痰清稀"组成的并集构成,说明案例是由值域中的3部分构成的,同时它还具有传递属性()

3、2、3设置各本体类的属性及关系 包括各属性的名称、值、类型及其他约束,对应本体体系中的Datatype Propety。

属性是个体间的二元关系,也就是说,属性把两个个体连接在一起。

本体所描述的概念间的关系主要有4 种:①概念之间部分与整体的关系(Part of);② 概念之间的父子继承关系(Kind of);③概念的实例和概念之间的关系(instance of);④某个概念是另一个概念的属性关系(attribute of)。

概念间的内在联系构成了丰富的概念间的语义关系,通过规则的逻辑推理就能获取概念间的蕴涵关系。

3、2、4定义概念的语义扩展关系如同义、近义、上下位关系等。为了实现关键字的语义检索,本体模型需要实现词语的本义、同义、近义和上下位等关系查询。例如,"微喘"可以具有"喘息"等同义词或近义词,若把其中任何一词作为关键词输入,不仅可以得到关键词的本义信息,并且能查询到关键词的同义、近义信息。这也是将来提高案例检索查全率的关键技术。

3、2、5实例填充 用具体实例填充(1)中定义的类,并对实例的属性及其属性值进行定义和扩展。

3、2、6修正本体模型 采用Jean推理机对已构造本体进行推理,验证本体初步模型是否合理性以及概念是否具有可满足性,并完善不合理之处。

3、2、7设置本体的存储方式。本体存储主要有文件存储和数据库存储两种方式,文件存储指以OWL或RDF等文件格式存储。喘证本体模型以OWL的文件格式存储,知识库中的案例数据以关系数据库形式存储。

应用Protégé工具建立的中医喘证本体片段,见图4。

图4 中医医案喘证本体片段

3、3导出owl本体文件 目前,Protégé 中存在4 种文件类型,本文选择OWL RDF files,导出的本体文件可以支持OWL 浏览和编辑的工具中被保存、阅读和修改,为知识推理[11-12]和检索提供了资源描述。中医喘证医案本体的概念集合语义树,见图5。

图5 中医喘证医案的概念模型

4结论

本体技术作为一种新的知识组织工具,可以多维度、可视化、动态地表示和组织中医知识和相关的信息资源,基于本体的领域知识库可以清晰地表达领域知识的基本概念、属性、处理方法和内在关系,使用这些概念可以完成知识表示和语义推理。本文将本体技术应用于中医喘证的知识库构建,是下一步实现中医喘证的知识检索和案例推理的前期关键工作,旨在为中医信息化和知识传承探索一条新途径。

参考文献:

[1]田甜,高思华、本体在中医药学领域的应用现状及展望[J]、中华中医药杂志,2013,(6):1832-1834、

[2]许德山,张智雄,邢美凤、面向本体知识库的可视化检所研究[J]、信息系统,2010,(8):114-117、

[3]李景,孟宪学,苏晓路、领域本体的构建方法与应用研究[M]、北京:中国农业科学技术出版社,2009:7、

[4]曾召、构建中医药学领域本体的实践[J]、中华医学图书情报杂志,2009,(7):1-5、

[5]马晓丹,邓晓楠,彭文娟,等、基于领域本体的知识库架构和实现[J]、河北联合大学学报,2012(10):42-47、

[6]高成勉,包含飞,、本体构建原则及其在中医顶层本体构建中的应用[J]、医学信息学,2008,(5):581-583、

[7]李兵,裘俭,张华敏、中医药领域本体研究概述[J]、Chinese Journalof Information on TCM,2010,(3):100-106、

[8]张继芳、基于本体的教学领域知识库构建及应用[J]、时间与经验,2011,4:58-61、

[9]阎红灿,李丽红,马会霞,等、基于粗集理论的中医喘证临床医案关联规则分析[J]、辽宁中医杂志,2012(7):1218-1220、

[10]于楠、基于Ontology的领域知识层次分类体系的构建[J]、东北大学,2005、

数据通信基本概念篇5

关键词:领域本体;语义检索;查询扩展;相似度

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2014)003-0018-03

作者简介:张胜(1979-),男,博士,中国人民国防信息学院讲师,研究方向为数据工程。

0 引言

传统的信息检索大部分是基于语法的检索,即通过语法层面上的文本字符串匹配来实现,缺乏在语义层面上对信息的表示、理解和处理,致使其无法处理一词多义问题以及词语的异形同义问题,进而导致检索质量不尽如人意。而语义检索则是关注信息资源的语义信息,而不只停留在文本的形式上,因而可以克服传统信息检索的弊端,从而提高检索的查全率和查准率[1]。本文提出了一种基于领域本体的语义检索模型,同时给出了该模型中的查询语义扩展算法和相似度计算算法。

1 基于领域本体的语义检索思想

语义检索是对检索条件、信息组织以及检索结果赋予一定语义成分的检索方式[2],其不同于传统检索基于关键词匹配机制,是基于概念的检索匹配机制。语义检索从语义理解的角度分析信息对象与检索者的检索请求,是一种建立在概念及其相关关系基础上的检索技术,其将传统方法中从用户查询和文档抽取出来的关键词替换成含有语义的概念,以此把关键词级的检索提升到概念级的检索。

领域本体用于描述某个特定专业领域的本体,其通过定义概念与概念之间的关系来描述概念的语义信息,描述领域内部知识共享和知识重用的公共理解基础。因此,领域本体在信息检索领域,特别是在基于知识的检索中得到了广泛应用,其能有效提高检索精度。基于领域本体的语义检索,其基本思想即依据领域本体知识库对信息资源或文档进行语义标注,使信息资源或文档的描述信息具有语义,揭示信息资源或文档的语义,同时也对用户的检索词进行语义揭示,并依据领域本体,对检索词进行语义扩展,进而检索得到结果。基于领域本体的语义检索大致可通过以下四步实现[3-4]:

(1)领域本体构建。在领域专家的帮助下,由知识工程师为主体构建领域本体知识库。

(2)特征提取。获取信息资源或文档,并依据构建和管理的领域本体对其进行语义标注,揭示信息资源或文档语义内涵。

(3)查询语义扩展。依据领域本体对用户提出的查询请求进行语义揭示,并依据一定规则或算法扩展用户检索词,将生成的备选检索词集提交给检索系统进行检索。

(4)结果排序。检索系统返回检索结果,并依据一定规则或算法比对检索结果与用户原始检索词的相似度,按照相似度排序后将检索结果提交给用户。

2 基于领域本体的语义检索模型

根据语义检索思路,本文提出了如图1所示的基于领域本体的语义检索模型。

该模型共分为4个模块:领域知识管理模块、语义标注模块、索引和检索模块、用户查询扩展和结果排序模块。

2、1 领域知识管理模块

领域知识用于指导数据资源或文档描述,尤其是领域知识中的本体和分类体系,其是语义表征数据资源的核心。同时,中文分词、查询扩展和查询结果排序都需要以领域知识为基本依据。领域知识管理模块主要完成领域知识的构建和维护,如领域本体、推理规则的构建和维护。

2、2 语义标注模块

语义标注实现文档或数据资源的语义揭示,其通过文档特征提取技术(如分词技术),从领域本体所确定的本体词汇中取出对应的概念,构建文档的语义特征域,自动标注资源库中的文档。同时,也应对文档或信息资源的非语义特征进行标注和索引,并提供给索引和检索模块生成文档索引库和元数据库。

2、3 索引和检索模块

对海量文档或数据资源而言,如果检索时通过求解每个文档与用户查询请求的相似度来获取检索结果,势必耗时,不能满足用户体验。因此,必须根据文档或数据资源的标注信息构建索引库,并依据索引库,检索满足用户需求的文档或数据资源。为实现索引和检索模块,可使用Lucene信息检索工具库。基于Lucene的检索引擎提供了如下功能:为数据资源库建立索引、生成索引库、根据用户的检索要求对索引库进行查询,并将查询结果进行排序后返回给用户。

2、4 用户查询扩展和结果排序模块

查询扩展和结果排序模块首先依据领域本体生成的本体词汇库对用户查询输入文字分词(可使用中科院计算所的中文分词系统ICTCLAS),分成本体概念集合和非本体概念集合(即关键词集合);其次,分别对这两个集合按相似度扩展,得到两个查询候选集合:候选本体集的集合和候选关键词集的集合;再次,依据这两个集合,并按相似度排序得到排序后的查询集;最后,将查询请求提交给索引与检索模块,由于索引与检索模块事先已实现了倒排索引[5],故能快速响应用户查询,其将查询结果按查询请求的相似度排序后,将结果推送给用户。

3 查询扩展和相似度计算算法

在实现语义检索时,需要对用户输入的检索词进行语义扩展,以期获得更好的检索效果,因此必须设计合理、科学的语义扩展算法。同时,也需要对检索结果按相似度从大到小排序,这必然涉及到相似度计算算法。因此,本节主要探讨了查询语义扩展算法和相似度计算算法。

3、1 查询扩展算法[6]

用户输入查询经过分词后可形成两个集合:WordSet={OS,KS},即本体概念集合OS={O1,O2,…,On}和关键词集合KS={K1,K2,…,Kn}。本体概念集合中记录了用户在查询界面中输入本体概念,关键词集合为用户输入查询词中的非本体概念词。查询扩展算法将分别对这两个集合进行扩展,并计算扩展的集合与原集合之间的相似度。下面从本体概念扩展和关键词扩展介绍扩展算法。

3、1、1 本体概念集合扩展策略

Step1:对每个本体概念进行扩展。

对单个本体概念o按相似度进行扩展,选择与该本体概念相似度大于某一阈值γ的概念,且该被选择的本体概念与其他所有用户输入的本体概念的相似度小于该被选择本体概念与当前单个本体概念的相似度。

E(o)={x|(sim(x,o)>γ)∩x∈Dontology∩(y(y∈OS∩y≠x(sim(y,o)

Step2:分别从每个本体概念扩展集E中选择一个概念形成一个本体概念查询集。用户提供的本体概念集中每个概念均可扩展生成一个扩展集,从每个本体概念扩展集中选择一个概念形成查询本体概念集fo={f1,f2,…,fn},其中f1在E(O1)中选取,f2在E(O2)中选取。所有本体概念查询集可描述为FO(OS)={(F1,F2,…,Fn)|F1∈E(O1),F2∈E(O2),…,},每个本体概念集fo={f1,f2,…,fn}与用户输入的未扩展的本体概念集OS={O1,O2,…,On}相似度可由公式(1)计算。

3、2 相似度计算算法

3、2、1 领域本体概念相似度计算算法

领域本体描述的是特定领域中的概念及概念之间的关系,其构成的本体图可认为是一个带有根节点的有向无环图,图中节点表示概念,边表示概念之间的关系,并且该本体图具有类似于树的层次结构、有向边和多重继承的特点。基于领域本体概念结构图的概念语义相似度计算主要受以下因素影响[7-9]:

(1)语义距离。语义距离指在本体图中连接两个概念节点有向边的数量,可用dist(Oa,Ob)来描述两概念之间的距离。语义距离与语义相似度成反比关系,两概念语义距离越大,则相似度越小;反之,两概念语义距离越小,则相似度越大。

(2)两概念的最近共同父节点深度。其可用depth(father(Oa,Ob))描述,father(Oa,Ob)表示两概念最近共同父节点。本体概念结构图具有类似于树的层次结构,概念的组织自顶向下,分类由大到小、由粗到细,最近共同父节点的深度越深,它的分类就越细,继承的语义信息就越多,则本体概念Oa、Ob的共同语义信息就越大,即两概念间的相似度越大。

(3)语义重合度[10]。即通过两概念间所包含的相同父节点个数,计算概念间的重合度。但是,语义重合度信息隐含在语义距离中,将语义距离和语义重合度同时考虑有重复计算嫌疑。

基于以上分析,考虑语义距离和公共父节点在本体概念结构图中的深度来计算概念相似度。即两领域本体概念a、b的语义相似度为语义综合距离和共同父节点综合深度对相似度影响的加权归一化,即:

3、2、2 综合相似度计算算法

通过对用户输入的检索词集中的本体概念进行语义扩展可得到查询语义扩展集FO(OS),对用户输入的检索词集中的非本体概念的关键词集进行扩展,可得到关键词集的幂集P(KS),从FO(OS)中取一元素fo(该元素为一个扩展概念集),再从关键词集的幂集P(KS)中取一元素p(该元素为一个扩展关键词集),即可组成一个提交给检索模块的检索请求(fo,p),通过计算用户输入的检索词集(OS,KS)与每一个扩展的检索请求(fo,p)的相似度,即可得到相应检索结果与用户输入的检索词集的相似度。综合考虑扩展本体概念集相似度、分类概念集相似度和扩展关键词集相似度,可得到综合相似度的计算算法:

sim_integrate(fo_p,OS_KS)=λ1×sim_sematic(fo,OS)+λ2×sim_key(p,KS)

式中,λ1、λ2为调节因子,分别表示本体概念集相似度在综合相似度中所占比重和关键词集相似度在综合相似度中所占比重,且λ1+λ2=1。

4 结语

本文提出的基于领域本体的语义检索模型能够依据领域本体知识库对信息资源或文档进行语义标注,使信息资源或文档的描述信息具有语义,揭示信息资源或文档的语义,同时也对用户的检索词进行语义揭示,其把传统方法中从用户查询和文档抽取出来的关键词替换含有语义的概念,以此把关键词级的语法检索提升到概念级的语义检索。同时,本文给出了查询语义扩展算法和相似度计算算法,能将结果按相似度从大到小排序,并能有效提高查全率和查准率。

参考文献:

[1] 王珊,张俊、基于本体的关系数据库语义检索[J]、计算机科学与探索,2007(1)、

[2] 余传明、基于本体的语义信息系统研究-理论分析与系统实现[D]、武汉:武汉大学,2005、

[3] 邹国兵,向阳、基于领域本体的信息搜索模型[J]、同济大学学报:自然科学版,2009(4)、

[4] 段寿建、基于本体和Lucene的语义检索模型设计与实现[J]、现代电子技术,2009(12)、

[5] 潘雪峰,花贵春,梁斌、走进搜索引擎[M]、北京:电子工业出版社,2011、

[6] 魏桂英,高学东,武森、基于领域本体的个性化文本信息检索[J]、辽宁工程技术大学学报,2011(4)、

[7] SUSHAMA PRASAD、A tool for mapping between two ontologies using explicit information[C]、Proceedings of AAMAS 2002 workshop on ontologies and agent system,2002、

[8] FRANCISCO M C,MARIO J S,PEDRO M C、Measuring semantic similarity between gene ontology terms[J]、Data & Knowledge Engineering,2007,61(1)、

数据通信基本概念篇6

关键词: 高考 试题解析 试题亮点 教学建议 微课程

一、试题解析

1、题目。

在一定条件下,N■O分解的部分实验数据如下:

下图能正确表示该反应有关物理时变化规律的是( )

(注:图中半衰期指任一浓度N■O消耗一半时所需的相应时间,c■、c■均表示N■O 。)

初始浓度,且c■

2、简析。

从题给的实验数据可观察到,每10minN■O浓度均分解0、01,反应消耗的N■O浓度相等,说明反应速率相等,即N■O浓度对反应速率无影响,A项正确;观察表格数据,发现反应至100分钟时N■O完全分解,说明该反应不是可逆反应,最后的速率为0,即反应不存在平衡状态,B项错误;根据已知半衰期注释,应用表格数据,若取浓度变化0、1000、050,则可知半衰期为50min,若取浓度变化0、0800、040,则半衰期为40min,可知浓度越大半衰期越长,C项错误;若取10min为时间段,计算出0~10min时NO■的转化率为10%,而10~20min时N■O的转化率则为11、1%,转化率最终为100%,可知浓度越大转化率越小,D项错误。

二、试题亮点

1、题干简洁,图像新颖,凸显能力。

试题以一氧化二氮分解为载体,呈现一表四图、文字少、图像新颖等特点,试题着重考查学生阅读图表、获取信息处理、解决问题的能力。此题相比近三年福建省理综第12题,题干文字更简洁,增加表格数据,图像由一个增加到四个,图表信息量大,尤其坐标速率――浓度的图形,教材及练习题从未见过。试题重视考查从图表中获得数据和处理应用数据的能力,尤其强化对图形的数学意义和化学概念之间转换关系的思维建模,着重考查学生分析、理解、运用信息的能力。

2、概念计算,深度理解,多元考查。

图表中涉及反应速率、化学平衡、转化率、半衰期等基本概念的理解与考查,把化学基本概念、基本计算通过数据、图像形象体现出来,要求学生利用图表中横纵坐标变化关系,充分进行表、图转换,获取有效信息,多元考查学生能力是高考的热点。本题涉及速率计算、是否是可逆反应、有无化学平衡概念理解与判断、根据半衰期注释进行半衰期计算并分析半衰期的变化规律,此点类似2010年高考题第12题。此题对于图像分析能力与审题能力有较高要求,难度较大,有较好的区分度,成为2014年理综化学考题的亮点之一。

3、突破定势,激活思维,提高素养。

化学反应中某些实验变量通过实验数据构成图像、图表为表达形式,通过图表考查学生数据分析能力、思维分析能力。本题图像B若不结合表格数据,容易掉进“大则先拐先平”化学平衡图像的陷阱,此题突破学生的思维定势,要求学生通过图像、表格等多样化的信息转换激活思维,否则误选B。试题体现考查学生处理化学信息、分析问题和解决问题的能力,体现高考选拔考试以思维为基础、信息有效获取等多元学习能力与素养的要求。

三、关于大数据背景下2015年高考复习的几点建议

2014年高考已经过去,展望2015年高考,我们相信2015年高考将依然遵循“稳中求变、稳中求新”的总体思想。通过2014年高考化学试题的研究,提出大数据背景下2015年高考复习的几点建议。

1、重视教材,吃透教材;扎实基础,查漏补缺。

纵观近几年高考化学试题,命题体现了新课程理念,命题趋势越来越回归教材。考查的知识依然是高中化学的主干知识,如基本概念和基本理论、元素及其化合物、有机化学、化学实验、化学计算及实验探究,试题突出对中学化学核心基础知识、基本技能、基本观点和基本方法的考查。2014年福建高考化学试题主要考点有:基本概念,如溶液、胶体、萃取、同分异构等;有机化学反应类型,如取代反应、加成反应等;电离与离子方程式书写、离子浓度讨论等;物质检验与制备;物质结构与元素周期表、元素化合物的转化;有机物结构和性质;电化学、反应速率与化学平衡问题、盖斯定律应用;化学基本实验原理及操作;物质结构与性质等内容。试题中考查了元素周期表中第ⅦA族元素的单质及其化合物性质;铁及其化合物性质、二氧化硫及亚硫酸钠性质;电化学腐蚀中吸氧腐蚀;氧化还原的化合价升降法的配平;化学平衡常数、转化率等主干知识。不难发现考查的知识都是源于课本,但高于课本。一轮复习应从教材出发,弄清基本概念与核心知识点的原理,复习教学可大胆尝试让学生复述每个知识点的基本概念、基本原理,要求学生多问几个为什么,如概念是怎么来的?原理是什么?概念之间有什么联系与异同点?如在元素及化合物知识复习时,指导学生把握“结构――性质――用途”的学习主线,避免重复“知识――知识”的低效复习,实现“知识――联系――应用――感悟”的高效复习,师生要树立“科学掌握一种方法比做一百道题更有用”的思想。因此,一轮复习中能够“跳出题海,减负增效”的最重要环节就是重视教材、吃透教材,牢牢把握主干知识、基本方法不动摇。

2、尝试微课,利用资源;自主学习,高效复习。

大数据时代,互联网已成为全球最大的信息资源库,超媒体技术的应用,使高考复习教学更具个性化、动态化和形象化。根据教育厅规定的暑期学生不能补课的精神,为了帮助高三学生暑期更好地自主学习,我们提供“学科网微课堂”――化学学科网链接,推荐微课网在线教育等资源,高三教师利用电子白板制作复习小专题微视频,目前正在开发如氧化还原反应相关概念及考查等70个小专题的课件和微视频。相信学生通过利用网络学习资源,能够在暑假完成高三一轮复习中基础知识的自主学习与自我检测,为新学期高效复习打下坚实的基础。

3、研究真题,训练思维;关注生活,培养能力。

数据通信基本概念篇7

关键词:本体;知识表示;领域本体;网络教育

中图分类号:G434文献标识码:A文章编号:1009-3044(2012)04-0967-04

The Study for Engineer Domain Ontology: An Experience in Developing Data Structures Ontology

YANG Jin

(Information College, Yunnan Normal University, Kunming 650500, China)

Abstract: E-learning is a new direction for the development of international education、 An effective way to reduce the cost of education, improving the quality of network education is sharing of resources、 However, the absence of a unified education knowledge representation make the shared of the learning resources to be difficult among different learning systems、 Use the example of "data structures" course to illustrate how to use ontology to describe curriculum knowledge、 The general approach is to get terms of course, using the standard OWL ontology description language to define and describe it to form the domain ontology、

Key words: Ontology; knowledge representation; domain ontology; network education

随着互联网技术的发展,运用本体论理论通过互联网技术进行知识和信息资源的整合是必要的。目前的知识己经愈来愈明显地表现出跨越多学科的特点,此种结构特点使得知识表现模型的相关性显得复杂且不单一,运用本体进行课程知识描述,在强调了概念的单一性和无二性的同时,在概念和概念之间、对象与对象之间建立了清晰的相关联系。

在教育领域,国内外关于本体在智能教学系统的研究已有一些进展。利用本体表示的知识不仅有助于知识、信息资源的系统化,而且也便于知识、信息资源的扩展和更新,使之更容易满足不同层次、不同需求的个人终生学习。使用本体来表示知识,构建领域本体,能够促进智能学习系统的有效开发。

1本体的相关概念

1、1本体的定义

本体论(Ontology)来自哲学领域,旨在研究客观事物存在的本质和组成[1]。随着信息科学的飞速发展,本体论逐渐用于知识工程和信息科学等领域之中。

在知识工程领域中,本体通过对于概念及其相互关系的规范化描述,勾画出某一领域的基本知识体系。

在计算机科学领域,斯坦福大学的Gruber认为“本体是概念化的明确的规范说明,能够以一种明确的、形式化的方式来表示领域知识,促进知识共享”。

本体论可以分为四种类型:通用、应用、领域和任务。

1、2本体建模元语

Perez认为Ontology包含五个基本的建模元语(Modeling Primitive):

(1)类(Classes)或概念(Concepts):表示领域知识元,包括一般意义上的概念以及任务、功能、策略、行为、过程等,通常具有一定的分类层次关系。

(2)属性(Properties):描述概念的性质。

(3)关系(Relations):表示概念之间的关联,在形式上定义为n维笛卡儿积的子集:

R:C1×C2×…×Cn。

(4)函数(Functions):表示一类特殊的关系,即由前n-1个要素来唯一决定第n个要素。

(5)实例(Instances):表示属于某个概念类的具体实体。

1、3构建本体的步骤

构建领域本体的目标就是要将一个或多个特定领域的概念和术语规范化,为其在该领域或领域之间的应用提供便利。面向不同的学科领域、不同的应用需求,本体构建的方法不同。比较成熟的本体构建方法有IDEF-5法、Skeletal Methodology骨架法、TOVE企业建模法、METHONTOLOGY方法、Cyclic Acquisition Process循环获取法、软件工程法等。文本以“数据结构”为例结合上述本体构建方法来构建领域本体[2,3]。

构建本体的一般步骤:

(1)列出研究对象所涉及到的概念(concepts);

(2)按照概念的固有属性和专属特征进行归纳和修改,对概念建立类(class)以及层级化的分类模型(taxonomy);

(3)加入关系(relation)连接concepts;

(4)按照需要添加实例(instance)作为概念的具象。

2“数据结构”领域本体的构建

通过分析“数据结构”的知识结构,并结合本体的五个基本的建模元语,得到该领域本体五元组表示:

O=

其中,O表示领域本体,C表示本体的概念集合,P表示本体的属性集合,R表示C上的关系集合,I表示本体的实例集合,X表示实例集与概念集的映射关系集合。

本体的属性集合P,描述概念自身的属性,称为数据类型属性(DatatypeProperty)。

本体的关系集合R,描述概念与概念之间的关系,称为对象类型属性(ObjectProperty),关系集合R中除了本体中基本的关系如part-of、kind-of、instance-of、attribute-of关系之外[4],还可根据具体的情况定义相应的关系(如上位关系,下位关系,兄弟关系等)。

“数据结构”领域本体主要由“数据结构”课程中的概念,概念间的关系及计算机可以识别的形式化描述语言组成。构建该领域本体的目标就是要形成对于“数据结构”知识组织结构的共同理解和认识,为进一步建立智能学习系统奠定基础。

2、1列出研究对象所涉及到的概念(concepts),即确定本体概念集C

分析“数据结构”知识内容[5],按照教学步骤,将知识对象进行划分,并进行抽象归纳,形成的核心概念集C为:

C={集合,线性结构,树形结构,图状结构,查找表,内部排序,外部排序,文件,基本概念,基本操作}

考虑到这些核心概念需要具体的习题资源来练习,因此增加了练习题核心概念。这些核心概念基本覆盖整个“数据结构”课程的全部知识。

2、2对概念建立类(Class)以及层级化的分类模型,即建立概念层次结构关系

(1)对已确立的核心概念进行分析整理并进一步扩展,建立整个本体概念模型。

本体概念模型体现的是概念与概念之间的父子结构关系。这个过程是一个自顶向下的过程,根据已确立的上层父类概念,逐步细化形成下一级子类[6-8]。

把数据结构知识体系、练习题作为领域本体的顶级概念,数据结构知识体系向下有基本概念、基本操作、数据结构三个核心概念。每一个核心概念又有其子概念,进一步扩展为下一级概念,如:C(数据结构)={集合,线性结构,树形结构,图状结构} C(树形结构)={树,森林}

C(基本操作)={遍历操作,转换操作,构造操作,…}

……

以此建立的概念层次结构是以树型结构呈现,具有一条明确的主线。概念之间形成的等级层次结构如图1所示。

(2)确定概念的属性P

概念的等级层次结构是本体的骨架,其血肉要通过概念的属性来充实。本文将“数据结构”领域本体中概念的属性分为数据类型属性(DataProperty)和对象类型属性(ObjectProperty)。这里所说的属性P主要是指数据类型属性。

如数据结构的知识点可以从中文名称、英文名称、难易程度、掌握程度、考试概率、上位知识、下位知识、兄弟知识、关联练习题等方面描述进行描述,因此数据结构知识体系概念的属性P为:

P(数据结构知识体系)={中文名称,英文名称,难以程度,掌握程度,考试概率,上位知识,下位知识,兄弟知识,关联练习题}练习题可以从以下六个方面来刻画:

P(练习题)={编号,题目,答案,练习题类型,练习题难度,关联知识点}

充分利用类属性继承性特性,子概念共有的属性在父概念中定义,子概念继承父概念中的所有属性,再定义自己的特有属性。

2、3加入关系(relation)连接concepts,即确定概念间的关系R

领域本体除了上面建立的类的父子关系外,还要添加符合学习步骤和学习规律的其他关系,将两个概念之间的关系称为对象属性(ObjectProperty)。

如在学叉树这一概念时,主要学叉树的概念及各种操作。因此需要有概念和操作将二叉树和对应的概念和操作联系起来。

又如按照学习规律,在学叉树之前我们应先学习树的一些知识,因此树是二叉树的前驱知识、二叉树是树的后继知识。需要用前驱知识、后继知识将二叉树和树关联起来。

前驱知识和后继知识互为逆关系。

在“数据结构”领域本体中,部分对象属性(Object Properties)如表1所示。

表1领域本体中概念的主要对象属性

2、4按照需要添加实例(instance)作为概念的具象

实例是概念的具体实体,具有概念所有属性,在添加实例前,要确定该实例的两种属性,即数据类型属性和对象属性,以练习题为例,为其添加实例,其所有属性及属性值如图2所示:

3领域本体形式化编码及开发工具

本体形式化编码阶段就是选择合适的本体描述语言来描述知识本体,现有的形式化本体描述语言很多,主要有RDF和RDFS、 OIL、DAML、OWL、KIF、SHOE等。本文选用的是OWL(Web Ontology Language)来对领域本体进行描述[9]。

目前本体的开发工具主要有Ontolingua、Ontosaurus、WebOnto、OntoEdit、Protégé等。本文选择Protégé4、1作为本研究的本体开发工具,Protégé是由斯坦福大学的Stanford Medical Information开发的一个开放源码的本体编辑器[10]。

由于篇幅有限,关于OWL及Protégé的内容这里不做具体介绍。

4结束语

本体是一种用来描述概念以及概念之间关系的模型。将本体应用于领域本体的建设,可以表示复杂的知识层次结构。更便于知识的共享,重用及推理。下一步的工作将继续完善“数据结构”领域本体。

参考文献:

[1]谢娟、教学领域本体构建研究――以“C++程序设计”课程为例[D]、济宁:曲阜师范大学, 2010、

[2] PEREZ A G, BENJAMINS V R、 Overview of knowledge sharing and reuse ponents:ontologics and problem-solving methods[C]、 Stock? holm: Swtdem, 1999:1-15、

[3] A Guide to Creating Your First Ontology [EB/OL]、 2011-10-25、 protege、stanford、edu/publications/ontology_development/ontolo? gy101、pdf

[4] Gruber T R、 Towards Principle for the Design of Ontologies Used for Knowledge Sharing[J]、 International Journal of Human Computer Studies、 1995,43:907-928、

[5]严蔚敏,吴伟民、数据结构(c语言版)[M]、北京:清华大学出版社,2009、

[6]潘颖,欧启忠,肖耿毅、面向语义的课程知识本体的构建[J]、电话教育研究, 2007,2:19-21、

[7]杜小勇,马文峰、学科领域知识本体构建方法研究[J]、图书情报工作,2005,8(49):74-78、

[8] Boyce S、 & Pahl C、 Developing Domain Ontologies for Course Content[J]、 Educational Technology & Society, 2007,10(3):275-288、

数据通信基本概念篇8

1 函数内容处理方式的新要求

《普通高中数学课程标准(实验)》(以下简称课程标准)仍将函数的基础知识安排在高中起始年级,但在内容要求和处理方式上都发生了比较大的变化。如何在继承传统教材优势的基础上,在展现函数概念的概括过程、揭示函数概念的本质、加强函数的应用以及适当使用信息技术帮助学生理解函数概念等问题上锐意创新,以突破函数概念这个难点,这是新教材的新要求。

2 函数学习背景的新要求

以往教材中,将函数作为一种特殊的映射,学生对于函数概念的理解建立在对映射概念理解的基础上。学生既要面对同时出现的几个抽象概念:对应、映射、函数,还要理清它们之间的关系。实践表明,在高中学生的认知发展水平上,理解这些抽象概念及其相互之间的关系存在很大困难。新要求是从具体实例进入知识的学习,从函数的现实背景实例出发,加强概念的概括过程,这样更加有利于学生建立函数概念、理解函数概念内涵。

3 函数思想方法应用的新要求

函数是刻画现实世界变化规律的重要数学模型。因此,函数在现实世界中有着广泛的应用。加强函数的应用,既突出函数模型的思想,又提供了更多的应用载体,使抽象的函数概念具体化。如新增加的“不同函数模型的增长”和“二分法”,前者通过比较函数模型的增长差异,使学生能够更深刻地把握不同函数模型的特点,在面对简单实际问题时,能根据它们的特点选择或建立恰当的函数模型反映实际问题中变量间的依赖关系;后者充分体现了函数与方程之间的联系,它是运用函数观点解决方程近似解问题的方法之一,通过二分法的学习,能使学生加深对函数概念本质的理解,学会用函数的观点看待和解决问题,逐渐形成在不同知识间建立联系的意识。

4 函数概念理解的新要求

函数概念并非直接给出,而是从背景实例出发采用归纳式的教材组织形式引入。在分析典型实例的共同特征的基础上概括出函数定义后,通过讨论函数的表示、基本性质初步理解函数。它们分别是从函数的表现形式和变化规律两个方面丰富对函数概念的认识。以三类基本初等函数为载体巩固函数概念,在学习了函数定义、基本性质之后,从一般概念的讨论进入到具体函数的学习。指数函数、对数函数和幂函数的概念及其性质都是一般函数概念及性质的具体化。以一类具体函数为载体,在一般函数概念的指导下对其性质进行研究,体现了“具体──抽象──具体”的过程,是函数概念理解的深化。从应用的角度再一次巩固并提升对函数的理解。对一个概念真正理解的一个判断标准就是看看是否可以运用概念解决问题。教材最后安排函数的应用,包括二分法、不同函数模型的增长差异以及建立函数模型解决实际问题,就是期望学生能在“用”的过程中提高对函数概念的理解。

5 函数概念难点突破的新要求

函数概念的理解贯穿了函数内容学习的始终,同时它也是教与学的一个难点,对于形成函数这样抽象的概念,应该让学生充分经历概括的过程。教材选择了三个有一定代表性的实例,先运用集合与对应的语言详细地分析前两个实例中变量间的依赖关系,给学生以如何分析函数关系的示范,然后要求学生仿照着自己给出第三个实例的分析,最后通过“思考”提出问题,引导学生概括三个实例的共同属性,建立函数的概念。在这样一个从具体(背景实例)到抽象(函数定义)的过程中,学生通过自己的思考从分析单个实例上升到概括一类实例具有的共同特征,更能理解概念内涵。

6 函数概念学习中使用信息技术的新要求

更多范文

热门推荐