地理信息数字化描述方法(6篇)
时间:2025-06-09
时间:2025-06-09
引言
众所周知,通信的双方必须遵守相同的协议,报文才能互相识别。目前,不同行业间的通信协议千差万别。为解决不同通信协议间的计算机系统通信问题,人们普遍采用的措施是一个具体规约对应一段程序。如果出现新规约,只能由通信双方共同配合,由一方按另一方的标准修改或增加通信规约来解决问题。这种解决措施使得通信系统的适应能力不强、可维护性差,难以兼容不同规约的设备。
笔者借鉴操作系统进程控制块PCB的思想,通过对各种通信规约的认真分析研究,提出了自己的通信规约管理平台的核心设计思想——用户填写指定格式的静态规约说明书。规约管理平台根据规约书生成通信规约控制块,由规约控制块统一控制、管理,并适应千差万别规约程序的运行。
该平台的设计使得系统能够适应千差万别的通信规约,不用修改程序就能够保证通信系统在线运行情况下,接入各种新设备,以不变的程序应对万变的规约,维护真正做到傻瓜化、智能化。
1设计通信规约管理平台的可行性
1.1统一的通信模型
任何两台计算机上的两个应用程序通信,都遵从如图1所示的通信模型。数据流动可以用收到发两个动作来描述。把提出数据请求服务的应用程序称为控制方向、即命令的下行;把提供数据服务的应用程序称为监测方向,即数据的上行。这样,一个完整的规约有控制方和监测方两个方面。控制方向下发送命令,并解析监测方发来的应答或主动上报的数据或状态指示报文;监测方解析命令,根据请求命令组织应答报文并上传。
1.2通信规约的共性
任何通信规约都具有如下共同特征;帧结构的相似性、数据对象种类和报文长度的有限性、报文流的粒子性、逻辑过程的有穷性、传送原因的可分类性。
(1)帧结构的相似性
每帧报文都有图2所示的传输控制部分。
传输控制部分的目的之一是保证要传输的数据最终能够正确到达目的地。传输控制部分包括同步字对象、长度对象、传输方向对象、源地址对象、目的地址对象、帧号对象、功能符对象、结束符对象、其它对象及校验码十种对象构成。任何具体的规约都是上述对象的全部或基子集的一个具体排列。
数据部分就是用传输控制元素封装起来的传输数据。
(2)数据对象种类和报文长度的有限性
数据对象是通信规约真正要传输的对象。任何一个具体应用,要传输数据对象的种类是有限的,因而人们能够通过具体的通信规约将其进行描述。通信规允管理平台同样也能被描述出来。
任何规约一帧报文的最大长度都是有限的,这样不但可以遏制通信线路上长期被个别设备独占,也减少了错误传的次数与重传时间。一旦要传输的数据超过规定帧长,要分帧发送,接收方根据帧号来组装源数据。
(3)报文流的粒子性
更重要的是任何报文流的最小单位都是一个二进制位,相应报文的最小定义单元也是一个二进制位,这是所有通信规约的共性,不同的是各位间含义不同。任何规约的不同定义都在报文流有不同的确定位置(对位而言),数据发送是以字节为单位的。所以,引入顺序号的概念来描述并指示定义在不同报文中的起始位置(相对于合法报文的第一个同步字)和位数,顺序号属性就成了所有对象的共同属性。描述如下:
*字节序号——定义在一个以字节为单位,合法帧中数据成员占有的逻辑序号,第一个起始符为逻辑序号0(C、C++下标从0开始),根据在数据流中出现的先后顺序递增;
*字节内的起始位号——字节内的开始位号,取值范围0~7;
*位数——用几位表示。
structCommSerial
{unsignedintSerialByte;
unsignedcharByteStartBit,ByteEndBit}my={2,0,8};
字节顺序号为2,字节内起始位号为0,位数为8,说明是帧中的第三个字节。如果规约用已有定义的字节的空位来定义,顺序号可以重复,但位号不能重复,用累加实现。
(4)逻辑规则的有穷性
逻辑规则包含以下四个方面。
①命令应答关系规则:包括通信双方中,控制方发送的命令和监测方的应答数据对应关系,以及监测方的状态指示和控制方的发送命令关系两个方面。这种对应关系是确定的、有限的和可描述的。
②双方数据发送的时间规则:控制方的自动轮询时间规则、监视方主动上报的时间规则及人工随机干预的控制命令,以上都是有限的与确定的。
③优先级规则:控制方同时出现多种要发送的命令,应按优先级规则进行传送。
④在帧结构的各控制元素一级封装下,数据对象本身又进行了二级封装。这种二级封可按一级封装的方式解决。
(5)传送原因的可分类性
控制方的传输原因有自动轮询、人工随机干预、监视方出现需优先处理的状态或指示;监视方向的传输原因有受召唤与主动上报两种。
综上所述,通信规约管理平台的设计是完全可行的。
图2通信报文统一抽象格式
2通信规约管理平台的基本组织方式
管理平台组织方式是将规约按照统一格式分解,以形成规约说明书或规约描述文件,将之放在外存,启动注册命令,管理平台将规约说明书进行系统注册,填入规约注册控制表。运行时,管理平台从规约注意表中提取指定的规约说明书,并找到一个空白规约控制块CPCB,根据规约说明文件填写CPCB,再由CPCB控制管理这个具体规约的运行。空白规约控制块的个数是有限的。一个进程按照CPCB的内容来运行,同时一个进程管理一个硬件通信端口资源,即通信端口的数量决定通信进程的数量。平台可根据运行各规约的实现性要求,来安排一个进程运行CPCB的数量。当然,一个进程依照一个CPCB运行是容易实现的。
2.1规约说明书
规约说明书由基本情况表、静态描述表、动态描述表、逻辑规则表构成。静态描述表由控制元素对象中不随时间变化而变化的属性信息及其它信息组成;动态描述表用于描述随时间不断变化的控制元素和数据元素信息及其它信息;逻辑描述表由命令应答关系表、应答命令表、时间规则表、优先级规则表、筛选规则表和二级封装规则表组成。
(1)基本情况表
包括规约名称、最大帧长、数据对象个数、命令对象个数和状态指示对象个数,如图3(a)所示。
(2)静态描述
由同步字、传输方向、源地址、结束符及其它6种数据对象构成,如图3(b)所示。同步字标志一帧数据的开始;传输方向说明当前是工作在控制方向还是标志测方向;源地址说明报文的发送设备地址;结束符标志一帧报文的尾;其它对象指向所有不在上述静态描述之中的控制元素对象链的队首。静态描述中的每个控制元素对象都有本规约内全局统一的标识号(ID)。
(3)动态描述
用于描述随时间具体因素控制而不断变化的信息,它包括帧号对象、校验码对象、报文长度对象、数据对象、请求命令对象、应答命令对象、目的地址对象及其它对象,如图3(c)所示。帧号是完整报文的分帧传送,规约规定的报文帧的帧长是有限的;超限时分帧传送,发送方指明帧号,接受方按帧号重新组装。校验码对象用于传输差错控制,检验一帧报文的合法性。报文长度对象管理并指明有效数据的长度。数据对象按应答命令对象指明的类型组织该类数据。目的地址对于控制方向,指明服务的设备地址,它可能向多个设备轮流请求;对于监测方向,指明请求服务的设备地址。数据对象取决于具体规约的定义。应答命令对换快捷指明应答数据对象的类型。请求命令对象指明控制方向,向目的设备下发请求数据状态对象命令,并组织报文帧。应答命令对象和请求命令对象管理的措施与数据状态对象相同。当然,应答数据状态表和请求命令表是静态的,在此便于说明;而数据状态对象表是动态的。
动态描述中的控制元素对象和数据元素对象也都由本规约内全局统一的ID号来识别;ID号由ID注册管理程序生成,填写规约自己所赂的ID注册表。
(4)静态对象和动态对象公有的属性
①顺序号对象:如前所述,它指明某一元素对象在报文流中的起始位置和所占的连续二进制位数。
②ID号对象是全局统一的,它由六段依次连接而成,即一段、二段、三段、四段、五段、六段。根据ID可以识别提取不同的元素对象,它是各控制元素和数据元素的唯一标识。
一段是注册后的规约ID号,高段的位数由规约ID号位数决定。二段是区分上行与下行,用一位二进制位就可区分。三段用于说明具体的规约是否含有对应的元素对象,它说明的是有与无。四段用于区分源地址、目的地址、传输方向、同步字、其它静态对象、帧号、校验码、报文长度、请求命令符、应答命令符、其它动态对象和数据对象,共12种,用4位二进制位就可区分。五段用于说明四段之中的每一种是否具有原子性,比如同步字就具有原子性。当子种类多于一个同步字时,也相当于一个,要发就全发,不可分割;而请求命令符就不具有原子性,只能发出其子种类之中的一种。原子性是个布尔量,一位二进制就可描述。六段用于说明当上述12种之中任一种超过一个时,就可用第5段描述,比如同步字6个,就得用三位,选取上述12种之中子种类最多的一个和为第五段的位数。
③拷贝、赋值、被拷贝:在报文流中的其它类元素对象中,当出现与已有定义的控制元素对象表示值重复时,引进对象的拷贝与被拷贝属性。赋值属性说明该元素指的是已独立的定义值。相应的,引入拷贝与赋值操作。
(5)逻辑描述信息
逻辑描述信息由下列表构成:
①控制方发送的命令被监测方收到后,监测方予以应答的数据对象ID对应关系表;
②控制方收到监测方的状态指示后,控制方应响应的发送命令ID对应关系表;
③控制方发送轮询命令ID时间间隔表;
④控制方的人工干预控制命令ID表;
⑤监测方的主动上报数据表、状态ID表;
⑥控制方发送命令ID优先级的规则表;
⑦监测方应答数据与主动上报的ID优先级规则表;
⑧二级封装规则表。
报刊英语贴近生活实际和职业真实背景,涵盖了海量的信息和精准的职业语言范例,为高职英语写作教学提供了第一手的真实的教学语料。利用报刊英语中的图表资源辅助高职英语写作教学,有助于培养高职学生的信息素养和语言综合表达能力,对高职英语写作教学改革具有重要的指导意义。
2利用报刊英语中图表资源促进高职英语写作教学的理据性
2.1培养学生的图表写作能力是信息化社会对高职英语写作教学提出的新诉求
信息化时代,良好的图表作文能力能有效地增强商务演讲或商务报告的说服力和感染力,是职场人士进行业务公关和职业生涯规划的必备实用技能。最新的PRETCO-A级考试大纲也对图表写作能力提出了明确的要求[1]。由此可见,图表作文能力是高职学生必须具备的语言技能和职业素质,在教学设计和教学实施中应加以强化。
2.2图表特有的表达优势为利用图表促进高职英语写作教学提供有力的理论支撑
图表,作为一种生动、直观、高效的信息呈现方式,具有强大的视觉冲击力和表达优势。一张好的图表胜过万千文字,其表达优势是口头语言和书面语言所无法比拟的。研究结果表明,人们只能记住10%左右所读的信息、30%所看到的事物,而把文字和图表相结合能使读者记住50%的信息[2]。由此可见,图表强大的信息传递功能可以增强写作效果。首先,图表能有效地吸人眼球,生动、直观、简洁地传达数目和数据等抽象复杂的信息,形象地展示各种变化趋势,改善整体表达效果。相对于文字而言,图表更能有效地引思激趣、凸显重要的环节、链接不同的想法、强化读者的记忆效果。其次,图表更能帮助陈述者展现个人观点和人格魅力,是一种实用性极强的商务工具。与语言文字相比,图表更具有视觉冲击力,便于读者的理解和识记,能有效地提高写作能力。
马斯洛通过一种倒金字塔式层级结构分布图来阐释人类需求金字塔理论。Kolin(2010)归纳总结了图表在商务文本中的四大功能为运用图表促进高职英语写作教学提供了有力的理论支撑。
3基于英文报刊的高职英语图表作文的教学设计方案及其实施
3.1精选报刊英语图表,作为写作教学语料
大学版的《21世纪英文报》每期的商务版块都会刊发一组商务图表阅读材料,这些图表取材广泛、内容贴近生产、生活实际,具有较强的趣味性和职业导向性,可为高职英语写作教学提供第一手的真实教学语料。精选报刊图表作为英语写作的教学语料,以读促写,读写并进,有利于提高学生的实用英语写作能力。
3.2明晰图表作文的试题命制形式及写作要求
在各种高职英语写作中,图表作文的基本要求是考生在规定的时间内根据图表撰写出一定字数的说明议论文。通常要求先描述图表,然后分析和解读图表所反映的现象或趋势、最后作出预测或提出建议。图表作文的题裁属于说明议论文,有着与书信体不同的篇章架构和语体风格。因此,图表描述部分要力求语言精准、客观、具体,图表分析部分要做到有理有据、逻辑性强,语篇连贯、内容前后衔接,表达效果最佳;图表总结部分要言简意赅,切忌发表个人观点。
3.3提供通用模板和经典句式,训练学生提高图表英语写作能力
图表作文的布局谋篇宜采用三段式的结构。第一段描述图表:可用Asisshowninthetable/form/graph/chart/diagram,---等经典句式说明图表信息的出处、归纳出图表的整体内容。描述图表数据时,按照先总后分的原则,先描述主要数据,后描述次要数据,再描述另类数据。不要对图表中的数据一一罗列,要重点选择具有代表性的数据进行描述,如最大值、最小值、平均值、拐点处的数据都要进行重点说明分析。对数据的描述处理好“百分比”和“占”不同表达方法。不能简单地采取(数字+百分比)进行比较的格式,特定的数字可采取多样性的表达方式,如用基数词、序数词、分数、百分数或名词词组等多种形式的表达用法。列举图表数据时,要善用对比、并列、转折、递进、举例等说明方法以及常用的衔接过渡词,来实现语篇的连贯与衔接。第二段要紧扣主题,客观公正地分析图表所表示的变化规律与趋势。分析图表时,合理利用firstly,secondly,lastbutnotleast等承上启下的过渡关联词,增加语篇的逻辑严谨性,实现语篇的连贯与衔接。最后一段,提出建议或发表议论。
关键词:内容分析;多媒体教学信息;检索;MPEG-7
Abstract:Multi-mediateachinginformation,insomerespects,withindescribablecharacteristicsandunstructuredsearch,andcontent-basedanalysisofthesearchtechnologytosolvethemulti-mediateachinganddescriptionofthecontentsoftheinformationretrievalproblems.Inthispaper,basedontheanalysisofthecontentsofmultimediainformationretrievalteachingofthemainworkflow,aswellasMPEG-7intheteachingofnetworkapplications.
Keywords:contentanalysis;multi-mediateachinginformation;retrieval;MPEG-7
1.概述
随着计算机网络技术、多媒体技术以及通讯技术飞速发展,以视频、音频、图形与图象为主体的多媒体教学信息成为开展现代远程教学的主要内容。对多媒体教学信息中的文本数据内容分析与检索技术比较成熟。目前在互联网上搜索引擎均是采用了基于关键词的检索方式,像百度、Google,北大天网、YAHOO等著名的搜索引擎均是采用这种方式,由于数据内容是具有结构化特征,它是可以用一定关系模型来描述。而视频、音频等多媒体信息内容具有非结构化的特性,不容易用关系模型来描述。加上视频、音频是与时间有关系的连续媒体信息,网络中它们是以视频、音频流媒体形式存在,这种流媒体形式的管理与检索比较困难。
2.基于内容分析方法的提出
我们知道视频、音频都是按时间顺序来组织的,传统方法查找其中某个片断都是通过快进或快到等顺序来浏览内容查找,这种方法不仅要求用户注意力高度集中,而且特别浪费时间。在多媒体教学过程中,使用这种方法不仅会出现迷航现象,而且会降低学习效率。由于视频、音频内容包含复杂丰富的信息数据,对视频、音频检索已成为实际应用中一个难题,而基于内容分析方法是目前视频、音频检索主要发展趋势。
如何解决多媒体信息内容描述问题,目前主要是采用基于内容分析视频处理与检索方法,这种方法是近年来随着多媒体数据处理技术发展而提出的。基于内容分析的方法是从另一个角度来认识多媒体信息,从早期基本颜色检索,到综合利用多种多媒体特征进行检索。如:颜色、纹理、形状、场景、镜头、帧等特征信息。目前该技术已经发展到实用阶段,其中多媒体内容描述接口MPEG-7是目前被广泛接受的一种国际标准,其核心就是基于多媒体内容分析。
MPEG序列媒体标准是目前最为广泛应用的视/音频媒体标准,目前广泛应用的主要有MPEG-I、MPEG-II、MPEG-4等,它们都是对数字运动图像及伴音编码进行压缩的一种国际标准,其中MPEG-4采用按照具有一定时间关系和空间关系的对象来进行视、音频编码的处理方式。而MPEG-7是在MPEG-4基础上发展起来,MPEG-7重点是对视音频信息内容进行不同程度描述与定义,而与多媒体信息的编码和存储方式无关。
3.多媒体教学信息检索工作流程
多媒体教学信息检索主要工作流程分为三个阶段:内容获取、内容描述、内容操作。即先对原始媒体进行处理,提取内容,然后用标准形式对它们进行描述,来支持用户对内容的操作。
内容获取通过各种内容分析和处理,而获得媒体内容的过程,它包括信息分割、特征提取两个部分。信息分割分成图像分割与视频分割。内容获取核心是特征提取。特征提取就是提取内容显著的特征和人的视觉、听觉方面的感知特征来表示媒体和媒体对象的性质,特征提取有自动特征提取和人工交互或提取两种方式。内容描述就是描述在以上过程中获取的内容,内容描述是MPEG-7标准中的内容,它可以用来描述越来越多的不可预知的信息,MPEG-7是用来对多媒体信息进行不同程序描述的方法和工具。MPEG-7国际专家组制定的多媒体内容描述主要是采用了描述符和描述方案来分别描述媒体的特征及其关系。描述符就是对实体特征描述表示方法,描述方案是说明描述符的结构和相互关系。描述定义语言DDL是规定了描述方案的语言,它允许对现有的描述方案进行修改和扩展。MPEG-7描述符只与多媒体内容相关,并不依赖于多媒体内容的编码或存储方式,所以它可以独立于各个厂商的平台,它方便了多媒体内容分布处理与内容的交换调用。
内容操作是对内容用户操作和应用,因为用户对内容有着不同的需求。查询多用于数据库操作,检索只是在索引支持下快速获取信息的方式,搜索是用户通过搜索引擎在Internet中搜寻自己所需的信息,浏览是用户通过浏览操作,线性或非线性地存取结构化与非结构化(超媒体)内容。
4.“元数据”技术与MPEG-7格式的定义
为了解决对多媒体中视音频数据内容描述提出了“元数据”的概念,所谓“元数据”就是用来描述数据特性的数据。多媒体数据特性的描述不是对图像和声音波形进行简单的采样,而是获取它们的物理特征和时间信息,这些数据就是元数据。例如:视频可用幕、场景、镜头、帧等特征信息来描述。元数据技术的出现使得对多媒体内容及特征的管理与检索成为可能,MPEG-7就是采用了元数据技术的多媒体内容描述结构标准,通过MPEG-7格式定义的多媒体教学信息让学生可以高效率地搜索、过滤、定义自己所需要的视音频资料。目前国际MPEG组织在MPEG-7标准中定义五种内容信息。1.创建和生产:视音频制作的基本信息如:电视片头、导演、曲作者等;2.媒体:定义资料存储的方法,如视频音频是否经过压缩、编码方式、储存媒介等;3.使用:定义资料使用的方式,例如电视教学片版权单位,播放时间;4.结构方面:对电视片中出现的某种物品、颜色或者是音乐中某一片段旋律的描述;5.概念方面:定义了资料中各种控制的链接或交互。
通过以上五种内容定义可以看出MPEG-7只是定义了对多媒体信息不同程度描述的方法,并没有规定怎样利用内容描述进行搜索的具体程序和工具,MPEG-7对多媒体内容描述的特征可以夹带在MPEG-I、MPEG-II、MPEG-4等格式视音频资料中使用,也可以独立使用。MPEG-7本身虽然没有直接对文本信息进行描述,但它考虑到现有文本信息描述方法,支持它们之间即描述视音频信息和描述文本信息之间的接口。
5.MPEG-7在多媒体教学中的应用
在当前多媒体教学过程中,多媒体教学信息快速获取教学过程重要的环节。在实际中使用视音频资料时往往可能采用其中某一个片段或某部乐曲中的一段旋律。如果利用了MPEG-7标准以后,教师只要输入几个简单的音符就可以找到某段乐曲,只要画简单的线条和简单的图案就可以在庞大的多媒体信息库中找到所需视频、音频资料的某个片段,这极大提高了课堂教学效率。在网络教学中学生可以轻松在数字图书馆中找到自己所需的教学信息,不必采用导航图标一级级搜寻。对网络多媒体教学信息组织管理可以通过多媒体内容分析技术提取多媒体内容元数据,保证了媒体内容元数据库及其元数据格式的遵循MPEG-7标准,为网络教学资源共享和交流创造了良好的基础。目前MPEG-7应用较为广泛,不仅在教育领域,而且在广播电视媒体、多媒体编辑制作、导游、娱乐、新闻、地理信息、建筑等领域有着广泛应用潜力。
6.结束语:
总之多媒体信息检索技术是一门综合了数字视频/图像处理、语音识别/语言处理、多媒体数据库、模式识别、人工智能等学科计算机应用技术,随着这些学科发展,多媒体信息检索技术会不断成熟完善,对社会信息化产生巨大推动作用。参考文献:
【摘要题】图书情报工作论坛
【英文摘要】Thispaperdiscussestheimportance……
1.对网络信息资源编目的必要性
图书馆对网络信息资源进行编目的意义在于:一是把网络信息资源及其服务有机地纳入到图书馆服务中来,这意味着图书馆利用网络信息资源补充已有馆藏和提高图书馆满足读者信息需求的能力;二是运用和移植图书馆学、情报学在组织文献信息和书目控制文献的研究成果和实践经验,提高网络信息资源的有序化程度。
1.1随着数字化革命的深入和Internet的飞速发展,网络信息资源呈现出几何级数量增长,据国外最新研究结果表明,因特网上可编索引的网页已超过10亿页,仅此一项,其增长规模已超越了现有的非网络资源,信息资源从内容到形式都发生了质的变化。网络信息资源同非网络资源相比,具有地理上分散、组织上无序、数据类型多、变幻多端的特点。
无序扩张的网络信息资源,一方面使网上信息包罗万象,良莠不齐,信息分布、信息组合错综复杂,信息污染严重;另一方面,广大用户,即信息的需求者,面对如此浩瀚的信息海洋,无法快捷地获取自己所需的信息,对检索和获取信息的低效感到无奈。解决二者之间的矛盾,为用户提供便利的信息获取途径和方法,就图书馆而言,最为有效的方法即是将网络信息资源纳入图书馆的服务当中,对其进行编目管理。
1.2网络中存在着巨大数字化信息,用户要想快速准确地检索到所需信息,就需要一个机构能够承担起网络信息的整序工作。目前,以网络搜寻为目的的搜索引擎的出现(如国外的Yahoo、infoseek、altavista,国内的网易、搜狐等),虽然在浩如烟海的网络资源中起到了一定的导航作用,由于其处理方式是通过自动调用程序在网际网络上选取网页,然后使用全文检索的技术,以自动拆字词作为索引的方式,建立其数据库作为检索的基础,这种方式的不足之处在于其查全率高,但查准率低,以及缺乏一致性的用户界面。检索出的篇目太多,有时甚至有成千上万篇,而其中真正有用的信息并不多。
这种情况下,图书馆应发挥自己的职业优势,图书馆对非网络信息资源的编目已有了丰富的经验,将其应用于网络信息资源的编目将起到事倍功半的效果,由图书馆对网络信息资源进行选择、加工、整理,对网络上的各种信息进行筛选、过滤、描述、标引,以便于查寻的方式把有价值的信息提供给用户,这是利用网络资源最为有效的途径之一。
2.网络信息资源编目的可行性
尽管网络信息资源具有增长迅速、数量巨大、流动性大、稳定性小的特点,它与非网络信息资源仍具有共性,可以这样比喻,整个因特网就像一个巨大的图书馆,各个网站就是种类不同的图书,而每一个网页就是图书中的一页,共性的存在,是对网络信息资源进行编目的前提条件。
美国OCLC(OnlineComputerLibraryCenter)对网络信息资源的编目进行了有益的尝试,并且取得了重大的进展。OCLC从1991年开始就致力于应用计算机技术对因特网上的资源进行精心筛选和标引。通过试验,证实了MARC和AACR2可适用于网络信息资源,同时提出了修改完善MARC建议,在USMARC中新增加了856字段—电子网址和索取字段。由于MARC本身的局限性,如结构复杂、著录项目过于烦琐,要求专业性强,要受过专门训练的编目员来做等等,虽保证了著录的精确性,但著录速度慢,工作效率低,无法满足海量的网络资源的整序需求。
于是人们开始转向研究一种新的著录项目,一种用以描述网络信息资源的格式和工具。“元数据”这一概念被及时推出,元数据的产生为网络信息资源的组织提供了重要手段。到目前为止,世界上已开发出并付诸使用的元数据有许多种,如都柏林核心元数据(DublinCore)、频道定义格式(CDF)、艺术作品描述目录(CDWA)、资源描述框架(RDF)等等。
有了高效实用的网络信息描述工具以后,针对网络信息资源编目的特殊性,1998年8月OCLC研究署向研究顾问委员会提交了CORC(CooperativeOnlineResourceCatalog)计划的构想,这一计划尝试将传统的图书馆编目规则与技术—文献信息的选择、描述、标引及利用等运用于网络信息的存取,OCLC于2000年7月正式推出了CORC产品,并向美国和全世界推广。CORC与商业的搜索引擎不同之处在于它有人工干预,网络资源是由图书馆员挑选的,它的目标是将传统的图书馆编目技术与先进的计算机技术相结合形成一个新系统,能够明显优于现有的搜索引擎。
3.编目工具
图书馆员一向以善于组织信息著称,我们曾经有效地完成了印刷型资料的编目组织工作,当然有能力完成网络信息资源编目的使命。
目前图书馆界对网络信息资源编目的工具以MARC和DC为主,对网络信息资源进行著录的格式应是基于XML的DC描述。
3.1MARC
MARC格式是美国国会图书馆从1963年开始研究应用计算机对图书进行编目的工具,1971年,美国国家标准局将USMARC确定为美国国家标准,1977年,国际图联(IFLA)UNIMARC格式,中国根据UNIMARC的框架体系和内容,结合中国的特点编制了CNMARC。
MARC是用于描述、存储、交换、控制和检索的一套机读书目数据标准,它开始主要是针对印刷型书本的描述,对网络信息资源进行编目,是通过在MARC中增加856字段,即“电子资源地址与存取”,并采用5XX字段记录资源格式的方法来进行的。它的数据结构严密,能很好地描述电子信息,尤其是在检索点的选取原则上,能确保其数据元索组成具有统一性,有利于资源交换。此外,这种经过编目人员过滤、筛选过的信息,确保了数据描述的可靠性、完全性和精确性。
856字段主要记录被著录的数字对象或与之相关的其它电子资源的存储地址和存取方式,是可重复、必备字段,包含27个子字段。专业水准的分类和准确的记录这两大特色将使其能在Internet中占有一席之地。但用MARC格式编目Internet的成本相当高,由于网络信息地址时常更改,为了维护856字段链接的有效性,需要耗费相当多的财力、人力和时间,编目的速度远远跟不上网络信息资源增长的速度,因此这种高成本的编目方式只适用于编目一些最重要的网络资源。
3.2DC
目前对因特网上的信息资源编目用得最多的著录工具是DC(DublinCore)——都柏林核心,它是一项描述信息资源的国际标准,1995年3月在俄亥俄州的都柏林核心研讨会上,52位来自图书馆、计算机和网络方面的学者和专家共同探讨了基于网络信息资源的描述问题,创建了都柏林核心集。
DC包含15个元素,依据其所描述内容的类别和范围可分为三组:a、对资源内容的描述;b.对知识产权的描述;c、对外部属性的描述。对资源内容描述类包括:Title、Subject、Description、Source、Language、Relation、Coverage。对知识产权的描述包括:Creator、Publisher、Contributor、Rights。对外部属性的描述包括:Date、Type、Format、Identifier。
DC同MARC相比具有以下优点:
·
格式简单且易于使用:因它只有15个元素,易于理解,适合各种背景的人群使用。
·
具有通用性:15个元素可自由选用及重复使用,元素的含义不因其是否嵌入所描述的资源而受到影响。它支持任何内容的资源描述,使得跨学科的语义描述有了可操作性。
·
具有兼容性:DC通过RDF框架形成了资源描述的基础,对基于WEB的元数据提供了灵活的语法基础,如可内嵌入HTML、XML语言,各种浏览器均支持它。
·
具有可扩展性:可根据实际情况,通过使用限定词能够实现扩展描述的方法。
第七次都柏林核心研讨会后,对DC进行了重大改进,DC与MARC之间映射更加一致,接近一一对应于MARC的许多字段,有利于将DC元数据记录集成到图书馆原有的基于MARC的OPAC系统。
3.2XML
图书馆在对网络信息资源编目过程中,采用DC作为网络信息资源的著录工具、XML文档结构作为著录格式是使网络信息资源有序化的理想模式。
XML是一种区别于HTML和SGML的可扩展标识语言,它不象SGML那样复杂,又能象HTML那样可在WEB上传送,它已广泛应用于互联网上。XML是一种类似于HTML,被设计用来描述数据的语言,XML提供了一种独立的运行程序的方法来共享数据,它是用于自动描述信息的一种新的标准语言,它能使计算机通信把Internet的功能由信息传递扩大到人类其他多种多样的活动中去。XML由若干规则组成,这些规则可用于创建标识语言,正如HTML为第一个计算机用户阅读Internet文档提供一种显示方法一样,XML也创建了一种任何人都能读出和写入的世界语。
XML作为新的一代网络语言,它具有良好的可扩展性,它允许各个不同的行业根据自己独特的需要制定自己的一套标记;它还具有良好的自描述性,能够描述信息本身的含义甚至它们之间的关系;它遵循严格的语法要求,增加了网页的文档的可读性和可维护性,提高了浏览器的时间空间效率;它便于不同系统之间信息的传输,XML是一种非常理想的网际语言。
XML文档最好以一个XML声明作为开始,一个完整的声明是这样的:
附图
下面是一个基于XML的DC描述的一个例子,
<?XMLversion="1.0"encoding="GB2312"standalone="no"?>
<论文>
<HEAD>
<Title>DublinCore形式书目</Title>
……
<BODY>
<dc:Title>Internet环境下电子化图书馆信息管理系统</dc:Title>
<dc:Creator>林雪英</dc:Creator>
<dc:Subject>图书馆信息管理</dc:Subject>
<dc:Description>…</dc:Description>
<dc:Date>2002—5--?</dc:Date>
<dc:Type>学术论文</dc:Type>
<dc:Source>http:///publicat/qbts/004/18.htm</dc:Source>
<dc:Language>Chi</dc:Language>
<dc:Relation>福建科技</dc:Relation>
<dc:Rights>http://</dc:Rights>
</BODY>
</论文>
每个著录项目均为可选项目,可重复标记,数据是可变长的,书目信息与全文版电子资源的链接是通过<dc:Source>……</dc:Source>来实现的。
4.图书馆对网络信息资源进行编目的现状
网络资源编目既然是传统文献编目在网络环境下的延伸,而网络资源又具有数量大、增长快、稳定性小的特点,实行联机合作编目是理所当然的必由之路。在这方面,美国做出了有益的尝试。美国的OCLC在积其数十年合作编目丰富经验的基础上,顺应网络信息资源发展的趋势,及时推出“合作联机资源目录”——CooperativeOnlineResourcesCatalog,即CORC构想。
4.1CORC的概况。它的目的是在自动化编目工具与图书馆合作有机结合的基础上,建设共享的网络资源数据库。目前它已建立4个数据库:资源记录数据库、规范数据库、寻路器数据库、杜威十进分类法数据库,其中资源记录数据库相当于一般的书目数据库,以DublinCore或MARC形式提供网络信息,寻路器数据库则以网页形式揭示网络资源的书目信息及其与资源的超文本链接。
4.2CORC的功能。
·
快速生成书目记录。图书馆利用CORC编目时,只需根据编目人员提供的URL,系统会自动搜索、获取相关域名的网页,为相关网页及其所有链接生成一系列的资源记录,而且可定向获取具有EAD与TEI头标的网页,并自动生成书目记录,CORC工具在获取某一网址后,能自动过滤出关键概念与关键词作为索引词。
·
自动标引分类法类号和主题词。CORC安装了丰富的机助编目工具,如杜威十进分类法、美国国会图书馆标题表、美国国家医学图书馆标题表等,以减轻编目人员的标引工作强度。
·
通过合作与机器协助的方法维护记录的URL(统一资源定位器)。在CORC系统中,由成员馆分担维护URL,当用户的记录包含无效的URL时,CORC的自动链接维护工具会通过“状态屏幕”及时通知用户,由用户进行核查、更正,从而保证了URL的正确性。
4.3CORC的启示。
目前,国内许多有实力的图书馆已经开始对网络信息资源加以收集、整理加工,开始了对网络资源编目的有益的探索,但是同时存在着分散、不统一的特点,作为发达国家的美国,合作联机编目已走在我们的前面,我们的问题不再是如何对网络信息资源进行编目,寻找什么样的工具编目,而是应该直接与国际接轨,充分利用CORC系统这一先进的工具。
5.结束语
网络信息的极大丰富,给图书馆的工作带来了新的机遇和挑战,也给图书馆员带来了新的工作内涵,它使我们不断地补充新知识、接受新生事物,采用新的编目工具组织新的信息。在对网络信息资源进行组织整理方面,图书馆应是大有可为的,图书馆有知识、经验都很丰富的编目人员,有一套切实可行的工作方法。目前,对网络信息编目,图书馆界正在进行如火如荼的研究,相信无论是用MARC或是DC,是用XML或是HTML,图书馆这在方面的工作将会做得越来越完善、越来越科学。
【参考文献】
1、卢共平.图书馆与网络信息资源的组织管理.http:///magzine/00-06
2、郭瑞华.对网络信息资源著录项目和著录格式的研究.图书馆建设,2002(1),55-57页
3、吴万晔.OCLC的CORC系统对我国虚拟图书馆发展的启示.情报杂志,2002(8),86-89页
4、王绍平.合作编目—网络资源书目控制的必由之路.http:///chinese/teaching&research
5、方小容.网络信息资源编目与CORC系统.现代图书情报技术,2002(2)65-68页
6、吴开华等.数字图书馆元数据研究.图书馆学、信息科学、资料工作,2002(8),27-30
目前,随着现代信息技术在教育领域的广泛应用,各地的中小学都拥有大量各种各样的教学资源,包括教学课件、教学案例、精品课程教学视频和各类辅助教学软件等,但这些资源往往只能在有限的地域内尤其是校内才能访问,互相之间发现和共享资源都十分困难,形成了许多的“信息孤岛”,限制了不同学校、不同地域的信息交流和资源共享。因此,如何实现不同学校、不同地域之间的资源共享,提高资源的利用效率,避免同类资源的重复开发,是目前中小学教育信息化建设迫切需要解决的问题。
大量资源被分布在不同区域的不同资源节点上,每个节点对其所拥有资源的描述和存储方式各有不同,有的通过各种数据库,有的则通过一些资源描述文件来组织其本地资源,加之各种数据库、描述文件之间往往是异构的,其各自的资源检索机制也是多种多样。显然,在这种环境下,使用传统的集中式的检索机制无法胜任大量异构资源的检索和发现。网格作为一种日益流行的分布式计算平台,为教育资源的共享提供了一种有效的解决方案。在网格的环境下,分布在不同地域、不同主机上的资源可以通过松散耦合的方式实现共享,其中资源的管理、存储机制与传统的集中式的资源组织方式有着很大的不同。
XML是一种开放标准、简单易用的语言,它支持国际化,与平台、工具、数据库、协议、编程语言无关,并且XML文件是基于文本的,易读易写,也易于在网络中传播。本文正是利用了XML语言的这些优点,通过同构的XML文件对不同资源节点上的本地资源进行描述,生成该节点上本地资源的描述XML文件,并以此为基础,对多节点的大量资源文件进行分布式的检索。
一、分布式检索子系统的体系结构分析
在教育资源网格的体系结构中,对资源的存储和管理一般被分散在若干个具有不同结构的子节点上,本文定义这种节点为一个资源节点。资源节点一般位于一个较小的教学部门内,存储了该部门一定数量的教学资源,并以web服务的方式供用户和其它资源节点访问。但不同资源节点的资源组织方式往往不同,有的是通过数据库,有的是通过一些描述文件,而且数据库的种类和结构也有很大的差别,这就导致不同资源节点之间资源共享和发现都十分困难。
在以上所描述的环境中,用户如果想访问这些资源,需要登陆每一个资源节点进行检索和下载,但因为资源节点分布广泛,数量众多,用户要尽快的检索到自己所需要的全部资源存在一定的难度。分布式资源检索策略可以有效的解决这一问题,该策略的思想是当用户登陆任何一个资源节点的时候,这个节点除了要检索自己本地的资源以外,还又作为一个客户端,自动地去连接其它资源节点并发出检索请求,将检索结果进行合并和汇总后返回给用户。
二、本地资源的XML描述
在教育资源网格系统中,资源通过各种协议由资源人上传至资源节点。资源人在上传过程中,需要指定资源的标题、所属年级、学科、作者等描述信息,这些信息往往是资源检索的依据。因此,本地资源的XML描述文件需要记录以上的资源信息。为了实现所有资源的统一组织,这个XML文档在不同的资源节点上应该是同构的。
根据以上的思想,需要对XML文档进行统一规范。在一个资源节点的XML描述文档中,XML头部显式定义文档使用UTF-8作为编码方式,以广泛地支持各种字符集。XML文档以allresource作为根元素,表示该元素下的子元素描述了该资源节点全部资源的信息。allresource元素下包含至少一个resourceitem元素,表明了该资源节点下的一个资源项。在resourceitem元素之下,又分别定义了该资源的各种描述信息,包括标题、所属年级、学科等。
在每一个资源节点上,只需一个节点管理程序,该程序会随着其所属本地资源的变动维护一个XML文档,它的作用实质上是充当一个资源发言人的角色。其他站点只要通过这个XML文档,就可以得到这个资源节点所管理的所有资源的信息,包括资源的描述信息和资源的地址信息。因此,对资源的检索过程也就转化为对这个XML文档内容的检索过程。
转贴于三、基于XPath的本地资源检索
通过以上论述,对一个资源节点的检索过程可以通过检索其资源描述的XML文档内容来完成。XPath是一门在XML文档中查找信息的语言,它可以用来在XML文档中对元素和属性进行遍历,使用路径表达式来选取XML文档中的节点或者节点集,可以通过XPath语言构造资源检索语句。
在XPath中,有元素、属性、文本、命名空间、处理指令、注释和根节点七种类型的节点。在遍历过程中,XML文档是被作为节点树来对待的。树的根被称为根节点,在根节点下,路径表达式可以通过类似Windows操作系统文件夹的形式构造。
通过XPath语言构造出的资源检索语句需要返回XML文档的资源描述中所包含的用户所提供的检索字符串中的资源项。在上文资源描述的定义规范中,对资源项的具体信息描述,如标题、所属年级、学科等,都是以子元素的形式位于该资源项元素之下,因此,要想获得该资源项元素,需要对已经查找到的包含用户检索字符串的元素进行轴路径查找,以向上回溯获得该元素的父节点,即所要返回的资源项元素。
四、基于JavaRMI的分布式检索机制
在本文所描述的分布式资源共享的环境下,如果仅仅使用本地资源检索,用户需逐个登陆多个服务器以检索所需要的资源,“信息孤岛”的局面依然没有解决,不能满足分布式检索子系统的要求。本文提出一种分布式检索的机制,用户登陆任意一台服务器提交资源检索字符串后,该服务器除在本地进行检索之外,还将字符串检索命令以洪泛的方式提交给它所知道的所有资源节点服务器。所有得到该命令的服务器分别在自己的XML资源描述文档中查找是否包含用户所需要的资源,如果有,则将该资源的描述信息和地址信息以结果集的形式返回给命令的发起服务器。由发起服务器负责将多个服务器返回的结果集进行合并、排序等操作,最后返回给用户。
基于以上思想,分布检索子系统可以采用JavaRMI技术来实现。JavaRMI是Java的一组支持开发分布式应用程序的API。RMI使用Java语言接口定义了远程对象,集合了Java序列化和Java远程方法协议。由于J2EE是分布式程序平台,RMI机制可以实现程序组件在不同操作系统之间的通信,这样就使原先的程序在同一操作系统的方法调用,变成了不同操作系统之间程序的方法调用。发起服务器将检索命令提高的过程就可以看作是发起服务器对远程服务器本地资源检索方法的一次调用,通过RMI方法特有的JRMP协议,实现两台服务器命令的提交和结果集的返回。
五、分布式检索的缓存策略和流程设计
引入分布式的检索机制后,由于要对用户的查询请求使用洪泛的方式交付给每一个服务器处理,网络的流量负担会加重,造成检索延迟的增大,影响到查询效率。但资源节点服务器拥有的资源项相对固定,在一段时期内对服务器进行特定字符串检索往往会返回同样的结果。因此,采用在本地服务器中保存常用字符串检索结果的缓存策略,会提高资源检索的速度,降低网络流量的压力。为了获取当前各资源节点的最新信息,还需要引入相应的超时和更新机制,限定缓存的生命周期,对缓存进行周期性的更新。
在缓存策略中,什么样的字符串应该被缓存是首先要解决的问题。本文采用的是人工定义的方法,根据经验定义一些字符串作为缓存项,主要是分类检索的各个子项,如按年级分类检索的子项“高一”、“高二”,按学科分类检索的子项“语文”、“数学”等。因为这些字符串相对比较固定且在教育网格的首页设有链接,被检索的几率较高。
为管理好缓存并定时地创建、更新缓存项,在每一个服务器本地定义了一个XML文档,该文档描述了这台服务器所有检索缓存的字符串名称、缓存更新的时间以及该字符串的类型信息。其中,字符串名称不仅表示检索时所对应的字符串,还表示该字符串检索结果缓存在本地所保存的文件名;字符串的类型由type属性决定;为方便地进行日期比较和时间差计算,缓存更新时间用该缓存项最后的更新时间与1970年1月1日之间的毫秒数来表示。
用户提交检索命令之后,检索子系统首先读取caches.xml文档,检查是否含有相应的缓存项的记录。如果没有,将其作为普通的字符串提交给分布式检索引擎进行检索。如果有,读入该缓存项,提取出该缓存项的时间信息。如果该缓存最后更新时间与当前时间的差t大于规定的超时时间阈值tmax,则认定该缓存项超时,将该字符串提交给检索引擎进行检索,当结果集返回合并后,更新本地缓存文件,并更新caches.xml的相应更新时间信息。如果判定本地缓存项没有超时,则直接读入以字符串名命名的该缓存项的XML文件,作为结果集返回给用户。
本文设计并实现了一个基于XML的分布式检索子系统,该系统使用XML文档作为一个资源节点的资源描述文件,并使用JavaRMI技术实现了分布式、多服务器的检索。为提高检索效率,降低网络流量,还引入了缓存策略。该系统符合教育资源网格系统的要求,有效的解决了不同地域、多种异构教育资源的共享问题。
参考文献
高宏卿,王晓东.基于网格技术的校园网应用研究.计算机应用研究,2005,(9).
论文摘要:随着社会主义现代化的发展,计算机技术的进步,信息技术在社会发展的各个领域都扮演着极其重要的角色。信息化建设更是被我国列为经济社会发展的首要内容。网页档案化管理包括文档、文字翻译转换、图片资料、声像资料、多媒体远程会议等。尤其是大学档案馆更侧重教学与科研,网页档案化管理是必然的趋势。
在信息化发展的今天,图书馆,特别是大学图书馆不仅要对信息进行简单的数字转换和管理,更要对新兴事物网络进行档案化管理和归档,包括文档、文字翻译转换、图片资料、声像资料、多媒体远程会议等。所以网络档案化管理,成为当今图书管理的必然趋势,这就必须对档案化管理的技术和法律相关问题进行深入阐述和探讨。
所谓数据挖掘(DataMining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。
一、数据挖掘的功能
数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类。
1、关联分析
关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。
2、聚类
输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。数据挖掘的数字档案信息管理研究,聚类技术主要包括传统的模式识别方法和数学分类学。
3、自动预测趋势和行为
数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
4、概念描述
对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
5、偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。
二、数据挖掘在建设现代化高校档案馆中的应用
1、资源类数据包括馆藏档案经过数字化加工而产生的各类电子档案、电子文件中心中存储的各类电子档案、档案软件收集的信息、档案信息网建设和维护信息。我们从研究大学档案用户的信息需求出发,数据挖掘为大学档案馆全面掌握和准确理解档案用户的信息需求提供了方法。
(1)利用Web访问信息挖掘技术发现其中的关联模式、序列模式和Web访问趋势等,构建多维视图的用户兴趣模型。从而可以确定档案信息或服务受欢迎的程度,发现用户访问模式和用户需求的趋势,从不同侧面来研究用户的信息需求,为优化档案馆的档案信息资源建设提供了科学依据。
(2)收集大学档案网web服务器保留的用户注册信息、访问记录,以及有关用户与系统交互的信息等原始数据,经过清洗、浓缩和转换形成便于统计分析的用户查阅数据库、日志数据库、用户定制信息库、用户反馈信息等各种数据集合。
2、从建设大学档案馆馆藏信息资源出发,数据挖掘为大学档案馆提供了选择一条科学发展道路的重要依据。
(1)利用档案网和档案管理软件访问信息的挖掘分析出档案资源的利用率,将利用率高、需求量大的传统载体档案优先数字化。例如:通过对档案信息的访问记录、检索请求中用户请求失败的数据进行分析,按类统计档案拒用集和频繁利用集,结合聚集算法发现馆藏资源的缺漏,有针对性地补充和丰富档案信息资源。
(2)在大学档案馆藏管理过程中利用文本挖掘,运用关联、分类、聚类等方法,从海量档案信息中按照相关专题进行挖掘、分类、加工、整理和有序化重组,构建特色档案信息库及各类专题档案信息库等。
3、从做好大学档案馆信息管理工作的角度出发,数据挖掘为优化馆藏信息和对未来工作的预测发挥重要作用。
(1)在提供利用环节中,对用户每次借阅的信息进行关联分析,发现各类档案信息之间的关联规则或比例关系,这样可以进一步优化馆藏信息。
(2)开展大学档案馆馆藏信息文本特征的建立、特征提取、特征匹配、特征集缩减和模型评价工作,实现对大量文档集合的内容进行总结、分类、聚类、关联分析、分布分析,通过归纳与总结,发现的知识可以为未来档案工作的趋势进行预测。
三、数据挖掘在管理类数据中的应用
大学档案馆的管理类数据包括:智能监控系统、消防系统、温湿度控制系统、智能密集架、数据管理系统、数据利用系统等在日常工作产生大量的管理类数据。我们得用数据挖掘工具在这类看似无用的数据中提取有价值的知识并运用到大学档案馆工作中,并在大学档案馆的现代化建设中发挥作用。
大学档案馆档案工作的重点是为师生服务,以服务为中心开展各项工作,如何使用先进的工具,提高服务的质量是一直困扰我们的难题。数据挖掘为大学档案馆档案工作的智能化、个性化、精品化提供了行之有效的方法。在智能检索系统可调用用户兴趣模型,自动修正检索策略并可依用户兴趣将检索结果迅速聚类和分类,并条理化地排序出来;对于设计院、社科院等科研型档案用户,可借助数据挖掘开展针对性的档案信息挖掘,并将研究成果以概述、成果报告等形式提供给用户。这样不光实现了大学档案的二次开发,也会给用户带来意外的惊喜。
网络最初只是科学家与研究人员之间交换文件的软件,把因特网用于教育和研究可以得到政府的补贴。在中国,大学有拨款,图书馆有大学支持,数字图书馆的网络档案馆是不赢利的,产出是教学和科研的长期社会效益。今天,因特网已经越来越商业化了,网络在数字经济中已成为极具潜力的技术投资对象。大学数字图书馆也可以考虑建立以赢利为目的的网络档案库,采用网络商务中的一些商务模式,例如网络广告、旗帜广告、赞助广告、订阅、B2C等。收入可用于大学数字图书馆网络档案馆建设的滚动发展。目前人们对这些处于萌芽中的经济模式认识甚少。管理网络的公共政策制定主体是政府部门,推行电子政务,开发网络资源,促进从文字印刷向网络出版的转移是当前相关政府部门的重要任务。大学的政策、态度和措施对数字图书馆的发展至关重要。市场手段和政策平衡是网络档案馆建设,网络档案库运行,网上内容传递和保存应该和必须考虑的。
参考文献:
[1]PeertopeerNetworkingandDigitalRightManagement,byMichaelA.Einhorn,BillRosenblatt,PolicyAnalysisNo.534,CATOInstitute.Fabruary17,2005
[2]WhatEveryCitizenShouldKnowAboutDRM,akaDigitalRightManagement,byMikeGodwinSeuitooTechnologyCounselAtPublicKnowledge,30January,2008,Ebook-ComputerInternet,
[3]彼得莱曼.把万维网档案化.信息化参考,2004(13)
上一篇:红色文化资源的价值范例(3篇)
下一篇:足球射门训练教案范例(3篇)
热门推荐