地理信息数据获取方法(6篇)
时间:2024-12-21
时间:2024-12-21
【正文】
1数据挖掘技术概述
随着信息技术的迅速发展,数据库的规模不断扩大,从而产生了大量的数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(KnowledgeDiscoveryinDatabase)中的重要技术,它并不是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。
2数据挖掘的常用技术
机器学习、数理统计等方法是数据挖掘进行知识学习的重要方法。数据挖掘算法的好坏将直接影响到所发现知识的好坏,目前对数据挖掘的研究也主要集中在算法及其应用方面。统计方法应用于数据挖掘主要是进行数据评估;机器学习是人工智能的另一个分支,也称为归纳推理,它通过学习训练数据集,发现模型的参数,并找出数据中隐含的规则。其中关联分析法、人工神经元网络、决策树和遗传算法在数据挖掘中的应用很广泛。
1)关联分析法。从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。关联分析法直观、易理解,但对于关联度不高或相关性复杂的情况不太有效。
2)人工神经元网络(ANN),是数据挖掘中应用最广泛的技术。神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大的缺点是不透明性,因为其无法解释结果是如何产生的,及其在推理过程中所用的规则。神经元网络适合于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、分类和序列模式。
3)决策树(DT)是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支,形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太多计算时间,适于对记录分类或结果的预测,尤其适用于当目标是生成易理解、可翻译成SQL或自然语言的规则时。决策树也可用于聚类、分类及序列模式,其应用的典型例子是CART(回归决策树)方法。
4)遗传算法(GA)是一种基于生物进化理论的优化技术。其基本观点是“适者生存”原理,用于数据挖掘中则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解。遗传算法可处理许多数据类型,同时可并行处理各种数据,常用于优化神经元网络,解决其他技术难以解决的问题,但需要的参数太多,对许多问题编码困难,一般计算量大。
3数据挖掘技术在用户知识获取中的应用
网络的发展为用户提供了多种新的信息服务,因特网以其丰富的内容、强大的功能以及简单的操作,在各种信息服务方式中脱颖而出,成为未来信息服务的主要方向。但当前因特网信息服务中更多的是单向、被动的服务模式,而网上用户信息需求的挖掘,可以改进因特网与用户的交互,使因特网与用户真正融为一体,不再是操作与被操作的关系。数据挖掘技术的应用,使因特网能根据用户的需求采取更主动、更有针对性的服务。并且可以建立一种个性化的信息服务系统,针对不同用户的信息需求,提供不同的信息服务。而个性化服务系统的建立,则依赖于用户信息需求的挖掘。
3.1用户知识概述
用户知识包括用户的身份、目标、兴趣、系统经验和用户背景知识等。它可通过用户模型来描述,用户模型可以模型化用户的特点、背景知识和经验,使用特定知识获取方法识别和描述用户的各种特征。用户模型可提高人机交互能力,解释和评价系统的执行,使系统发挥主动作用;改进整个系统的执行性能,如帮助识别用户的信息需求;增强系统的灵活性,适用于各类用户。
3.2用户知识获取方法
用户知识获取有3种基本方式:通过观察获取信息,即观察用户与系统交互中的行为、使用的系统命令和参数;从观察到的事实进行推理,获得未知的信息;从已知实例集合,执行基于实例的推理,激发原型库中的模型,推导出当前用户的初始模型。随着数据挖掘技术的应用,有以下几种常用的知识获取方法。
3.2.1用户知识的关联分析对用户数据的挖掘有两方面的内容:一是如何提取用户的信息需求;二是获得用户需求的数据后,如何利用数据挖掘技术对这些数据进行处理,以获取潜在知识及为用户所用。关联分析法的一个主要应用是在零售业,比如在超级市场的销售管理中,条码技术的发展使得数据的收集变得更容易、更快捷,从而存储了大量交易资料。关联规则就是辨别在这些交易项目之间是否存在某种关联关系。例如:关联规则可以表示“购买了项目A和B的顾客中有95%的人又购买了C和D”。这种关联规则提供的信息可以用作商品销售目录设计、商场布置、生产安排,进行有针对性的市场营销。在搜索页面的设计中也可运用用户的点击率、内容及相关页面,了解用户的偏好和习惯,并用关联分析的方法来获取潜在用户知识,这有助于决定搜索页面的设计和相关知识的链接。
3.2.2组合分析法由于用户的兴趣是时常变化的,用户行为信息所反映的用户信息需求往往是多条线索混合在一起,这给识别信息需求带来了很大的困难。这种问题的解决,一般需要预先指定一个主题,但这就增加了用户的负担,而且仅用关联法也很难全面获得用户相关信息。人工神经元网络和决策树的方法结合起来能较好地从相关性不强的多变量中选出重要的变量,并从中分析出用户的需求偏好,服务器可根据用户的需求偏好进行主动信息推荐。
3.2.3分类填表法用户知识可以由用户主动填写表格来获取,用户设定信息需求可以通过设定关键词或主题词来完成。分类填表法可将用户的信息需求较客观地表达出来。表格的设计可以采用预先分类的方法,将用户的记录分配到已定义好的类中去,从而构造出用户信息的分类模型,利用此模型可将用户数据库中的数据映射到相应的子集中,进行数据预测。这是一种简单实用的方法,但不足之处是难以制作一个完整的分类调查表,将用户的真实意图全部表达出来。
3.2.4智能方法现在常用的浏览器中,有一个历史菜单栏,当用户在地址栏中输入网址进行浏览时,系统会自动将这个网址记录下来,作为上网的历史记录存放在系统中,方便用户以后使用。这些浏览历史反映了一定时期内用户在网上的信息利用情况,是用于分析用户的信息偏好,确定用户信息需求的一个很好的依据。
利用智能(IntelligentAgent)监视用户信息查询过程,是自动获取用户信息需求的一种方法。其方法是在用户的终端上运行一个监视的信息(InformationAgent),信息将用户和浏览时的相关信息不断传送给远端的服务器,服务器将信息进行数据取样和数据调整,利用强大的搜索能力和遗传算法反复学习找到最优解,使得用户信息的提取更加量化,问题更加明确。利用用户在浏览器上存储的书签(Bookmark)获得用户信息需求的方法属于“监视用户”类。在Bookmark中存储的信息往往是用户最关心的,需要记录下来以便以后再读。用户还可以对Bookmark进行多级目录管理,不同的目录反映其不同的兴趣。相对浏览历史记录而言,Bookmark对考查用户的信息需求更有价值。如果说浏览历史只是一种对上网情况的“自然”记录的话,那么Bookmark却是用户对历史记录进行比较、筛选后的结果,是用户眼中的网址精华,因而能更有效、更准确地反映用户的需求,而且它的组织性要比浏览历史好得多,更便于进行有效的分析。Bookmark系统采用HTTP协议实现信息的自动搜集。系统通过监测用户信息记录获得信息需求,信息分类器对搜索来的信息进行自动分类,装入信息数据库;信息过滤器根据用户提出的信息推荐请求,对数据库中的信息进行过滤并将合适的信息提交给用户;信息评价器根据用户对推荐信息作出的评价对系统进行优化。运行结果表明Bookmark系统具有良好的信息记录、推荐和共享功能。
4结束语
数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
参考文献
1张玉峰.智能情报系统.武汉:武汉大学出版社,1991
2冯萍,宣慧玉.数据挖掘技术及其在营销中的应用.北京轻工业学院学报,2001(1)
3郝先臣等.数据挖掘工具和应用中的问题.东北大学学报(自然科学版),2001(2)
4刘海虹,刘伯萤.数据挖掘技术.丹东纺专学报,2001(1)
一、手机切换定位技术与交通信息提取
手机切换定位技术是手机探测车的交通信息采集技术,该技术通过解析车载手机沿道路行驶过程中,无线通信网络发生的切换,确定探测车位置,充分利用手机终端与无线通信系统应用优势,获取交通信息。手机切换定位技术,最早于二零零三年开始尝试应用到交通数据获取与处理领域,并被诸多学者证实其可行性,很多机构对手机切换定位技术在交通数据处理中的应用,进行了实地测试,并获得理想效果[1]。例如,以色列TelAviv-Yafo便成立了研究小组,在Ayalon公路上,展开和实际测试。实践证明,通过对手机切换定位技术的应用,能降低交通拥堵率百分之三十左右,并且通过这种方式采集与处理交通数据信息,成本低,数据信息量大,非常有利于交通资源优化。该技术采样步骤是:数据提取、路网标定、路段匹配、行程分配、信息显示,有效降低了交通数据信息处理难度。但在具体的应用中,必须做好交通信息提取方法设计,保证数据信息提取准确性与效率。
二、基于手机切换定位技术的交通信息提取方法
一、基础数据采集
网络产生巨大的数据量,例如2013年,每天平均产生两百多万TB的数据量而且信息来源多样,这些信息都是获取有效舆情的数据基础,我们首先要尽可能全面地收集到这些信息。网络数据获取可以采用网站提供的API或网络爬虫工具获取。使用API方式是通过网站提供商获取数据信息,为了避免频繁调用对网站服务产生影响,一般调用API次数都会有一定限制,同时网站对于获取数据权限有各种限制,由于种种限制,目前普遍研究和使用的网络爬虫都不使用API。网络爬虫指从一个或多个指定的网页开始,在全网范围搜索获取网络信息资源,通过简单设置目标网站、爬行间隔和存储位置等就能够自动批量获取网页内容,为数据获取提供极大便利。常见的网络爬虫有传统网络爬虫和聚焦网络爬虫。传统网络爬虫获取的数据有一定盲目性,获取的信息很大一部分都不符合要求,造成时间、资源的浪费。而传统网络爬虫的并行机制也带来数据重复抓取、页面质量下降等问题。但传统网络爬虫具有获取数据完整、速度较快的优点。聚焦网络爬虫增加了页面相关度评价和URL价值评价功能进行信息过滤和分析,利用主题相关度评价模型过滤掉与主题无关的网页,利用URL主题相关度控制爬虫爬行过程,不遍历和主题无关页面,提高爬行效率。聚焦网络爬虫数据相关性高,但速度较慢。在舆情采集过程中合理利用网络爬虫,可以在短时间获取大量网络数据,但这些数据存在大量冗余,数据针对性不高,需要后续提取分析。
二、冗余数据清洗
网络舆情分析的主体是与主题相关的数据信息,通过网络爬虫程序获取的是由HTML和各种脚本语言构成的web页面,web页面由与主题相关的网页正文和与主题无关的数据组成,与主题无关的数据也称为网页噪音。由于web页面的形式多样,正文与噪音之间没有明确的界限,而大量存在的网页噪音造成资源浪费,对正文分析也造成很大干扰。我们需要对页面进行处理,剔除网页噪音,比如页面中的广告、导航信息、说明文字等,提取正文、链接、作者、点击量等主题相关信息。通过去噪处理得到的文档一般包含大量重复信息,互联网信息频繁的转发、复制以及不同URL地址指向同一页面等情况都导致信息重复,重复信息成倍增加工作量,去除重复文档也是进行正文提取、分析的必要步骤。我们可以对文档进行向量化处理之后,计算各个特征词的权重,利用相似度算法计算词语与词语之间的相似度,通过计算文档相似度,去除重复信息。当前网页去重算法有很多,但大多数都是基于shingling和LsH的思想,比如对shingle生成策略的改进,对LsH指纹间海明距离计算的改进,以及对这些算法本身参数设置不同而带来性能变的研究等。
三、正文文本提取
通过去噪去重处理,修剪掉网页多余数据,如何快速有效地提取出需要的正文就需要正文提取技术。正文提取技术也是网络舆情发现的一项重要技术。当前常用的网页正文提取算法包括基于DOM树的网页正文提取技术、基于内容规则的网页正文提取技术、基于统计学特征的网页正文提取技术和基于神经网络的网页正文提取技术等。各种提取技术各有优劣,比如目前应用比较广泛的基于DOM树的网页正文提取技术,它利用HTML的各种标签信息,将网页内容转化成规范的树形结构,通过遍历DOM树的节点,裁剪与正文无关的节点而得到正文内容。这种算法依赖于HTML标签,对于HTML规范性要求很高,而且解析过程效率也较低。利用统计学特征的正文提取技术将HTML代码解析后以行或段为单位保存,统计单位文本和HTML代码的字节数,通过计算文本和字节数比例得到文本密度,如果密度大于事先设定好的文本阈值,则该部分内容判定为正文。这种算法不需要分析源码,判断准确度较高,但限制性也较大,对于正文集中的内容效率较高。实际应用中需要针对舆情来源及其特点,结合使用各种网页正文提取技术,以达到最佳提取效率和准确度。
四、信息分类与关联
网络信息数据多样,来源复杂,数据分布离散。通过文本处理抽取的正文数据往往是相互没有关联的数据,这些文本在使用时就面临无法分析、统计等诸多问题。利用数据挖掘技术可以将文本经过分类、聚类、关联规则发现等一系列处理,从海量数据中发现主题相关的信息,发现其中的模式、规律等,从而为舆情分析与预警提供依据。文本分类指按照预先定义好的类别集合,根据文本内容进行文本自动分类的过程。是一种有监督的机器学习问题。当前的文本分类技术,大多数是基于向量空间模型,用规则的向量来表示不规则的文本数据。文本分类一般分为训练和分类两个阶段,训练阶段需确定类别集合,并在类别集合选取代表性文档计算特征矢量。分类阶段则计算待分类文档特征矢量,通过与各集合特征矢量比较选取相似度最接近的集合。文本聚类在没有类别集合的情况下进行文本分类。主要依据文档相似度,通过计算将相似文档进行归类。不同的聚类算法采取不同的文本向量组织调度策略,以不同的方式进行相似或相异的比较,将大量无序的文本划归为若干类簇,使得不同类簇描述不同事件,得出不同的话题。文本聚类是一种无监督的机器学习问题,不需要预先定义集合,具有一定的灵活性和较高的自动化处理能力。网络获取的数据类型多样,比如对于一个舆情热点事件,我们可能从网页获取事件过程,从论坛、博客等获取关注度和转发量,从公安部门获取人员、关联信息等,这些数据我们需要通过关联规则发现关联关系,将数据整合为相关的数据网。关联规则挖掘过程主要包含两个阶段,第一阶段从获取的复杂数据聚合中找到出现频率高的数据组,第二阶段在这些高频数据组中产生关联规则。有效的关联规则对于舆情分析有重大意义,但目前我国对这一领域的研究应用尚不深入。
五、话题检测与追踪
话题不同于主题、事件等概念,话题是由某一个特定事件和与该事件相关的一系列事件共同构成的。在大量网络信息中,发现某一话题并按照该话题收集与其相关的信息,对信息重新组织,可以有效了解话题的发展与演变。信息的采集、处理、分类、关联等方法将网络中存在的大量无序数据整合为统一的、存在映射关系的数据网,这个过程以网络中已经存在的各类信息为主体进行简单检索和归类。随着网络规模的几何增长,网络信息多样化,网络舆情具有隐蔽性、突发性、自由性等特点。话题发现与跟踪技术的关注点不仅仅在网络已有信息的收集处理上,还要在大量信息基础上,自动分析判断,发现值得关注的深层次的、新的信息并进行追踪,更倾向于新信息的发现,话题跟踪依据与某话题相关的少量事件,判断出后续新闻报道流中与该话题相关的报道,并将相关报道收集起来实现跟踪。通过大规模文档自动聚类建立话题。话题检测与追踪对复杂无序的网络事件进行深入分析,总结事件中的特征规律。当某一网络事件特征符合其中规律时,就可以预测该事件的发展结果,并对于预测可能导致重大后果的事件进行舆情预警。网络监控人员可以根据预警提前对网络事件进行预防疏导,避免产生严重后果。
六、信息定量评估
关键词:Web数据库;数据库挖掘技术
中图分类号:TP311.13
互联网是人类快捷获得信息的一种重要渠道,为社会做出了巨大贡献,随着经济技术的进步,互联网越来越复杂,在当前时代,既是机遇,也是挑战。信息资源数据库对信息的储存和查询很有帮助,使人们能够更为方便地获得所需信息,当Web技术与数据库系统相结合后,信息的开放性也引发了信息的安全质量问题,因此,需要对Web数据库进行深度挖掘,以更好地为人们服务。
1Web数据库及数据库挖掘技术
1.1Web数据库
近些年来,网络技术已深入到社会各个角落,数据库系统也有了极大的进步,将两者相结合来开发Web的深度资源已成为当前重点研究的问题。Web数据库技术是一种以Web查询接口方式对数据库资源进行访问而且能够实现远程操控的技术,通过数据库与Web的连接可以产生一个在任何地方皆可操作的动态页面,即对核心数据库的信息资源进行查询,系统会以Web页面作为访问接口,并将查询结果以Web页面的形式展现出来。目前的Web数据库通常有数据收集、数据供应以及元搜索三种集成方式。
1.2数据库挖掘技术
在当前信息化时代,人们的信息需求量骤增,信息资源储存量也不断扩大,加大了查询的难度,因此,如何在最短时间内获得所需信息是当前必须考虑的问题。深度挖掘技术具有关联分析、偏差分析以及分类等功能,能够从随机的海量数据中提取潜在有用的信息资源。须注意的是,并非每一个数据库信息的发现都是数据挖掘,如查询数据库管理系统中的记录等属于信息检索的领域。数据库挖掘技术在不断地改进,为进一步实现信息的传递,该技术融合了模式识别、统计学、进化计算以及搜索建模等知识。
2Web数据库挖掘技术分析
2.1数据的预处理
挖掘效果取决于被挖掘数据的质量,在实际采集中,数据存在着很多问题,如不完整性;在异常数据较多的情况下,常会带有噪声;数据的不一致性也是较为常见的问题,如数据名称的差异等。因此,预处理就显得尤为重要,在数据挖掘中的作用不可小觑,尤其是挖掘一些有残缺的数据资源时,为了提升挖掘质量,务必要提前对所挖掘的数据对象进行预处理。
2.2模式识别
挖掘技术具有相关分析及计算的功能,模式识别即是借助统计法对识别的结果进行挖掘计算。实现算法可以采取一般的统计方法,也可以利用其他形式的结果,主要包括页面的浏览时间、访问次数以及统计分析等。在此阶段,关联规则的作用是发现用户访问的各个页面之间的关系。当利用浏览器对相关Web站点进行访问时,可建立相应的模型,以方便统计用户的访问模式。
2.3模式分析
该环节即是采取科学的技术方法以及必须的操作工具对挖掘结果中的用户模式进行分析,经过对比,选择最为合理的模式,进而更好地对数据信息进行理解,充分利用各种用户模式。同时,在此阶段,有些比较特殊的信息结构,能够滤除诸如特定数据或超链接网页等模式。从当前的统计结果看,大约有30种商业性质的Web分析工具,合理地利用这些工具,有利于获得更多的信息,包括网页点击率、用户群特点及用户爱好等信息。须注意的是,这些数据在使用时常会很多问题,如维护较难、不够灵活、结果准确度得不到保障等。
3Web数据库挖掘方法及应用
3.1挖掘方法
(1)粗集方法
该方法对信息的要求较为简单,而且便于运算表达,但准确度上稍有瑕疵。利用该方法处理信息对象,和二维关系有所相似。连续属性在数据库信息表中较为普遍,而集合论是该方法的数学基础,采用粗集法不能直接处理一些连续的属性,因此,尽管数据库技术有了很大进步,为挖掘技术提供了必要的前提条件,但在实际操作中还是会有很大的制约。
(2)模糊集方法
该方法主要是在解决一些实际问题时,利用模糊集合理论对其进行的模糊识别分析。通常来说,数据库系统越是复杂,模糊性越强,在描绘模糊事物的属性时,模糊集合理论多采用隶属度进行。随着研究的进一步加深,以传统的模糊理论为基础,结合概率统计,专业研究人员提出了一种新的模型,即云模型,并建立了相应的云理论。
(3)覆盖正例排斥反例的方法
该方法的理论思想即是指覆盖所有的正例,或者排斥所有的反例,以此来寻找内在的规律。具体方法如下,在正例集合中任意选择一个正例种子,与反例集合中的所有种子逐一比较,若与字段取值构成的选择相容,则将之去除;若相反,则将其保留。按照这种方式对全部正例种子进行选择,最终得到正例的规则。
(4)统计分析法
一般而言,数据库的字段之间有函数和相关两种关系,利用统计学分析法可对二者进行仔细分析,即对统计学理论加以运用,从而更好地分析数据库中的信息资源。除了统计分析法,还可利用相关分析、差异分析等方式。
3.2应用分析
(1)电子商务应用
随着信息化技术的进步,电子商务的作用日益重要,同时也存在着些许不足,如客户量较大,不好处理;信息的安全性等。采取Web数据挖掘技术,能够深度挖掘来访客户的信息,并按照一定的标准对其进行分类,然后分析客户的具体特征,保证企业能够全面完整地了解客户,以便提供更好地服务。同时,利用挖掘技术的关联分析功能寻找相关的客户资源,或者保留客户在页面上出现的时间段,从而创造更大的利润空间。
(2)网络教育应用
如今,互联网已经很普及,许多行业都纷纷引进了网络技术,教育也朝着网络化的方向发展。通过网络,学生能够快速获得所需信息,而且知识比较全面,学校也能根据此对学生的学习需求作进一步的了解。因为学生不同,网络教学需要提供个性化的教学方式,Web数据库挖掘技术能够从海量的信息数据库中将学生感兴趣的、隐含的信息资源挖掘出来,从而为学生提供更加方便的网络教育服务。
4结束语
随着人们信息需求量的增加,数据库技术迅速发展,而互联网是当前获得信息的重要途径,二者结合将会构成一个巨大的数据库,同时也加大了信息传递的难度。以Web数据库为基础的数据库挖掘技术能够提高信息检索的速度和准确度,在网络教育、电子商务等领域得到了广泛应用。
参考文献:
[1]曾霖.基于Web数据库的数据库挖掘技术探究[J].软件,2013,27(2):174-176.
[2]艾孜海尔江・艾合买提.基于Web数据库的数据库挖掘技术分析[J].科技致富向导,2012,24(27):217-219.
[3]李琳.基于web的数据挖掘技术[J].自动化与议仪表,2007,21(2):174-176.
知己,更需知彼
《孙子兵法》云:“知己知彼,百战不殆”。对企业来说,“知己”意味着对企业内部信息――包括长短期策略、产品、服务、管理、人事、财务等各部门、各层级的了解和及时的动态掌握,这对于实现企业内部资源的优化配置具有重大意义。但要在瞬息万变的市场竞争中占据一席之地,并扩大市场占有率,企业还需“知彼”,这包括市场热点、市场发展趋势、行业动态、供应链上下游厂商的动态、技术发展趋势等外部信息。企业如无法及时了解并分析海量的外部信息,洞察、预见问题并做出及时的准备,很可能会走入产品与服务滞后于市场需求、错估消费者兴趣等怪圈,影响企业的长远发展,甚至在激烈的竞争中失去原有的市场地位。
在大数据风起云涌的今天,许多企业并不是不了解利用外部信息的重要性,但其获取外部信息的能力以及整合信息的能力不足,难以从海量外部数据中找到所需部分,甚至不知道有什么样的信息资源可供获取,从而导致了企业信息分析的滞后。企业迫切需要能够提供完整全面的外部信息的专业性平台来保证获得信息的充分性与及时性,同时也需要高效的分析工具将不同来源的各类信息进行分析整合,生成可为企业决策所用的有效参考数据。
制胜,取决于专业数据整合
作为可视化分析领域的领导者,Qlik始终致力于提供自助数据可视化及分析服务的直观解决方案,在这方面具有丰富的经验与解决方案,并已被全球各行各业的客户所认可和采用。Qlik提供的DataMarket数据收录归档服务,可将第三方数据直接连接至QlikSense和QlikView,用户可像获取内部数据一样简便地获取外部数据资源。QlikDataMarket将数据进行收录整理并置于数据加载页面,用户可根据不同分类选择获取所需的数据信息。这对于帮助用户快速找到有价值的外部数据具有重要意义。
论文摘要:工程(地质)勘察信息化是一项复杂的系统工程,其中既涉及各种信息处理技术及其集成化应用,也涉及方法论和其它问题。因此,提出工程地质勘察信息化的要求,不但是地质信息科学发展的必然趋势,也是促进地质信息科学的理论框架、方法论体系和技术体系形成主要动力。
0引言
当前,伴随着一般信息科学、地球信息科学、地球空间信息科学和地理信息科学的兴起,地质信息科学已经逐渐形成雏形。这是一门崭新的边缘学科,是关于地质信息本质特征及其运动规律和应用方法的一个综合性学科领域。它的形成与地质学和地质工程各个分支学科的发展和促进密不可分。历史分析的结果表明,计算机技术的引进、改造、融合、集成和应用过程,实际上就是工程(地质)勘察信息化的过程。
1水利水电工程地质信息处理
1.1信息处理技术地质测绘、钻探、山地工程等所获取的数据是水利水电工程地质信息处理的数据源,是水利水电工程地质信息处理流程的起点,这些数据包括搜集到的早期勘察数据和现阶段地质勘察获取的状态数据,不但具有多来源、大数量、多种类、多层次、多维和多应用主题等特点,同时又具有可采集性、可存储性、可管理性、可复制性、可共享性等可信息化的特征。这个过程可以划分为勘察数据获取、勘察数据整理与管理、勘察图件制作、地质体空间分析、勘察成果编制、管理与查询等环节。每个环节都可以对应一种或数种信息技术,如数据的采集与管理可以用数据库技术来实现,勘察图件的制作可以用计算机辅助设计技术或gis技术来实现,地质体空间分析可以用三维建模与空间分析技术来实现,勘察成果的编制可以通过数据库中资料的组合来生成,成果的查询检索可以通过数据库和网络技术来实现。[1]
1.2信息处理方法数据采集是整个处理过程的起点,也是水利水电工程勘察的主要工作之一。所采集的数据包括可以搜集到的前期资料和工程勘察获取的数据,这些数据都可以通过直接录入、导入与二维平面图或三维模型绑定输入等四种方式来进行处理。[2]报告、汇报、归档部分是指利用数据库、二维辅助制图和三维模型与空间分析成果来编制工程勘察报告等勘察成果,并对所取得的成果数据进行审查汇报,最后把成果进行数据库管理和归档。以上这些工作全部处在标准化体系的制约之下,这些标准包括工程勘察规范、数据编码标准、图层设置标准等等,同时这一过程被网络技术进行全面的改造,从而组成水利水电工程地质信息处理的完整流程。
1.3信息处理流程①数据采集阶段。在确定了工作目标后,首先搜集工作区域的各种已有资料,在对搜集到的资料进行分析后,在可能的工作区域内进行野外考察,进一步确定工作区域。在基本确定的工作区域内进行野外测量和工程地质测绘工作。在测绘的基础上进行钻探、物探、地质试验和可能的山地工程等工作。这个阶段主要是获取工作区域内地表、地下的各种地质资料。②室内整理阶段。室内整理阶段是对获取到的地质资料进行校对、分析和分类的工作,使获取到的数据条理分明,便于后期工作的使用。
这一阶段可以滞后于数据采集阶段,也可以与数据采集阶段同时进行。③分析处理阶段。分析处理阶段主要是利用整理后的数据进行各种地质图件的编制,对野外勘探的数据进行统计、分析、计算等,为下一步勘察报告的编制提供各种资料。④编制报告阶段。工程勘察的最终成果是勘察报告,这一过程主要依赖地质技术人员对地下地质空间的感悟与工作经验,充分利用获取的数据和前期对数据的整理与分析处理成果来编制工程勘察报告。⑤成果审查与汇报阶段。这一过程是对整个勘察工作的检查和验收,如果分析不够充分,要返回到分析处理阶段进行更充分的分析处理,如果分析结果缺乏足够的数据,要返回到数据采阶段,进行补充勘探工作,直到审查通过。⑥资料归档阶段。这一阶段主要是把原始勘探资料和勘探成果资料进行分类归档工作。这部分资料同时也是其它工作的资料依据。从信息处理角度也可以把这个过程划分为数据采集、数据管理和数据应用三部分,其中数据管理包括对所采集数据进行管理和对数据应用的结果进行管理,数据应用包括数据统计分析、空间模拟与分析、地质图编制和报告编制等。
2实现地质信息技术的集成化
为了最大限度地发挥各种信息技术的作用,需要实现信息集成化。其原则和出发点是:使各部分信息有机地组成一个整体,每个元素都要服从整体,追求整体最优,而不是每个元素最优;各个信息处理环节相互衔接,数据在其间流转顺畅,能够充分共享。系统有了这样的的整体性,即使在系统中每个元素并不十分完善,通过综合与协调,仍然能使整体系统达到较完美的程度。从工程勘察信息系统实现的逻辑结构看,系统集成的内容包括:技术集成、网络集成、数据集成和应用集成。分布式的工程勘察点源信息系统的建立,就是上述四方面集成的结果。
3结语
工程(地质)勘察信息化是一项复杂的系统工程,其中既涉及各种信息技术及其集成化应用,也涉及方法论和其它问题,要求深化对地质信息机理基础理论的研究。因此,工程地质勘察的信息化需求,也是地质信息科学发展的动力,促进地质信息科学的理论框架、方法论体系和技术体系形成。工程(地质)勘察的计算机应用的理论、方法和技术作为地质信息科学的重要组成部分,在自身发展的过程中也不断地借鉴和引进其它地质与矿产勘查领域的成果,并且逐渐融入地质信息科学的总体发展轨道,伴随着地质信息科学的发展而发展。
参考文献:
上一篇:科技创新必要性范例(3篇)
下一篇:计算机学科主要研究方向(6篇)
热门推荐