化学数据分析方法范例(3篇)

时间:2024-07-31

化学数据分析方法范文篇1

关键词:互联网联网数据分析师人才培养

互联网行业在快速发展,“互联网+”概念的提出标志着互联网已叩响“万物互联时代”的大门。在这个时代,大数据渗透于各行各业,掌握数据核心价值成为企业脱颖而出并取得胜利的法宝。越来越多的企业承认竞争优势与大数据有关,由此,数据分析师这一职业逐渐得到认可并受到追捧。世界500强企业中,有90%以上都建立了数据分析部门。在国内,已有超过56%的企业在筹备和发展大数据研究,据有关部门预测未来5年,94%的公司都将需要数据分析专业人才。数据分析师的职位需求随之不断增长,全国数据分析师的职位由2014年初的200多个职位增长到接近3000个职位。正如著名出版公司O’Reilly的创始人TimO’Reilly断言,大数据就是下一个IntelInside,未来属于那些能把数据转换为产品的公司和人群。

优秀的数据分析师已经成为促进各行各业发展,推动国家经济进步的重要人物。但我国针对数据分析的研究起步晚,市场巨大,职位空缺现象十分严重。因此,培养数据分析人才的项目活动应引起高度重视。

1互联网环境下的数据分析师

1.1数据分析师的定义

谈起数据分析师,很多人都认为其职位高高在上,不可企及,但实际并非如此。让我们从案例出发来探索其内在含义,数据分析最经典的案例便是“啤酒与尿布”,沃尔玛超市将Aprior算法引入Pos机数据分析发现美国年轻的父亲去超市为婴儿购买尿布的同时,往往会顺便为自己购买啤酒,这样便使尿布和啤酒这两样看似不相干的商品有了某种联系。于是,沃尔玛尝试将两种商品摆放在同一区域,进而取得了意想不到的良好销售收入。可见,数据分析是运用适当的方法对收集来的大量数据进行分析整理,筛选有价值的信息并形成相应的解决方案以帮助人们作出判断,采取适当行动的过程。

1.2数据分析师的层级分类

经对多家招聘网站数据分析师的招聘信息进行分析研究,发现目前数据分析师大体分为三个层级:传统行业的数据分析师、互联网初级数据分析师、互联网高级数据分析师。传统行业的数据分析师的主要工作是整理、处理数据,专业技能只要具备一定的数学和统计学知识储备即可;第二层级是互联网初级数据分析师,职位要求在传统数据分析师的基础上掌握少数的计算机工具譬如SPSS、SQL等,从职人员需具备一定的数据敏感度和逻辑思维能力,能够对数据源进行分析并能制作数据报表;互联网高级数据分析师是一类复合型人才,要熟悉业务环境并能与技术相结合解决企业实际问题,并掌握数据挖掘常用算法和一系列相关的分析软件,他们的工作与企业发展密切相连,拥有一名优秀的数据分析师的企业将拥有与同行业竞争的资本。

1.3数据分析师的能力需求

数据分析师的工作分为采集、存储、筛选、数据挖掘、建模分析、优化、展现、应用等一系列过程。接下来从主要步骤详细分析数据分析师的能力需求。数据挖掘过程即从海量数据中提取潜在的有价值的信息,要求数据分析师掌握一系列相关分析方法譬如聚类分析、关联分析、等并能熟练运用数据挖掘算法和相关工具;建模分析即对数据抽象组织,确定数据及相关性的过程,在此基础上要掌握譬如决策树、神经网络、K-means算法、SVM等至少一种相关算法;展现过程要求具备数据整理、数据可视化、报表制作能力,熟练应用D3、Vega实现数据可视化,并能运用R和DateWangler工具将原始数据转化为实用的格式。

2数据分析师的培养现状

2.1国外数据分析师的培养现状

在国外,无论是学术研究还是企业部门,数据分析已发展到较为成熟的地步。斯坦福大学的研究成员着手开发MEGA(现代动态网络图像分析ModernGraphAnalysisforDynamicNetworks)并与多家媒体公司紧密合作,研究社交媒体中的用户行为,建立模型并探究其中的规律;哥伦比亚大学已开设了《数据科学导论》和《应用数据科学》课程,从2013年秋季起开设“数据科学专业成就认证”培训项目,并于2014年设立专业硕士学位和博士学位;华盛顿大学开设《数据科学导论》课程,并对修满数据科学相关课程学分的学生颁发数据科学证书。数据分析师在国外已引起了充分的重视,他们均衡分布在各行各业,运用掌握的专业知识并结合相关思维为自身、企业乃至社会的发展做着不小的贡献。

2.2国内数据分析师的培养现状

近年来,在国内,大数据的概念虽被媒体和行业广泛提及,但数据分析算是刚刚起步,数据分析师的培养课程未得到普及,我国目前将数据分析纳入教学体系的高校寥寥无几,开设相关课程并取得一定成果的有:香港中文大学设立“数据科学商业统计科学”硕士学位;复旦大学开设数据科学讨论班,于2010年开始招收数据科学博士研究生;北京航空航天大学设立大数据工程硕士学位;中国人民大学统计学院开设数据分析方向应用统计硕士。

和国外相比,我国数据分析师的人才培养机制还未成熟,高校教育仍存在各种各样的问题,譬如,大学生虽然从多门课程中接触到与数据分析相关内容,但各门课程的教学资源未能实现有效的整合。互联网环境下,大数据带来的是一场革命性的变化,若想把握机遇,实现国家经济革命性发展,首要任务就是数据分析师的培养。

3如何成为优秀的数据分析师

数据分析师作为新时代新兴起的高薪职业,对人员的能力要求是相当高的,下面将根据数据分析师的定义、能力需求并结合互联网环境的时代背景,对数据分析师的成才途径作出详细的分析。

思维变革,数据分析师成才的前提。首先要在思维方面有所改变,培养自身数据思维、多模式思维、逻辑思维和结构化思维。数据思维即量化思维,对数据具有独特的敏感度,相信一切事物皆可量化;多模式思维即构造多种想法和解决思路,拓宽思维,从多角度出发,以寻求最优的解决问题的方案;逻辑思维,在错综复杂的海量数据中要有缜密的思维和清晰的逻辑推理能力才能按照自己既定的目标有效解决问题;结构化思维即系统性思考问题,深入分析内在原因,能够制定系统可行的解决方案。

技能变革,数据分析师成才的工具。作为一名优秀的数据分析师若想在互联网环境下对海量数据进行有效的管理,就要努力学习相关的专业技能。要掌握多种机器学习方法,不断学习相关软件应用,譬如,Java、Python、SQL、Hadoop、R等等,这将成为数据分析全过程的辅助工具;除此,还要掌握一定的心理学知识,能够很好的分析和解释客户行为;在此基础上,最核心的是要掌握一定的业务能力和管理能力。

素质变革,数据分析师成才的保证。在个人素质方面,互联网时代对数据分析师的要求增多,若想成为优秀的数据分析师就应不断学习完善以下素质能力:对工作的态度严谨认真,对数据的变化时刻保持敏锐的洞察力,对方法的运用保持一定的创新性,对团队保持团结合作之心,能与顾客沟通交流并及时了解他们的需求。

实践,数据分析师成才的推动力。数据分析师的职责是帮助企业挖掘市场价值、发现机遇、准确进行市场定位并从海量数据中找出问题,提出解决方案。因此,在数据分析师的成才道路上,实践是必不可少的。相关人员要在掌握理论的基础上,敢于应用于实践,充分考虑数据中存在的价值和风险。使自我能力在实践中不断改进和完善。

4给我国高校的建议

高校为数据分析师的成长提供指导和途径,肩负着为我国社会培养有用人才的重任,因此高校要努力构建数据分析师的人才培养机制,不断输出数据分析相关人才。

高校的首要任务是,强化师资力量,改进教学方法。各大高校应联合共建优秀师资团队,鼓励教师考取数据分析师资格证,并到实际企业中进行历练。再者,我们要组建专门师资团队到国外开展学习工作,取其精髓,去其槽粕,不断优化我国数据分析师的培养体系。

第二、培养专业化的人才就要有效整合各门课程的教学资源,构建系统性教学结构。鉴于市场对数据分析师的需求的火热程度,高校完全可以开设专门课程,将与数据相关的课程进行有机的整合并开设数据分析导论、基础等课程,制定数据分析系统性课程体系,专门为市场培养数据分析的专业人才。

第三、在具备优秀的师资力量和良好的教学体系的基础上,高校也高度应注重学生兴趣的培养。数据分析师是新时代的复合型人才,一名优秀的数据分析师需掌握包括数学、统计学、运筹学、社会学、管理学以及大量软件应用在内的大量相关知识,学习过程会十分繁琐、复杂,学习周期长,学习难度大,所以建议各大高校在制定教学体系时应合理安排课程,在教学过程中应注重课程的趣味性,寓教于乐,采用案例导入、项目教学等教学方法,逐渐培养学生对数据分析浓厚的兴趣。

第四、随时更新教学数据,培养适应时展的人才。基于大数据的4V特征即大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值化(Value),在培养数据分析人才的期间,高校一方面要注重数据的全面性,另一方面要注重数据的更新,及时更改教学方法和教学案例,与时俱进。高校要充分利用互联网的优势,引入MOOC(MassiveOpenOnlineCourse,大规模网络开放课程)教学方式,充分发挥大数据在教育领域的作用,克服传统教学方法资源少、反馈慢、综合分析困难等缺点,将数据分析的研究成果应用于数据分析人才的培养,实现数据分析行业的良性循环。

第五、注重理论与实践相结合,努力为学生搭建实践的平台。高校可考虑校企合作的教学理念,边教学边实践,让学生将所学到的理论知识转化为实际应用,一方面在实践中巩固并检验自己的理论知识,另一方面数据来源真正的企业运营中,让学生切实体验数据的作用和风险,有助于塑造真正对企业有用的人才。

5结语

综上所述,互联网带来了全球范围的数据信息大爆炸,这对企业来说是机遇同时也是挑战,能将大数据为自己所用,是企业取胜的关键,因此数据分析师逐渐被各行各业认可。文章从数据分析师的定义出发,结合目前的时代背景,对数据分析师的每一工作步骤所需的能力进行研究,旨在初步探索优秀数据分析师的成才之道,为即将成为数据分析师的学者提供一定的理论参考。最后,针对如何构建数据分析人才培养体系,对我国高校提出了几点建议。高校的培养只是为数据分析师提供成才的途径,如何成为资深的数据分析师还有赖于每个学者的不断探索和研究。

参考文献:

[1]张明元.数据分析师的职业是否高不可及[J].出国与就业,2007(08):56.

[2]郑葵,马涛.经管类专业大学生数据分析能力提升策略探讨[J].商业经济,2013(19):52-53.

[3]冯海超.大数据时代正式到来[J].互联网周刊,2012(24):36-38.

[4]谭立云,李强丽,李慧.大数据时代数据分析人才培养的思考及对策[J].科技论坛,2015.

[5]尹颖尧,李鸿琳.赶紧培养数据分析师[J].大学生,2013(18):78-79.

[6]程征.提升数字阅读质感的数据分析师[J].中国记者,2013(6):46-47.

[7]张文霖.数据分析师那些事[J].统计论坛,2013(7):44-45.

化学数据分析方法范文

【关键词】质量控制;化学分析;准确性;可靠性

化学分析质量控制是一个复杂的系统工程,化学分析检验工作通常都是在实验室进行的,因此实验室进行化学分析试验不仅要做好科学的管理制度,还要完善工作环境,更新工作设备和器械、提高工作人员的综合素质和技能水准,更要重视质量控制对结果准确性和可靠性的影响。

1.化学分析检测数据质量控制概述

化学成分是决定材料性能的关键性因素之一,材料中各组成化学成分含量的测定主要依赖于化学分析。化学分析结果对于材料的认识有着重要的意义,是评价材料性能、判断材料质量的主要依据。在化学分析工作中,质量控制不仅是一项技术工作,也是一项实验室管理和控制工作。在目前的化学分析质量控制中,对分析结果造成影响的因素主要有人为因素、机械设备因素、材料因素、管理控制方法因素、测定因素和环境因素六个方面。

2.化学分析概念

化学分析数据的准确性与可靠性是试验的核心,在工作中一旦出现化学检验数据失真或者错误,可能造成评价结果的事物和产品质量的影响,同时也说明在工作中管理制度和科学管理的失控,最终形成整个分析系统和分析工作的失败。如果一个试验连最起码的准确性都无法保障,那么这样的试验也就失去了意义,试验结果和数据分析也就失去了价值。

2.1准确性

取决于现场人员的职责和技能、样品的采集、保存与运输的技术和措施。如果采集的样品不具有代表性及真实性或采集的样品不能保证质量,就会造成检验结果数据失控。因此,检验结果的误差越大,造成的危害也就越大。

2.2可靠性

可靠性:可靠性取决于检验人员自身分析业务技术水平,实验室仪器设备的灵敏度、精确度,实验方法的可靠性、准确性,因此,数据的真实性及可靠性取决于分析结果和分析技术的应用环节。只有抓好试验的可靠性,才能让试验获得准确的数据,才可以进一步为材料的分析提供可靠的支持。

2.3质量保证系统

质量保证系统是在影响数据有效性的各个方面采取一系列的有效措施,将误差控制在一定的允许范围内,是一个对整个分析过程的全面质量管理体系。它包括了保证分析数据正确可靠的全部活动和措施。

3.关于化学分析质量控制面临的问题

(1)分析结果的精密度与待测物质的浓度水平有关,应取两个或两个以上不同浓度水平的样品进行分析方法精密度的检查,通过不同浓度样品的测试,进行对比分析才能让数据更精准,材料的特性才能更好的体现。

(2)精密度会因测定实验条件的改变而变动,最好将组成固定样品分为若干批分散在适当长的时期内进行分析,检查精密度。

(3)要有足够的测定次数,足够的次数是对误操作或者特例性的一种排除,尽量消除因误操作或者试验中的特异性带来的误差,让试验结果更准确。

(4)以分析标准溶液的办法了解方法精密度,与分析实际样品的精密度存在一定的差异。

(5)准确度高的数据必须具有高的精密度,精密度高的数据不一定准确度高。用不同分析方法测定同一样品时,所得出结果的吻合程度。使用不同标准分析方法测定标准样品得出的数据应具有良好的可比性。要求各实验室之间对同一样品的分析结果应相互可比。要求每个实验室对同一样品的分析结果应达到相关项目之间的数据可比。相同项目在没有特殊情况时,历年同期的数据也是可比的。在此基础上,还应通过标准物质的量值传递与溯源,以实现国际间、行业间的数据一致、可比,以及大的环境区域之间、不同时间之间分析数据的可比。

4.分析方法的可靠性

4.1灵敏度

单位浓度或单位量待测物质变化所产生的响应量的变化程度(响应大小)。A=kc+a检出限:在给定的置信度内可从样品中检出待测物质的最小浓度或最小量,高于空白值。仪器检出限:产生的信号比仪器信噪比大3倍待测物质的浓度,不同仪器检出限定义有所差别。

方法检出限:指当用一完整的方法,在99%置信度内,产生的信号不同于空白中被测物质的浓度。测定限:测定限为定量范围的两端分别为测定上限与测定下限,随精密度要求不同而不同。测定下限:在测定误差达到要求的前提下,能准确地定量测定待测物质的最小浓度或量,称为该方法的测定下限。测定上限:在测定误差能满足预定要求的前提下,用特定方法能够准确地定量测量待测物质的最大浓度或量,称为该方法的测定上限。

4.2全面地反映了分析实验室和分析人员的水平

当样品中待测物质与空白值处于同一数量级时,空白值的大小及其波动性对样品中待测物质分析的准确度影响很大,直接关系到报出测定下限的可信程度。以引入杂质为主的空白值,其大小与波动无直接关系;以污染为主的空白值,其大小与波动的关系密切。

5.准确性

5.1分析前的质量的保证与质量控制

采样的质量保证包括:采样、样品处理、样品运输和样品储存的质量控制。要确保采集的样品在空间与时间上具有合理性和代表性,符合真实情况。采样过程质量保证最根本的是保证样品真实性,既满足时空要求,又保证样品在分析之前不发生物理化学性质的变化。采样过程质量保证的基本要求。应具有有关的样品采集的文件化程序和相应的统计技术。要切实加强采样技术管理,严格执行样品采集规范和统一的采样方法。应建立并保证切实贯彻执行的有关样品采集管理的规章制度。采样人员切实掌握和熟练运用采样技术、样品保存、处理和贮运等技术,保证采样质量。建立采样质量保证责任制度和措施,确保样品不变质,不损坏,不混淆,保证其真实、可靠、准确和有代表性。

5.2采样过程质量保证的控制措施

质量保证一般采用现场空白、运输空白、现场平行样和现场加标样或质控样及设备、材料空白等方法对采样进行跟踪控制。现场采样质量保证作为质量保证的一部分,它与实验室分析和数据管理质量保证一起,共同确保分析数据具有一定的可信度。现场加标样或质控样的数量,一般控制在样品总量的10%左右,但每批样品不少于2个。设备、材料空白是指用纯水浸泡采样设备及材料作为样品,这些空白用来检验采样设备、材料的沾污状况。

化学数据分析方法范文

大数据技术的快速发展促进了科研方式的变革,基于数据紧密型的科研方式已经成为自科研经验方式、理论方式、计算机模拟方式之后的新的发展模式[1]。现阶段,海量的半结构化和非结构化数据给科研带来了巨大挑战,而且数据存储和共享功能缺乏合理性和有效性,这也给高校图书馆的服务模式造成不小的影响。在大数据时代,高校图书馆应该更加重视用户数据安全和服务质量,积极利用先进的数据分析和处理技术来提升高校图书馆服务的智能化和个性化,为高校图书馆的服务创新创造出有利条件[2]。高校图书馆应该借助大数据技术,充分了解用户的服务需求,并以满足用户的服务需求为目的开展相应的服务。

1大数据时代高校图书馆开展嵌入式知识服务的内容

1.1用户需求的分析

在大数据环境下,首先,高校图书馆可以收集和存储用户的基本信息,比如:用户的学历、年龄、科研成果、学习经历以及工作单位等信息,并详细记录用户的操作信息及检索、查询、收藏以及标识等操作行为,可以与用户查询资料的内容、学科类别以及相应用户权限进行关联,还可以收集用户具体的信息咨询、科技前沿以及参考导航等服务情境[3]。其次,高校图书馆可以分析海量?稻荩?利用基于语义网的技术来规范用户信息资源,并将其转换为能够被应用程序理解和直接调用的数据,从而可以更好地感知和预测用户行为。最后,高校图书馆利用用户数据作为决策依据,为用户制订当前目标、短期目标以及长期目标,并根据需求环境的变化动态分配硬件和软件资源,从而让高校图书馆的服务融入用户的科研活动中。

1.2规律趋势的分析预测

针对某些行业或者学科进行全面收集信息资源时,在专业研究成果的基础上进行深入分析,比如对比、推理以及综合利用等科学分析手段,或参照专业学科发展规律,计量学发展规律等[4]。由于学科的知识特点和发展规律各不相同,因此需要运用多种分析和处理手段来构建不同的学科模型,从而能够准确地预测学科发展规律以及发展趋势。常见的预测方法有以下几种:①将大量文献内容进行数据统计,以归纳总结出文献的内在规律,比如齐普夫定律、洛特卡定律以及布拉德福定律等都是常见的基于文献内容的统计方式。②根据文献的发展规律和趋势来构建数学模型,可以达到预测文献发展规律的目的,比如普赖斯就专门构建了基于指数增长规律的数学模型。③将其他领域的数学规律和数学模型移植到文献发展的预测中,比如物理学中的半衰期规律、经济学中的人口增长规律以及生物学中的成长规律等。④依据模糊理论来搜集相似文献内容,存储在计算机中,并利用统计技术进行分析和对比数据,以此帮助科研人员挖掘数据关联性。

2大数据分析与情报分析的共性

2.1看重对数据的定量分析

数据作为最直观的资源,已经潜移默化地改变了分析决策的方式,如何有效地收集、筛选以及整理各种数据资源,并利用合理的方法来挖掘数据的潜在价值,已经成为评价一个组织是否具有竞争力的重要衡量方式。情报分析学科同样十分重视数据资源的应用,在情况分析研究的初期阶段,分析人员主要依靠人员的智力来分析少量数据现象,并从中归纳总结出情报分析的规律。随着科学技术的快速发展,学科之间的关联性和交叉性逐渐加强,学科知识的划分越细致,所涉及的内容也就越专业。目前,情报分析更多地依靠先进的信息处理技术,利用“机器学习”方式来挖掘数据、分析和统计相关联系,还可以利用定量化方式来关联基于关键字的词汇共现,其核心思路就是在计算能力的基础上利用人工分析判断数据联系。因此,利用数据来阐述问题已经成为情报分析的主要特点,在情报分析报告中利用数据、公式以及图表来说明理论的方式也充分体现了数据分析技术在情报分析领域的重要地位。

2.2关注多源数据融合

大数据技术可以通过各种渠道,并利用各种收集手段来获取各种数据信息,在进行集中整理后,形成一种基于不同数据格式的统一处理方式,这种处理过程被称为多源数据处理融合技术[5]。一方面,可以通过不同用户和不同网络途径来获取同一个研究方向的内容;另一方面,根据信息数据的种类和用途的不同,比如:根据视频、音频及文本等方式进行分类,也可以根据结构化和非结构化等方式进行分类,同时也要考虑数据的异构性。需要注意的是,相同类型的数据也有可能分布在不同的站点,并由各自的数据供应商提供,如论文分析研究的数据来源就包括中国知网、维普及万方数据库等[6]。一般情况下,针对前沿领域进行情报分析时,只利用一种类型的数据是不够全面的,应该从其所涉及的期刊论文、图书资源、专利以及项目等收集有效信息,进行整合处理,这样才能够体现出该研究的整体特征。

3嵌入式知识发现情报分析服务的重要环节

3.1知识发现系统的利用

将文献分析方式与数据挖掘技术进行有机结合已经成为知识发现方面的热门研究内容,并且取得了可以直接应用的研究成果,这为嵌入式知识发现情报分析服务提供了重要的研究方式。不可否认,选择和使用合理的知识发现系统会提高信息数据的分析效果,其中比较有代表性的就是充分认识到知识发现系统的优势,评估数据分析结果与用户的契合程度,从而让数据分析服务的效果得到用户的认同。比如:一些基于知识发现的软件和系统比较适合大型结构化文献数据分析,可以根据结构化数据的特点分析出信息的特定发展规律[7];还有一些基于主题和科研本身的知识发现模型,其可以利用文献资源之间的相关性挖掘有效信息,并对文献资料进行多角度分析,根据关联原则描述该学科领域的发展趋势图;另外还可以利用关联和非关联的知识发现方法,再结合相关语义分析、词汇频率统计等技术,最后通过关键词聚类方式来寻找潜在的知识发现。

3.2准确获取数据

知识发现可以分析大量数据和信息资源,并从中挖掘明显关联或者非关联的科学研究的内在规律,情报分析人员可以向科研人员提供相关情报分析,一般采用的是定量和定性相结合的分析方法。在进行定量分析之前,如果要获取较为准确的目标数据,除了要分析数据源以及检索方式之外,还要对数据进行预处理,如消除噪声数据、集成数据等。大部分的数据分析软件都具有数据筛选功能,其中常见的TDA(ThreatDiscoveryAppliance)软件就可以通过列表功能手工筛选原始数据。需要注意的是,当自动筛选数据时,常常由于数据中检测出偶发的错误或者不同的存储格式导致筛选失败,这就无法按照要求构建知识图谱。嵌入式的知识发现服务可以将筛选后的数据与专业数据分析专家共享,由此可以进一步提高数据的准确性,从而得到与研究对象关联紧密的数据。

3.3应用综合分析方法

科技创新活动不仅包括学科和领域的创新,而且还涉及社会各个方面的创新,所以嵌入式知识发现服务需要为决策人员提供情报分析服务,帮助分析对象的社会行为,并为决策人员指明科研决策的发展方向;此外,还可以根据用户的需求,结合经济学、社会学、管理学以及情报学等学科的分析方法,多方面地展现科技创新在社会环境中的具体状况和发展趋势。如今,国外已经出现了专门提供情报分析服务的公司,比如美国的麦肯锡公司就对医药领域提供多方面的分析和研究服务。而国内关于情报分析的研究还处于起步阶段,高校图书馆可以借鉴国外成熟的研究成果,比如可以利用波士顿矩阵方法来分析文献资源之间的关联性。

4情报分析服务模型总体设计

情报分析服务的主要功能就是针对数据进行整理和分析,从而挖掘知?R的内在关联性。该研究根据内容解析方法来实施情报分析服务,并专门构建一个情报分析的服务模型。该模型采用了分层结构,自上向下共分成三个层次,即界面展示层、知识发现处理层、数据资源层等,具体结构示意图如图1所示。

首先是数据资源层,其确定研究对象包括三个步骤:确定分析目的、确定研究范围、搜集情报等内容。其次是知识发现处理层,它主要包括三个方面的内容:①制定编码标准,并借助计算机辅助工具来构建专属词典,其主要分为专业术语词典、停止词词典、同义词词典等。②编码部分,可以将文本文件转换为计算机可识别的文本向量。③数据分析部分,可以利用相似度算法和聚类算法来处理文本向量,从而实现情报自动聚类和串并功能。最后是界面展示层,主要功能为针对数据进行分析。

4.1数据资源层设计

数据资源层为情报分析提供海量的数据资源,从各个数据源中收集数据并集成在情报员数据库中。众所周知,数据库的性能会直接影响情报分析服务模式的处理效率。目前,比较成熟的数据库种类主要有两种:关系型数据库和非关系型数据库。经过几十年的发展,关系型数据库技术相对比较成熟,其中的行和列的关系非常明确,主要采用表型结构存储数据,用户比较容易接受。但是,随着数据库技术的不断发展,关系型数据库的弊端也逐渐显现出来:①针对海量数据进行查询和存储操作,海量数据信息时刻充斥在互联网上,如果关系型数据库还是采用表型存储海量数据,这时的存储是以亿为单位。当利用SQL(StructuredQueryLanguage)语言查询或者针对多张表进行关联查询时,其查询效率是非常低的。②数据库的扩展性较差。当处理海量数据时,数据的结构非常复杂,修改数据库的表结构是非常耗时的,因此复杂的数据结构的处理效率无法达到用户的要求。③数据库的读写效率。针对动态的信息,每秒的读写次数要达到上万次以上,而关系型数据库的读写速度无法达到这种要求。

4.2知识发现处理层设计

知识发现处理层的主要功能是针对数据资源层的数据进行深度的分析和挖掘,它可以利用内容分析方法进行数据分析和情报编码,具体的功能模块图如图2所示。知识发现处理层主要包括四个功能模块:情报自动聚类处理模块、情报串并处理模块、文本预处理模块、文本向量表示模块。

4.3界面展示层设计

界面展示层主要包括两个部分:知识图谱展示功能和人机交互功能。知识图谱展示功能形象展现出情报数据资源的分析结果,是针对情报数据资源分析的拓展,它可以准确表达现象层面的具体信息,并通过更进一步的分析来找出隐藏在情报中的规律,从而协助情报分析人员更好地处理情报。人机交互功能是利用操作界面来实现用户和软件之间的信息交流,更好地帮助用户控制软件。

更多范文

热门推荐