计算机视觉研究的目的范例(12篇)

时间:2024-03-17

计算机视觉研究的目的范文

摘要:研究基于计算机视觉的实时动态手势识别技术,并利用OpenCV计算机视觉库在VS2010平台上设计一个基于该技术在多媒体教学中PPT演示控制方面的应用。首先,利用背景差分法进行手势检测,在背景更新的基础上,通过背景差分图和颜色直方图的反投影图来检测运动手势区域,可以达到较为满意的实时运动手势检测效果;其次,采用基于颜色直方图的粒子跟踪算法进行手势跟踪,基本能满足跟踪的实时性;最后,在手势识别阶段,采用基于Hu不变矩的轮廓匹配算法,得到较好的手势识别效果;使用六种手势,来实现演示文稿中的控制应用。

关键词:计算机视觉;背景差分;粒子跟踪;手势识别;Hu矩

中图分类号:TP391.41文献标识码:A

1引言

随着计算机软硬件技术的发展,人机交互已经由过去的鼠标、键盘方式逐渐向更加灵活生动的语音、姿势等新颖交互方式发展。由于基于视觉方式具有便捷和开销低等优点,因此,利用计算机视觉技术来使计算机理解用户的命令,从而做出控制动作,这一领域的研究得到越来越多的重视。其中,人的手势作为日常生活中最为广泛使用的一种交流方式;因此,国内外许多研究机构开始对手势识别技术进行研究,并已经取得了一些阶段性的成果。较早的有:Freeman和Roth等人提出的基于方向直方图的手势识别系统;国内的高文教授等人于1994年提出了一种静态复杂背景手势目标的捕获与识别。经过二三十年的发展,

人们对运动目标检测及跟踪进行了大量深入的研究:美国MIT实验室通过提取左右手质心的运动轨迹以及手势形状特征参数,结合语法规则识别40个美国手语,准确率达到97%;另外,MicrosoftKorea的HyeonKyuLee,采用HMM的阈值模型,识别9种动态手势命令,平均识别率高达98.19%;国内的任海兵提出了基于DTW的手势识别算法,该算法能准确识别12种手势。

现在,基于视觉的手势识别技术更多的是应用在娱乐、游戏方面,比如微软前段时间推出的Xbox360游戏机体的体感外设Kinect及多款相配套的体感游戏,玩家可以通过手势在游戏中进行操作和互动,使得人机互动娱乐进入了一个新纪元。与此同时,还没有比较成熟的手势识别技术应用在现代教学系统中。因此,本文的研究重点是基于视觉的实时手势识别技术在多媒体教学演示控制中的应用。在基于视觉的手势识别研究中,需要解决的问题主要有两个:一是实时检测运动手势的信息,二是识别运动手势的信息并做出响应。对运动手势检测,本文采用背景差分结合改进颜色直方图特征的运动检测方法[1];对运动手势跟踪,本文采用粒子滤波算法[2]结合改进颜色直方图信息的方法;手势识别阶段,本文采用了基于Hu不变矩特征[3]的轮廓匹配算法[4];本文研究基于计算机视觉的手势识别系统,实现了在播放控制中运用手势进行开始、翻页、退出等功能,极大的提高了课堂教学的灵活性。

2手势检测

实时视频图像中的运动手势检测所需要完成的任务是:能够快且准的检测出手势在实时图像中的主要位置,并且能将位置所在的特定区域作为后续跟踪、识别的感兴趣区域。手势检测算法的好坏,直接影响整个系统的跟踪以及识别的效果。

目前,运动目标检测[5]的算法比较常用的有三种方法:光流法、帧间差分法和背景差分法。本文考虑实现环境为固定摄像头采集实时视频图像,背景基本不动,因此采用背景差分结合改进颜色直方图信息的运动检测方法。

2.1背景差分法

本文研究中,选取摄像头启动后的前10帧图像的平均作为最初的背景图像,把以后的实时序列图像当前帧和背景图像相减,进行背景消去。可以得到,运动手势区域的像素点的差分值比较大,背景区域的像素点的差分值比较小。另外,由于真实场景中的背景会因光线等外部条件产生微小的变化,长期的误差积累会造成最后得不到理想的手势区域,因此背景需要进行实时更新,从而能及时反映当前帧的背景图像,背景更新[6]的公式如下:

背景更新操作以后,对当前帧进行背景差分,大于阈值th1的图像点即为运动手势区域的点,并将得到的运动手势区域图像进行二值化操作,公式如下:

3手势跟踪

现在常用的一些跟踪算法主要有:卡尔曼预测算法、粒子滤波算法、均值偏移算法以及Camshift跟踪算法等。考虑到卡尔曼预测算法和均值偏移算法等都是线性跟踪算法,不能很好的应对目标运动的随机性,本文采用了粒子滤波算法。

3.1粒子滤波算法原理

粒子滤波法是指通过用一组带有权值的随机样本,以及基于这些样本的估算来表示动态系统的后验概率密度。当样本很大的时候,这种估计就等同于后验概率密度。这些样本就称为“粒子”。假设在t=0时刻每个粒子都有一个解,每个解与真实解都有一定的相似度,这个相似度可以表示为权重,随着时间的增加,相似度越大的粒子权重越大,而相似度越小的粒子权重就越小,最后趋于0,从而找到真实解(如图2)。

3.2基于改进颜色直方图信息的粒子跟踪

视频图像跟踪方面,目标的运动模型主要表现为目标位置、速度随时间改变的状态转移过程,目标的观测模型主要表现为每帧图像中运动目标的特征(如颜色、轮廓等)与真实目标的相似度的似然过程。在粒子滤波算法中,运动模型可以称为粒子传播或者粒子采样,它是一种随机过程[11]。粒子在经过传播以后,状态会发生改变,但权值没有跟着改变,这就需要系统的观测模型对当前粒子的状态进行计算从而更新粒子的权值。本文的研究中,观测值由目标区域的颜色直方图决定。

基于颜色直方图信息的粒子滤波就是将图像颜色特征的相似度作为粒子滤波算法要求解的后验概率,利用巴氏距离(Bhattacharyya)来计算相似度,得到粒子的权重。巴氏系数[12]如公式(9):

4.2识别算法过程

本文研究中,首先建立手势模板库,然后通过实时提取手势帧,经过前面第2部分的结合改进颜色直方图信息的手势检测,然后再经过形态学处理之后,得到效果良好手势区域的二值图,再用轮廓提取及跟踪来得到手势的轮廓图,然后计算其7Hu矩特征,最后运用欧氏距离将其与模板库中定义的手势进行特征匹配,完成手势识别。

轮廓提取就是要掏空内部的点:如果其八个相邻的点都是黑色,则可以判定为内部点,然后删除改点。

轮廓跟踪方法:首先找出轮廓中最左下方的点作为搜索的起点,然后按照一定规则来搜索手势轮廓上的其他像素点。由于轮廓是连续的,因此每个轮廓上的点的位置都可以用其前一个点的所张的角度来表示。研究中采用如下跟踪准则,第一个点开始定义搜索方向为左上,如果左上方的点是黑点,则它也是轮廓上的点;如果不是,那么顺时针旋转,直到找到第一个黑点,即轮廓上的下一个点。继续同样的方法搜索,直到返回最初的起点,搜索结束。

下图是轮廓跟踪算法[15]的示意图,搜索方向用箭头表示。

5系统实现

本文的系统是在微软的VS2010平台上,使用C++语言进行软件开发,在图像处理相关方面是基于计算机视觉库(OpenCV)进行研究的。程序界面如下图:

左边底层区的按钮可以观察实时手势跟踪和识别效果的功能(如图4和图7)。

手势识别的结果可以定义成一个变量,不同

的识别结果对应的变量值不同,然后根据变量值调用不同的API接口函数,这样就可以实现实时手势识别技术在演示控制中的应用。本文研究在控制部分挑选了六种手势,分别控制PPT播放中的开始、退出、上下翻页、跳转首末页等功能。手势命令定义如下:手势4控制开始播放;手势3控制退出播放;手势1控制跳转首页;手势2为跳转尾页;手势10为向下翻页页;手势5控制向前翻页。对电脑中某一PPT进行实际的播放控制(列举其中4个手势的控制状态),效果如下:

1)识别手势4,开始播放:

2)识别手势10,向下翻页:

3)识别手势1,跳转到首页:

4)识别手势3,退出:

系统通过笔记本自带30W像素的摄像头,采用DirectShow技术进行实时视频的获取,图像尺寸是320*240,fps可以达到30-60帧/秒,可以很好的满足实时性的要求。

6结语

本文通过研究设计了一个基于视觉的手势识别技术在演示控制中的应用系统,可以看出背景差分结合颜色直方图的运动检测可以得到较好的手势区域效果;采用的基于颜色直方图的粒子跟踪也能基本实现实时跟踪的任务;在识别过程中,基于Hu不变矩的轮廓匹配算法具有很好的鲁棒性,可以得到较好手势识别效果;在应用阶段,使用手势来完成控制命令,基本实现了在播放控制中的应用。

同时,仍存在一些问题:对于光照和人脸微小晃动等外部因素引起的噪声,只能降低而无法消除,这对于手势跟踪与识别的效果还是有一定的影响,在应用时会产生一定的误操作。这些问题仍需继续研究,才能使得基于视觉的手势识别技术得到更成熟的应用。

参考文献

[1]吴晓阳.基于OpenCV的运动目标检测与跟踪[D].杭州:浙江大学,2008.

[2]CHOJU,JINSH,PHAMXD.Objecttrackingcircuitusingparticlefilterwithmultiplefeatures[C]//SICE-ICASE:InternationalJointConference.LasVegas:IEEE,2006:1431-1436.

[3]甘志杰.基于Hu矩和支持向量机的静态手势识别及应用[D].青岛:青岛科技大学,2008.

[4]华斌,夏利娜.基于中值滤波和Hu矩向量的手语识别[J].计算机工程与设计,2011,32(2):615-618.

[5]伏思华,张小虎.基于序列图像的运动目标实时检测方法[J].光学术,2004,30(2):215-217.

[6]LINDEBERCT.Scale-spacetheory:abasictoolforanalyzingstructuresatdifferentscales[J].JoumalofAppliedStatistics.1994,21(2):224-270.

[7]于华平.视频序列中的手势检测与跟踪[D].南宁:广西大学,2010.

[8]QINWEN,PENGQICONG.Animprovedparticlefilteralgorithmbasedonneuralnetworkforvisualtracking[C]//InternationalConferenceonCommunications,CircuitsandSystems.LasVegas:IEEE,2007:765-768.

[9]龚翔.基于粒子滤波的视觉跟踪算法研究[D].南京:南京理工大学,2009.

[10]YUJIAXIA,LIUWENJING,YANGY.Improvedparticlefilteralgorithmsbasedonpartialsystematicresambling[C]//IEEEInternationalConferenceonIntelligentComputingandIntelligentSystems.LasVegas:IEEE,2010:483-487.

[11]朱志宇.粒子滤波算法及其应用[M].北京:北京科学出版社,2010.

[12]FAZLIS,POURHM,BOUZARIH.Particlefilterbasedobjecttrackingwithsiftandcolorfeature[C]//SecondInternationalConferenceonMachineVision.LasVegas:IEEE,2009:89-93.

[13]侯一明,郭雷,伦向敏,等.运动背景下基于粒子滤波的目标跟踪[J].计算机工程与应用,2007,43(8):62-64.

计算机视觉研究的目的范文篇2

关键词:计算机辅助外语教学(CALL);研究视角;评述

[中图分类号]H319.3

[文献标识码]A

[文章编号]1006-2831(2013)05-0028-5doi:10.3969/j.issn.1006-2831.2013.02.008

1.CALL的跨学科性

所谓CALL,就是在语言教学与学习过程中使用计算机进行研究或学习的行为(Levy,1997:1),更具体地说,就是通过对计算机、多媒体、网络等现代信息技术科学、理性、灵活的运用,创造语言学习环境,教授语言知识,训练语言技能,引导语言学习方法,提高语言表达水平(贾国栋,2007)。

从上述定义中不难发现,CALL首先是为了促进语言(包括二语、外语)学习和教学。从学习角度看,CALL必须关注学习者的学习环境、学习特点、学习心理等,这些跟二语习得、认知心理学、心理语言学、社会语言学等学科有着密切的关系;从教学角度看,CALL必须关注相关课程特点、教学特点、教师的信息素养等,这些跟课程开发、语言教学法、教学设计、教师教育等学科有着密切的关系;从技术角度来说,CALL离不开计算机、多媒体、网络等现代信息技术,会受到教育技术学、计算机语言学、人工智能、人-机互动研究等学科的影响。由此可见,CALL涉及了多种学科,极具跨学科性,以下图表示:

CALL的跨学科特征决定了CALL研究的复杂性,因此,要进行某一具体的CALL研究必须选择恰当的研究视角。所谓视角,就是对事件描写的角度,设计观察者与事件的关系。庐山依然是庐山,但从不同角度观看庐山却有不同的视觉效果。对研究者而言,研究视角实际上是研究的理念、观点或立足点。国外相关CALL研究文献可以归纳为基于学习者、基于环境、基于设计等三个维度的CALL研究视角。

2.基于外语学习者的CALL研究视角

2.1“流”理论视角的CALL研究

计算机辅助外语教学的根本立足点是帮助学习者最大限度地提高学习效率,而CALL手段能否引发学习者的兴趣是关键。基于“流”理论的CALL研究给我们提供了很好的启示。

“流”的概念首先是由Csikszentmihalyi提出来的,用以指一种“最完美体验”的心理状态,以高度集中的注意力和完全融入感为特点(Csikszentmihalyi,1989:815)。作为一种内在的回馈式体验,“流”可以使得人们达到一种更高的绩效水平(Csikszentmihalyi,1990:74)。根据该理论,“流”包括诸多变量间的复杂互动:(1)技能与挑战之间的平衡;(2)集中注意力的机会;(3)清晰的目标;(4)对成功的及时反馈;(5)对任务的控制力;(6)自我意识的逐渐消失(一种忘我状态);(7)时间流逝极快的感觉。在这些变量中,技能与挑战之间的平衡最为重要。只有恰当的“挑战”和“技能”匹配,同时学习者必须觉得任务有趣而真实,能将注意力高度集中于完成任务上,那么,学习者就能达到“流”的状态——一种最完美的心理体验。

近年来,“流”理论受到外语教学界关注,并被应用于CALL实践和研究。Trevino&Webster(1992)把“流”理论应用于人与技术的互动体验上;Ghani&Deshpande(1994)研究了个人应用计算机的过程中达到最完美的流状态。张蔚磊(2010)提出了将“流”理论用于计算机外语教学游戏的设计中。

Turbee(1999)的研究是能较好阐述与“流”理论密切相关的、使用MOO(multi-userobject-orienteddomain)进行二语学习的示例。Moo是一个以文本为基础的计算机程序,可供多个使用者在世界各地同时使用,类似于国内的QQ和MSN等聊天工具。在虚拟环境中,外语学习者可与其他人进行实时聊天,也可与其他学习者建立网络虚拟社团。这种类似游戏的氛围,加上学习者可随意控制速度和内容,能引起参与者的极大兴趣,并使他们获得较好的心理体验,因而能达到更高的绩效水平。

“流”理论能较好地解释为什么学习者在CALL环境下完成结构性语言练习要比传统课堂上完成相同的任务成绩更佳。Egbert认为,“流”与CALL之间有着密切的关系,“对于流过程的研究为我们更好地了解二语习得的语境和过程以及CALL的设计和实施提供了有价值的信息。”在Egbert看来,“流”理论广泛运用于教学是个趋势,但目前尚未引起研究者广泛的、足够的研究兴趣(Egbert,2005b:130)。

2.2社会文化理论视角的CALL研究

CALL不仅要关注学习者的心理体验,还应关注学习者所处的社会文化背景。维果茨基的社会文化理论认为,社会文化是影响认知发展的重要因素。人一旦融入到文化产物、活动和概念之中,低级生物便重组为新的、人所独有的心理系统(Lantolf,2006:69)。在维果茨基看来,社会相互作用的影响在高级认知功能的形成和发展中起主要作用。

语言学习中以计算机为中介的交流

(computer-mediatedcommunication,CMC)是CALL研究的热点问题。很多研究者从社会文化视角聚焦CMC。Kern(1995)比较了学生在传统课堂上和在CMC语言交流活动中所使用语言的次数和特点。研究表明,学生在CMC语言交流活动时所使用的语言数量、所使用词法、句法和语言功能的复杂程度都超过传统课堂。学习者的紧张和焦虑感降低。同时,研究也表明,在CMC语言交流活动中,学习者经常会缺乏逻辑性和延续性,提醒教师在组织CMC语言交流活动时,需要认真考虑如何使CMC语言交流活动达到设定的教学目标(Kern,1995:470)。

Warschauer(1997)的研究则表明,实时CMC语言交流活动使得二语学习者有机会能够共同建构知识。与传统课堂的面对面的语言交流相比,这种交流模式使二语学习者的交流机会更多且更加平等。实时CMC语言交流活动将彻底改变课堂教学的社会角色定位,因为学习者被赋予了自主对话的权利,并取代以教师为中心的模式。

社会文化理论为研究CALL提供了更为广阔的研究视角,让研究者重新审视CALL领域的一些核心问题,如计算机在语言学习活动中究竟扮演怎样的角色?计算机能否成为促进学习者心理发展的中介工具?工具和学习者的相互关系如何?在CMC语言交流活动中学习者之间建立了怎样的社会关系?等。

3.基于环境的CALL研究视角

除了关注学习者以外,CALL研究还得关注环境的影响。人机工效学(Ergonomics)是基于环境的CALL研究的一个新视角,它试图描述和诠释人和机器、环境的互动关系(石晓玲,2011:88)。

人机工效学视角的CALL环境首先是外在环境(workenvironment),社会、学校甚至上课的教室都是外在环境。由于外在环境过于复杂,难以控制和观察,以人机工效学方法的CALL研究将考察的重点放在内在环境(workmilieu),特别是工作情境(worksituation)上。内在环境,亦即人文环境,包括文化的、制度的、技术的以及教育的诸多系统,这些系统相互作用并对学习者的行为产生影响。同时,学习者对这种环境的刺激会作出相应的反应,并与之始终处于动态的互动中。而工作情境则是具体的工作场合,侧重点在学习者与任务之间的关联,例如,在某种特定条件下(如有15台电脑的高中电脑房、在教师指导下的半自主学习),学习者与某个特定任务(如听力理解)之间的关联。

Borges&Raby的研究可以说是将人机工效学方法用于CALL研究的范例。该研究比较了教师行为和学生行为在传统教学情境和CALL教学情境中的差异。研究结果表明,教师的教学行为和学生的学习行为在不同情境下都有所改变:传统课堂教学模式中,以语言为重点的课堂活动占课堂时间90%,而指导下的自主(guidedautonomous)教学模式中占56%;但同时在传统课堂教学模式中,用于讨论技术问题的只占3.4%,而在指导性教学模式中,则上升到19%。Raby等人则对学习者在自主学习室(SAR)中的行为表进行了理论探讨和实证研究。这项为期7年的历时研究考查了学习者在SAR中的行为范型(patternsofbehavior),特别是引导下的自主学习系统中的行为范型。

CALL研究的人机工效学视角将人、工具(媒介)、环境置于整体的系统中,考察学习者的学习行为,实际上体现了生态教育观的思想(石晓玲,2011:91)。

4.基于设计的CALL研究视角

有学者认为,基于设计的研究能紧贴教学需要,具有较强的可操作性(Yutdhana,2005:170)。Hoadley(2002)提出了一种较为新颖的观点,即教师和学生应共同参与CALL工具的设计和分析,分享自己的经验、知识及对设计的理解,而不是做毫无发言权的、被动的软件使用者。他们不仅要使用分享现成的CALL产品,还应分享使用心得,并提出改进意见。

4.1辅助工具中的视觉性考量

在全球趋于一体化、多元化、技术化的今天,我们不能忽视非语言手段在生活、学习、工作中的作用。外语课堂中不断增加使用的多种媒体,如图形图像、电子音乐、科学模拟、虚拟剧场等,使“传统的以读写为主的识读能力在多媒体时代已不够用”(胡壮麟,2007),有必要培养学生的多元识读能力,使他们能从多种信息传递和信息网络中理解各种模态的语篇,发展批评性思维的技能,与他人合作并发展跨文化意识(胡壮麟,2007)。

视觉符号的解读是多元识读能力的重要组成部分。CALL语境中,电子文本周围的图像、色彩、板式等视觉符号成为学习者合作性学习时意义协商的重要手段(Petrie,2005:100)。

迄今为止,基于视觉性的CALL实证研究还不多。一些研究只聚焦于文本与视觉的互动,如,Giaschi(2000)分析了外语课本中的插图作用,发现文字未能表达的信息可以通过图像传达,并提醒教师在使用教材时,应注意语言符号与视觉符号在传达信息时的适切性和匹配性。

除课本外,外语课堂中还使用各种电子文档(如word文档、PPT文档)。在这些文档中,视觉符号有可能成为一把双刃剑,既可帮助学习者理解文字信息,也可成为干扰因素(Petrie,2005:100)。

视觉性视角的CALL研究在未来可从三方面切入:(1)在交际能力的理论框架中进行研究;(2)从学生CMC互动过程中的意义协商角度研究;(3)从教学材料等语言输入的可理解性角度研究。

4.2辅助工具中的文化因素考量

所谓“文化”,是指人们认识世界的思维方式、行为方式和价值观,可通过语言、信仰、历史、艺术、法律、礼仪、服饰、食物、环境等得到体现。

互联网工具增强了不同文化之间的交流和互动。目前世界上大多数的网站使用英语,并为英语使用者而设计。语言作为文化重要的表征手段,无疑会反映人们的意识形态(有时甚至是文化偏见)。对英语学习者来说,英语网站和英语学习软件无疑提供了大量语言输入和语言学习的机会,但学习者应意识到这些工具可能暗含着某种文化霸权主义和文化偏见。

CALL研究中的“文化”因素考量体现在:(1)外语课程设置和教学活动应考虑到学习者的文化适切性和敏感性;(2)CMC语言交际活动由于不受地域条件的限制,成为课堂面对面交流的有力补充,但交流双方应考虑到各自的交流风格和文化价值观,以免造成误解;(3)计算机技术和网络技术改变了我们的思维方式和交流方式,但在外语课堂中仍需保持文化多样性,并尽量满足来自不同文化、不同种族的外语学习者的需求。如果条件允许,学习网站、软件和CALL活动应更加具有国际视野(internationallyoriented),考虑学习者的“文化价值观、互动和交流技能……甚至他们的母语”(Brander,2005:142),开发一些对来自不同文化背景的所有用户“有价值的”并“被他们理解的”软件(Brander,2005:147)。

5.研究视角对CALL研究的影响

研究视角对于任何研究来说都是非常重要的,因为对同一研究对象,如果视角不同,那么研究问题、研究方法和研究结果都将会不同。Egbert就认为,研究者应有意识地知道自己的研究视角,这样研究结果才具有科学性和合理性(Egbert,2005a:7-8)。

例如,我们将上述所讨论的研究视角运用于某个词汇学习软件辅助外语学习的研究中,则结果会大相径庭(见下表):

6.结束语

由于CALL由多个变量组成,如果研究者聚焦其中某个或几个变量,那么研究视角就会发生改变。基于“流”理论的CALL研究强调外语学习者学习过程中积极的心理体验;而社会文化视角则可能聚焦CMC交流互动中师生关系和角色定位的改变;人机工效学视角关注CALL系统中人-工具-环境的互动关系;基于设计的研究视角则关注CALL语境中的文化差异,或视觉符号与语言符号的互补关系。

以上研究视角只是整个CALL研究全貌图的一部分,未能(也无法)穷尽所有CALL研究的研究文献,因为CALL技术、教学实践和研究都一直处于动态发展中,但我们仍能从中窥见CALL研究的冰山一角并从中得到某种启发。

参考文献

Brander,B.G.ConsideringcultureinCALLresearch[A].J.L.Egbert&G.M.Petrie(eds.)CALLResearchPerspectives[C].London:LawrenceErlbaumAssociates,Inc,2005:141-153.

Csikszentmihalyi,M.Theoptimalexperienceinworkandleisure[J].JournalofPersonalityandSocialPsychology,1989(56):815-822.

Csikszentmihalyi,M.Flow:ThePsychologyofOptimalExperience[M].NewYork:Harper&Row,1990.

Egbert,J.L.ConductingresearchonCALL[A].InJ.L.Egbert&G.M.Petrie(eds.)CALLResearchPerspectives[C].London:LawrenceErbaumAssociates,Inc,2005a:3-8.

Egbert,J.L.FlowasamodelforCALLresearch[A].InJ.L.Egbert&G.M.Petrie(eds.)CALLResearchPerspectives[C].London:LawrenceErbaumAssociates,Inc,2005b:129-139.

Ghani,J.&Deshpande,S.Taskcharacteristicsandtheexperienceofoptimalflowinhuman-computerinteraction[J].JournalofPsychologyInterdisciplinaryandApplied.1994(128):381-392.

Giaschi,P.Genderpositioningineducation:acriticalimageanalysisofESLtexts[J].TESLCanadaJournal,2000(1):32-47.

Hoadley,C.Creatingcontext:Design-basedresearchincreatingandunderstandingCSCL[A].G.Stahl(ed.)ComputerSupportforCollaboratingLearning[C].Mahwah,NJ:LawrenceErlbaumAssociates,2002:453-462.

Kern,R.G.Restructuringclassroominteractionwithnetworkedcomputers:effectsonquantityandcharacteristicsoflanguageproduction[J].TheModernLanguageJournal,1995(79):457-476.

Lantolf,J.P.Socioculturaltheoryandsecondlanguagedevelopment:State-of-the-art[J].StudiesinSecondLanguageAcquisition,2006(28):67-109.

Levy,M.Computer-assistedLanguageLearning:ContextandConceptualization[M].NewYork:OxfordUnversityPress,1997.

Petrie,G.M.VisualityandCALLresearch[A].J.L.Egbert&G.M.Petrie(eds.)CALLResearchPerspectives[C].London:LawrenceErlbaumAssociates,Inc,2005:97-107.

Raby,F.Auser-centeredergonomicapproachtoCALLresearch[A].Egbert,J.L.&G.M.Petrie,G.M.(eds).CALLResearchPerspectives[C].London:LawrenceErlbaumAssociates,Inc.2005:179-190.

Trevino,L.&Webster,J.Flowincomputer-mediatedcommunication:Electronicmailandvoicemailevaluationandimpacts[J].CommunicationResearch,1992(19):539-573.

Turbee,L.LanguagelearningMOOtheoryandpracticalapplication[EB/OL].,1999.

Warschauer,M.Computer-mediatedlanguagelearningwithdesktopvideoconferencing[J].LanguageLearning&Technology,1997(4):470-481.

Yutdhana,S.Design-basedresearchinCALL[A].J.L.Egbert&G.M.Petrie(eds.)CALLResearchPerspectives[C].London:LawrenceErlbaumAssociates,Inc.,2005:169-178.

胡壮麟.社会符号学研究中的多模态化[J].语言教学与研究,2007(1):1-10.

贾国栋.计算机辅助语言教学——理论与实践[M].北京:高等教育出版社,2007.

计算机视觉研究的目的范文篇3

【关键词】SIFTHu单目视觉识别算法研究

单目视觉技术在现阶段被广泛应用在工业的在线识别系统中,为工业自动化的发展提供了良好的支持,得到了越来越多相关人士的重视,特别是在对物体识别和定位处理上有着广阔的应用前景。单目视觉技术中的目标识别定位大多以图像匹配技术为基础,按照不同匹配基元、匹配方法来对物体进行区域匹配、相位匹配以及特点匹配等。机器的单目视觉技术匹配识别算法由传统的实验室应用转为实际应用,比如利用该视觉识别方法对行人和车辆进行有效识别的实际应用。文章提出了一种基于SIFT和Hu融合的单目视觉识别算法,通过这种算法能够对物体目标在运动、声音、遮挡等因素干扰的情况下进行有效匹配,同时提升匹配的效率。因此有必要具体对此算法进行分析和研究。

1基于SIFT和Hu特征融合的算法的总体设计

基于SIFT和Hu特征融合的算法流程是三维目标识别系统的关键,对其具体的工作方式有着决定性作用,步骤体现在以下几方面:

1.1单目摄像机的标定标准

摄像机标定的目的是实现三维图像坐标和世界坐标之间关系的建立,继而有效识别三维目标,为接下来的抓取处理做铺垫。

1.2实现对图像的采集

主要是利用单目摄像机来对三维物体的图像序列进行采集,以太网的作用下将其信息传输到计算机内部,并在视觉软件的应用下对其应用模式进行识别和处理。

2基于SIFT和Hu特征融合的算法的分层设计研究

2.1单目摄像机的标定

基于SIFT和Hu特征融合的算法中单目摄像机的标定是其算法检测领域中的关键问题,标定参数的精确程度对最后的测量结果有着直接的影响,因此,需要对单目摄像机的标定进行关注。单目摄像机的标定一般包括对摄像机几何模型的确定以及对模型参数设置两方面内同。摄像机的标定法多数应用的是棋盘格标定模板,利用摄像机拍摄的三种模板图像特点来确定最终的参数。

2.2对Hu不变矩的确定

矩是由概率理论衍生出来的一种重要数字特征,具有直观的物体意义。Hu不变矩是由叫做Hu的人提出的一种二维不变矩理论,主要是用来对图像平移、图像大小、图像旋转等特征获取的方法。其匹配的实质是根据已有的图像特点来从目标测定的图像中寻找相似图像的过程。基于SIFT和Hu特征融合的三维物体特征获取主要使用的是Hu不变矩方法。这几种矩阵在平移、位移以及旋转的情况下保持了不变的特性。这种矩阵布局特征在总体上反映了三维物体图像的总体信息,包括对三维物体图像位置信息的全面确定。

2.3SIFT目标识别

全局特征虽然在总体上对三维物体图像的整体信息进行了反应,且能够对特征进行匹配。但SIFT能够从不变的关键点中来提取出图像的特征信息,是相对于全局特征而言的一种局部特征提取算法。基于SIFT和Hu特征融合的单目视觉识别算法对SIFT目标识别的应用能够在搜索方式和对错输的剔除上进行改进,进而提升识别的及时性。

SIFT能够根据三维目标的信息来对局部信息进行匹配,进而有效提升识别算法的时间,具体包括以下几个步骤:首先,实现对尺度空间的构建,加强对极值点的检测,从而获得不变性的尺度。具体的空间定义公式如下所示,其中,I指的是二维图像,G指的是二维高斯函数,(x,y)是空间坐标。计算出的值越小则代表图像被平滑的可能性越小,对应的尺度也越小。计算出的小尺度一般用来对图像特征的检测,大尺度一般用来对图像概貌特征的检测。

DoG算子和尺度归一化的函数计算公式采用的是高斯金字塔方法,不同尺度因子的高斯核对图像卷积得到的图像尺度空间不同,通过层层依次类推能够得到最终的第三层高斯图像。之后将获得的高斯图像以层层递减的方式对每层图像相减。这种图像的函数和归一化的高斯拉普拉斯图像函数计算方法相似,因此能够从高斯差分结构图像中提出具有局部特征的点。将DoG尺度空间计算获得的点和相邻的尺度位置点进行比较,能够得到局部极值的具置点信息和对应的尺度。

3总结

综上所述,基于SIFT和Hu特征融合的算法对三维物体特征的识别和研究具有重要的意义,通过这种融合算法能够有效完成三维物体识别的匹配任务,同时,在视觉算法库的环境下能够实现对仿真软件的编制。因此,需要有关人员不断加强对SIFT和Hu特征融合的算法的研究,进而更好地实现准确、快速的三维物体目标识别定位。

参考文献

[1]李中生,赵彬,刘振宇,赵雪,田立敏.基于SIFT和Hu特征融合的单目视觉识别算法研究[J].微型机与应用,2013,13:41-45.

[2]李中生.机器视觉在机器人码垛系统中的应用研究[D].沈阳工业大学,2014.

[3]赵旭.人体运动的视觉重建与识别[D].上海交通大学,2011.

[4]朱旭锋.基于图像不变量特征的自动目标识别技术研究[D].中国科学院研究生院(西安光学精密机械研究所),2012.

作者简介

孙长江(1972-),男,山东省人。现为新疆金牛能源物联网科技股份有限公司高级工程师。大学本科学历。研究方向为物联网感知层技术开发。

谢欣岳(1985-),男,陕西省人。现为新疆金牛能源物联网科技股份有限公司工程师。在读研究生。研究方向为电子工程嵌入式开发。

计算机视觉研究的目的范文篇4

虚拟现实

简称VR(VirtualReality),也叫灵境技术,是一套由计算机仿真系统创建出来的虚拟世界。通俗讲,就是使用技术手段,让人身临其境,并可以与这个环境进行交互。这套技术主要包括模拟环境、感知、自然技能和传感器各等方面,除了计算机图形技术所生成的视觉感知外,还有听觉、触觉、力觉、运动等感知,甚至还包括嗅觉和味觉等多感知。目前,虚拟现实技术已经应用于医学、军事航天、室内设计、工业仿真、游戏、娱乐等多个行业。

认知计算

认知计算出自于IBM人工智能超级计算机“沃森”的称谓,而现在,它更多的代表着一种全新的大数据分析方式。随着信息的增加,计算机可在已有经验的基础上随着时间推移,以学习的、交互的方式,随着数据的进一步增长逐步提高认知的分析行为,就像大脑会自然而然地做事情,“认知计算”是人工智能和大数据的“联姻”。

深度学习

深度学习DeepLearning的概念源于人工神经网络的研究。机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。自2006年以来,机器学习领域,取得了突破性的进展。图灵试验(图灵,计算机和人工智能的鼻祖),至少不是那么可望而不可及了。在技术手段上不仅仅依赖于云计算对大数据的并行处理能力,而且依赖于算法。这个算法就是DeepLearning。借助于DeepLearning算法,人类终于找到了如何处理“抽象概念”这个亘古难题的方法。

DT时代

顾名思义,应该是DataTechnology,数据处理技术。这个词虽然很早就被人提出了。但是直到2015年3月的IT领袖峰会上,马云演讲中提出“从IT时代走入DT世界”之后才在中国火热起来。马云称,二者的区别在于,IT时代以“我“为中心,DT时代则以“别人”为中心,让别人更强大,开放和承担更多的责任。

量子计算

量子计算,是当前最热门的研究领域。相对于普通计算机,基于量子力学特性的量子计算机,拥有超乎想象的并行计算与存储能力,求解一个亿亿亿变量的方程组,具有亿亿次计算能力的“天河2号”需要100年,而万亿次的量子计算机理论上只需要0.01秒就可解出。当量子计算机应用之时,现在的密码破译、基因测序等科学难题,将可迎刃而解。

人脸识别

是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术,通常也叫做人像识别、面部识别。人脸识别产品目前已广泛应用于金融、司法、军队、公安、边检、政

府、航天、电力、工厂、教育、医疗及众多企事业单位等领域。随着技术的进一步成熟和社会认同度的提高,人脸识别技术将应用在更多的领域。

计算机视觉

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。形象地说,就是给计算机安装上眼睛(相机)和大脑(算法),让机器能够感知环境与对象。我们中国人的成语“眼见为实”和西方人常说的"Onepictureisworthtenthousandwords"表达了视觉对人类的重要性。不难类比,机器有了视觉以后的前途是不可估量的,例如:智能机器人、智能视频监控、新型人机界面等等。

人工智能

人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。其所使用的技术旨在根据数据和分析赋予计算机能够做出类似人类的判断。该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。

智慧城市

“智慧城市”是一个非常火热的词。但在很多人看来,这一高大上的话题显得既陌生又遥远。其实,智慧城市建设早已通过各种不同的展现方式渗入到了我们的日常生活中,并从众多方面来改变我们的生活,比如智能家居、智能可穿戴设备以及工业4.0等。智慧城市实际上就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。

独角兽

独角兽企业原本是美国风投界的术语。用来描述估值超过10亿美元的初创公司。这些企业最初通常是以软件为主,但现在渐渐包括了其他领域的行业。到2015年8月止,在独角兽企业名单上排行在前的企业有Uber(交通),小米(电子消费品),Airbnb(住宿),Palantir(大数据)和Snapchat(社交媒体)。

由独角兽衍生而来的词:

十角兽:指估值超过100亿美元的初创企业。

超级独角兽:super-unicorn,指估值超过1千亿的公司,例如Facebook。

独角鲸:加拿大技术独角兽一般被称为“独角鲸”。

雾计算

雾计算(FogComputing)是云计算的延伸概念,是对云计算的扩展。由思科(Cisco)首创。这个因“云”而“雾”的命名源自“雾是更贴近地面的云”这一名句。有别于云端计算,雾计算所采取的架构更分散、更接近网路边缘,将计算、通讯、控制和储存资源与服务,分配给用户或靠近用户的设备与系统。雾计算是以个人云,私有云,企业云等小型云为主,以量制胜,强调数量。

区块链

对大众而言,区块链的概念最先出现在比特币的相关论述中。区块链就是比特币的底层技术基础。比特币只是区块链的最为出名的一个应用。区块链(Blockchain)是在没有中央控制点的分布式对等网络,使用分布式集体运作的方法,实现一套不可篡改的,可信任的数据库技术方案,其特点为去中心化存储、信息高度透明、不易篡改等。通俗点说,就是利用计算机程序在全网记录所有交易信息的“公开大账本”。数据区块记录了整个数字货币网络上的交易记录数据,并且这些数据是被所有数字货币节点共享的。通过数据区块,我们可以查询到每一笔数字货币交易的历史。

区块链的核心,是一个全球性的分布式数据库,它不仅仅能够记录金融交易,它几乎可以记录所有有价值的东西:出生证明、死亡证明、结婚证、教育程度、财务帐目、医疗过程、保险理赔、投票……任何可用代码来表示的东西。

数据湖

计算机视觉研究的目的范文1篇5

关键词:人工智能;机器人;智能系统

DOI:10.16640/ki.37-1222/t.2017.01.113

0引言

智能机器人是指通过设备的安置和程序的设定,促使机械设备具有记忆、感知、推理等多种能力,能够向人脑一样对外界情况进行判断和分析,进而躲避障碍物,或者是按照要求完成具体的工作任务。人工智能化的研究是在工业生产和计算机技术发展的领域基础之上而开展的,本项研究内容有50多年的发展历程,将多种知识和技术进行有效的融合,将其应用到实践领域,进而推动生产的发展和技术的进步。

1人工智能主要研究内容

(1)模式识别。在人工智能研究系统中,其所研究的模式识别就是充分利用计算机技术,通过计算机技术中所设定的程序来模拟人类对外界功能的感知,进而建立的智能识别系统。运用计算机系统来模拟人类的感知和识别能力,利用自身数据系统中所具有的资料信息来出俩相关的文字、表格、声音、图像等内容。模式识别主要经历信息采集、预处理、基元提取、模式分类等几个步骤。

(2)机器视觉。机器视觉是建立在模式识别的基础之上而发展的新的技术,其不仅模拟人的视觉中的识别功能,同时还模拟人的理解功能。在本阶段的研究中不仅攻克多个技术研究难题,同时也将其作为一个独立的学科,向更深、更广的领域进行研究。在机器视觉的研究阶段,其研究的主要内容是模拟人类的视觉,机器能够捕捉到外界的信息、自然景物等内容,对其进行分析进行形成图像[1]。机器视觉的研究是为了赋予机器具有人的视觉功能,通过立体视觉、视觉检验、动态图像分析等方式的运用,理解图像的内容并对其定位,进而向机器人运控控制系统反馈机器人的状态及目标等多种信息。

(3)机器学习。机器学习是其向智能化发展的关键技术,通过模拟人类的智能来获取知识,进而更好地满足应用的需求。随着生产的发展对机器人的工作提出了更高的要求,所以机器人想要在复杂的环境下完成多项任务要求就要学习,进而对自身的功能进行调整。首先机器学习是让其在环境交互的过程中获得大量的信息并对其进行分析,进而提高机器人适应环境的能力。其次是通过学习可以提高机器人的智能化水平,进而应付环境所带来的变化,解决突发状况下所出现的问题。再次是机器人学习可以弥补设计中所存在的缺陷,降低设计人员的劳动强度[2]。通过学习,机器人能够应对复杂多变的环境,自身进行调整,进而提高其运行效率。

(4)分布式人工智能。分布式人工智能是将分布式计算机与人工智能进行结合,提高其智能化的应用水平。此种系统的应用能够在快速变化的环境中捕捉到变化的信息,提高机械设备的协同工作能力。现阶段分布式人工智能系统尚不能独立工作,需要在团结写作的过程中来完成具体的工作内容,掌控规则和知识等内容,进而保证技术和动作的协调性。

2人工智能在机器人领域的应用

2.1人工神经网络在机器人定位与导航中的应用

人工神经网络是模拟人类的视觉神经系统,对其所收集的信息进行处理,其应用的优越性主要表现在如下几个方面:一是有效处理难以用规则和模型来描述的系统;二是其信息的融合能力较高;三是统一描述非线性系统。鉴于人工神经网络所具有的信息感应、传输、数据图形处理等方面的功能,将其应用到机器人系统中,促使机器人能够对自身进行精准定位,评估并避开障碍物[3]。在定位和导航系统中,充分运用人工神经网络所具有的功能,搜索数据信息并传输和处理数据信息,对空间物质精确测量,能够更好地抓取目标物质移动和运行的轨迹。

2.2专家系统在机器人控制中的应用

在机器人的研究过程中,理论和实践均取得了较好的研究成果,但主要是建立在合适的数学模型技术之上所进行的控制理论研究。机器人虽然在人工的设定下模拟人脑在进行工作,但由于机器人动力学的时变性、非线性和变惯量等复杂现象的存在,很难确定其参数内容,并对其进行计算,所以减少计算方式,提高其智能性的专家系统出现,并应用到机器人控制系统中。采用专家系统的智能控制极大地减少了运算量,能够更好地面对复杂的外界环境,进而提高机器人对外界的反应速度[4]。同时专家系统比较使用,将其与常规的控制系统经重新给有效的结合,不仅提高了系统辨识模型的能力,具有较高的故障诊断能力,进而提高机器人的控制能力。

2.3进化算法在机器人路径规划中的应用

路径规划是最近几年在机器人研究领域中比较活跃的内容,通过按照约束条件来所有相关信息,从起始状态逐渐过渡到最优状态。现阶段路径规划的研究中,主要应用遗传算法和蚁群算法,推动机器人向更加智能化的方向发展。遗传算法中采用了基于路点坐标值的可变长染色体编码方式来对路径进行规划,有效地排除障碍物,并将其应用到具体的路径规划问题中,提高路径搜索的效率,进而让移动机器人的路径规划取得较好的发展成果。

3结论

随着生产的发展,智能机械设备逐渐应用到生产、生活的多个领域。智能设备的应用不仅提高了生产效率和产品质量,同时也解决了生产中人工难以攻克的技术难题,为企业创造了巨大的经济效益和社会效益。机器人作为人工智能研究领域的重要分支,其研究的深度和广度不断推进,随着理论研究和实践操作方式的进步,机器人已经从最初的替代手工作业的方式来从事简单、重复的工作内容逐渐向智能化过度,能够对环境进行分析和调整,从事更加复杂的工作内容,并且工作质量和工作效率高于人工的操作方式。随着机器人研究的深入并投入到实践领域,机器人必将有着更加广阔的发展前景。

参考文献:

[1]尹强,高全杰,曾艳红,陈三华,李公法.人工智能在特种机器人中应用的研究探讨[J].机床与液压,2012(02):126-129.

[2]蔡自兴.人工智能在冶金自动化中的应用[J].冶金自动化,2015(01):1-8.

[3]王敏.智能控制在机器人领域中的应用[J].电子技术与软件工程,2016(20):162.

计算机视觉研究的目的范文篇6

Abstract:Surfacedefectdetectionisanessentialandimportantlinkinthesystemtoensurethequalityoftheproducts.Surfacedetectiontechnologybasedonmachinevisionimagingmethodhasbecomeameansofreformonlinesurfaceinspection.Thispaperanalyzesthemeansofdetection,andgivesthemethodstoresearchLEDlightsourcedesign,surfacedefectvisualimaging.

关键词:表面缺陷检测;视觉检测;LED光源

Keywords:surfacedefectdetection;visualinspection;LEDlightsource

中图分类号:TP391文献标识码:A文章编号:1006-4311(2014)16-0057-02

0引言

机器视觉检测技术是用视觉传感器和计算机组成的采集与控制系统对被测对象进行成像,再利用图像处理技术提取被测量信息的测量技术。机器视觉检测系统通常由视觉传感器、计算机采集与控制、图像处理三大模块组成,其中视觉传感器是由特定的照明光源和成像器件组成。在机器视觉表面缺陷检测量方法上关键要解决照明方法与成像方法两个问题。

1LED光源照明的打光技巧与LED光源模组设计分析

在视觉检测中,LED光源的设计,是实现正确打光技巧的前题。打光方法是否合理关系到目标信息是否能准确的摄取。因此,LED光源设计与打光技巧是视觉检测中的关键问题。

首先在理论上解决以下两个问题:一是明场照明与暗场照明、直接照明与散射照明、倾斜照明与同轴照明、投射照明、偏振照明等照明方式同表面粗糙度和表面特征之间的关系;二是照面光源的色温和光谱特性同目标特征的颜色以及背景颜色之间的互补关系,以及光谱与色温对目标特征增强的影响规律。

然后以光的反射、散射等物理光学及光度学为理论基础,以LightTools和TracePro为光源设计工具软件,结合图1对LED光源的要求,研究LED光源照明的打光技巧和LED光源的设计原理和方法。

2表面缺陷视觉在线检测中大孔径远心光路成像技术分析

不论是点扫描成像、线扫描成像还是帧成像,通常在图像传感器的前方需要放置一个物镜,在特定的照明方式下,在特定的空间位置,把含有表面缺陷信息的散射光场汇聚到图像传感器的感光面上。由于成像物镜一般都有有限的孔径,在近几年的研究中发现,这种小孔径视觉成像,在大面积表面缺陷测量中,对很多缺陷不敏感,要解决这个问题,需要研究采用大孔径远心光路成像。而在大面积表面缺陷检测中,大孔径远心光路系统又很难实现。

以往的研究中发现用线阵扫描方法或面阵摄像机直接对被测表面成像时,即使摄像机的分辨率很高,有时都难以分辨表面上的微观缺陷,主要原因是摄像机镜头的孔径大小改变了光线的传播方向。为了解决这个问题,只有让散射光场中的光线平行地投射到感光面上,即采用远心光路系统。图1给出了高速线阵扫描的两种可能的视觉成像方式。

3表面缺陷计算机自动识别技术分析

采用计算机从视觉图像中自动识别表面缺陷,在理论上与实际应用中一直都是一个非常难的问题,尤其是复杂背景的视觉图像中表面缺陷的自动识别。这通常是表面缺陷在线检测中的一个主要瓶颈。不过近些年来,随着数学形态学、计算机纹理分析技术与模式识别技术的发展,各种新的自动识别方法不断出现,为表面缺陷的自动识别在理论与方法上提供了很好的支持。

目前研究工作中,常用的途径是采用数学形态学与纹理分析等分类法。如Anand等人对焊接的缺陷图像首先利用Canny算子探测出缺陷的边界,再用膨胀法连接哪些相似的边界,用腐蚀去除掉哪些不相干的边界,最后根据缺陷的特性进行分类。Chetverikov等人在视觉检测具有规则纹理结构表面的缺陷时,采用形态学对纹理中的缺陷进行增强,然后根据纹理的规则性与局部方向性把缺陷从纹理图像中分离出来。

可以分析得出,将数学形态学与计算机纹理分析技术结合起来,进行表面缺陷的自动识别技术研究将是一种可行的方法。形态学方法一般比较适合用于表面缺陷视觉图像的前期处理,因为用它对缺陷图像进行变换,可以增强表面缺陷的特征,但是它难以单独完成缺陷的自动识别任务。纹理分类有四大种类,每个种类有许多不同的分类方法,利用纹理中的特征值或函数,可以完成图像自动识别。但是在纹理分类法中,目前现有的分类方法对复杂的纹理图像识别精度不是很高,有时难以胜任表面缺陷在线自动检测的需要。因此如果把形态学方法与纹理分类法结合起来,也许是一条比较好的提高自动识别精度的途径。

参考文献:

[1]A.Anand,P.Kumar,“Flawdetectioninradiographicweldimagesusingmorphologicalapproach,”NDT&EInternational,Vol.39,2006:29-23.

[2]D.Chetverikov,A.Hanbury,“Findingdefectsintextureusingregularityandlocalorientation,”PatternRecognition,Vol.35,2002:2165-2180.

计算机视觉研究的目的范文篇7

Abstract:Withthecontinuousprogressofindustry,theintroductionoftheautomationhasrevolutionizedthemanufacturinginwhichcomplexoperationshavebeenbrokendownintosimplestep-by-stepinstructionthatcanberepeatedbyamachine.Atthesametime,visionsystemsgreatlyenhancethecapabilitiesofrobotsandallowthemtobeappliedtocomplextaskswithindynamicenvironments.Inthispaper,the"machinesubstitutions"fromthepointofview,thevisualsystemandindustrialrobotcombinedwiththemachinetoolfeedingandcuttingwork.Thiswillnotonlyreducethepressureonworkers,butalsocanimprovetheefficiencyoftheproductionlinetopromotethedevelopmentofindustrialautomation.

关键词:自动化;视觉系统;机器人;机器换人

Keywords:automation;visualsystem;robot;machinesubstitution

中D分类号:TG502.31文献标识码:A文章编号:1006-4311(2017)14-0131-03

0引言

我国的视觉机器人发展相对国外比较缓慢,真正开始研发开始于上世纪80年代末期,一开始是在科研能力上借助他人的成果进行模拟,随着改革开放的实施,引入了相当多的国外人才,这些为视觉机器人的发展奠定了基础[1]。目前我国的视觉机器人还处于研发阶段,在一些高校和企业中有不少的研究成果,但是在市场生产和应用中还没有一套真正属于自己的系统。

在我国,虽然对于不同领域的机器人已经开始推广应用,但很多都是在国外研究的基础上加以改进或进行二次开发,总体的研究水平仍和国外存在一定的差距,视觉机器人更是处在研究的初级阶段,因此,对于视觉机器人的研究、开发和使用具有重要的意义。

本文研究的意义在于从“机器换人”的思想角度出发,将视觉与工业机器人相结合起来应用于机床上下料系统,以此来适应对多样化工件的加工,为了满足不同环境下的生产工作,把视觉传感器置于机器人末端执行器部位,实现随动和实时分析,从而提高生产效率和灵活性,为工人减轻工作压力,同时推动工业自动化发展。

1整体的结构设计

为了实现通过视觉引导机器人完成工件的上下料过程,首先需要图像传感器先获取到由传送带传输过来的工件的位置,然后通过对图像的处理分析,得到工件的形状和准确位置,通过笛卡尔坐标系的转换矩阵,获取工件在世界坐标系下的位置,再通过机械手的控制系统来实现机械手的抓取工作。

其中,传输系统主要包括传送带装置;图像处理系统主要包括补偿光源,图像传感器以及负责图像分析的计算机算法技术;机械手系统主要包括机械手本身,与之相匹配的控制柜,和负责抓取工件的夹具;为了满足不同种类的工件,末端夹具采用了快换装置,方便替换不同夹具来抓取工件。具体布局如图1所示。

2视觉工作原理及摄像机的标定

2.1视觉工作原理

通过对视觉系统的研究可以让机器人能够像人一样“看”清对象,并了解作业对象,对被加工对象有比较直观的认识,从而更好的适应多变的工作环境。计算机的视觉定位是根据“寻位-加工”的方法实施的,其中“寻位”是模仿人去识别感兴工件在空间中的相关信息,通过计算系统建立仿生视觉模型进行相关的计算和处理。

计算机的视觉系统包括工件状态的捕获和对图像的计算,根据得到的结果完成信息的传输。其中图像的获取主要包括光照的补偿、CCD相机和配套的镜头等设备;图像的分析处理一般是通过相关的算法在软件中完成;结果的显示是通过显示设备显示经过处理后的特征图像。信息的传输是把得到的位姿信息传送给相关的执行设备,最终完成动作的实现。

目前的视觉研究中,双目视觉的研究过程存在空间匹配难、可视区域小等特点,在单目视觉中却不需要考虑这些,而且单目视觉相比立体视觉的标定步骤少,结构的设计也不繁琐。单目视觉定位的方式有:几何光学法、几何形状约束法、辅助棒间接测量法、激光辅助测距法等。因为视觉传感器在结构上受到一定的限制,所以上述大多数方法只有在对固定的被测物体进行近距离成像的条件下才会有效。而且单目视觉定位系统不用考虑双目摄像机之间距离的约束,所以在实际的工作坏境中适用性更好。

视觉定位系统完成上下料工作过程图如图2所示。

2.2摄像机的标定

对相机进行标定是机器视觉作业中非常必要的问题,这是获取相机几何参数的过程。从拍摄的图像出发,计算物体的相关信息并重建物理模型,物体和图像之前的关系是由相机的内外参数联合决定的。对相机进行标定的步骤就是寻找图像和物体的对应关系的过程。相机的内部参数是指决定了相机的理想成像和实际成像之间对应关系的相关信息;相机的外部参数主要包括相关的变换矩阵[2]。

目前存在的相机标定技术根据方法不同主要分为三种:第一种是传统的相机标定法;第二种是主动视觉相机标定法;第三种是相机的自标定法。传统的相机标定法是根据已知物体的形状和几何参数,通过相关的计算,得出相机的内外部参数,这种标定方式适用范围广,而且标定的精确度高,但标定步骤繁琐;主动视觉相机标定法需要先取得某些动态参数,通常能够进行线性运算,有较高的鲁棒性,但不适用于相机动态参数未知的情况;相机的自标定法是通过多个图像之间存在的某种关联进行标定,虽然比较灵活,但该方法是非线性标定,而且它的鲁棒性不好。

在进行相机标定之前,还需要先研究相机的成像模型,一般选用理想的针孔模型为例,这也是相机成像模型中最简单的成像方式,如图3所示。

因为图像处理的最终目的是要获取感兴对象的形状和位姿,所以建立了如图3所示的相关坐标系。

①像素坐标系(Ouv):它是用于描述像素位置所使用的坐标系。相机获取的图像最终是以M×N形式的数组进行存储的,像素的数值在图像上表现为该点的亮度,像素坐标系的建立如图中所示。

②平面坐标系(oxy):该坐标系建立在相机的图像平面上,其中横向为x轴,纵向为y轴,坐标的原点是相机的光轴与图像平面的交点。

③相机坐标系(ocxcyczc):该坐标系的建立是以相机的光心为坐标系的原点,xc轴、yc轴平行于图像平面中的x轴和y轴,zc轴与相机的光轴一致。

④空间坐标系(OWXWYWZW):它是固定于场景中的坐标系,为了方便后期的计算,空间坐标系的设定和机器人的基坐标系相重合。

空间坐标系中某点的坐标和该点在像素坐标系中的位置有如下关系:

其中,(xw,yw,zw)表示是某点在空间坐标系中位置,(u,v)是该点在像素坐标系中的位置,矩阵A是指相机的内部的几何参数,sx和sy是指相机的焦距,单位为像素,[RT]是相机的外部几何参数,该公式描述了像素坐标系和空间坐标系之间的转换方式。

根据本文的作业要求,最终选用了传统标定方式中的张正友平面标定法。此方法是张正友教授在1998年创建的一个处在传统标定法和自标定法之间的标定方式[3]。有效的避开了传统方法中对设备的高准则以及标定过程的麻烦,而且标定的结果比用自标定方法的精确度好,具有良好的鲁棒性,它的出现推动了计算机视觉应用的脚步。

3图像的处理

用计算机处理图像时,图像首先会被数字化,然后被表示成矩阵的形式,其元素对应于图像中相应位置的亮度。在图像进行采集过程中采集到有用信息的同时也会采入大量的背景信息,会因为噪声、辐照度以及物体表面的反射特性等原因使图像不理想,为了只获取图像中的有用信息,需要先对采集到的图像进行处理。

图像处理的整体过程如图4所示。

3.1图像的平滑处理

因为噪声在真实世界的每个测量中都是固有存在的,所以要想办法抑制噪声对图像的影响,而平滑的目的就是在于抑制噪声或其他小的波动,它可以根据数据的冗余性对图像含有的噪声进行抑制,所以我们首先需要对相机获取的图像进行平滑处理。平滑处理常用的方法有:均值滤波法,中值滤波法和高斯滤波。通过实验对比可以发现,中值滤波能够保证图像边缘清晰的情况下抑制图像中的椒盐噪声,所以本课题最终采用中值滤波对图像进行处理。

3.2图像增强

增强的目标是通过不同的方法来让感兴区域变得更加明显,可以根据需要扩大目标的特征值,增加对比度,提高图像的清晰度。本文中选用频率域法对图像进行增强处理。

3.3图像的阈值分割

分割算法是基于强度值不连续和相似性的两个进本属性展开的研究。第一类是基于强度的突然变化来分割图像,例如图像的边缘。第二类是将图像分割成和预定义的标准相似的区域,例如直方图阈值法。

图像的阈值问题作为图像处理中的一个重要问题,它不仅可以减少图像包含的数据,还为目标的识别和图像的理解打好了基础。灰度阈值化是最简单的分割处理。阈值技术可以分为两类:全局阈值和局部(自适应)阈值。本文中选用的是阈值化中的一种自动阈值检测法,其处理的结果如图8所示。

3.4边缘检测

目标的识别需要获取工件图像的特征点信息,这些点是从图像轮廓中获取到的。通过锐化的方法可以增强图像的边缘细节、轮廓和灰度跳变部分,得到连续的边界,这对后期的判断有很重要的作用。对于一般的滤波方法得到的结果虽然能够抑制噪声,但也会让图像的边缘变得模糊。本文所采用Canny算法作为边缘的检测工具,最终处理的效果如下。

3.5中心点的提取

本课题中所选工件的厚度是均匀的,所以可选择通过求重心的方法来获得中心位置,假设工件的密度函数为?滓=(x,y),则工件的质量可以表示为:

坐标值的显示结果如图11所示。

把得到的坐标值通过相关的笛卡尔转换坐标处理后,得到可供机器人控制器识别的信息,从而引导机器人自动完成工件的上下料工作。

4结束语

本文首先设计出了由视觉引导的机床上下料系统整体结构,然后根据摄像机的工作原理,对选用的摄像机进行标定,通过计算机对图像进行相关的处理,最终得到工件在工作环境中的具姿,最终引导机器人完成工件的上下料工作。

参考文献:

[1]田涛,邓双城,杨朝岚,张泽.工业机器人的研究现状与发展趋势[J].新技术新工艺,2015(3):92-94.

计算机视觉研究的目的范文1篇8

[关键词]行人检测;夜间行车安全;社会价值

[DOI]1013939/jcnkizgsc201615045

随着人们生活水平的不断提高,汽车已成为我国代步工具中的一大种类。据国家公安部通报,2013年,全国汽车增加1651万辆、驾驶人增加1790万人。方便之余,随之而来的交通安全问题,却成为威胁人们生命的不可忽视的关键。据交通部透露,交通事故在夜间行车中发生的概率较高。有数据显示,虽然40%左右的交通事故在夜间发生,但却有高达60%的事故死亡率。由此可见,夜间行车的危险指数远远高于白天行车。因此,夜间行车安全应该得到更多的重视。

1夜间行人检测研究的社会价值

产生夜间行车安全问题的因素[1]主要有两个:其一,也是夜间交通事故发生的主要原因,是由于夜间光线较暗,驾驶员视角窄,视线模糊,不能准确地对路况进行预判,对潜在危险的处理滞后;其二,根据人体生物钟规律变化,夜间驾驶员身体的各方面机能都有明显下降,加之行车过程视觉效果不好,可依赖的条件少,为了准确、快速地对速度和距离进行判断,行车过程中驾驶员必须注意力高度集中,更容易产生紧张情绪,易疲劳。而中国城市人口密集度高,行人、自行车、电动车交错穿行,机动车驾驶员稍有不慎,就容易产生碰撞冲突,造成事故伤亡。针对中国交通现状的需求,充分利用汽车安全辅助驾驶技术对路面行人情况进行全面、正确的判断和分析,缓解汽车驾驶员视觉范围有限、精力有限的缺点,是提高我国安全行车系数的重要保障。

近年来,国内外很多学者高度关注智能视觉监控领域,在理论知识和实际应用两个方面都取得了一定的进展。行人检测也因为在此领域有着广泛的应用而备受广大学者与研究人员的热衷。然而,目前的行人检测技术尚未达到人们预期的效果。运动过程中的行人检测是一项相当复杂的工程,涉及计算机视觉和模式识别,车辆定位技术,人体形态学等诸多学科,有许多技术难点有待研究人员攻克。进行行人检测研究不论在理论研究方面或者实际应用方面均具有较高的应用价值和经济潜力。

2研究现状

行人检测与识别研究开始于20世纪90年代中期,经过大量研究,目前已形成许多可行性方案,为后期的研究人员提供了一系列具有较高参考价值的理论体系和应用系统。

21国外研究现状

目前,国外学者在行人检测图像采集途径上可分为基于可见光图像和基于红外图像两种方法。可见,光图像作为人们日常生活中的常用图像采集手段,受光照程度的影响对图像中目标的识别存在很大的差别,光线不足的条件下,能见距离和能见度会明显下降,影响正常视频图像采集。而红外成像又称红外辐射,利用电磁波强大的“穿透”能力,可以通过黑暗、烟雾等外界因素,形成可见光下看不到的目标表面的温度分布图,但因为其图像层次感差、轮廓模糊等缺陷,在日常生活中使用较少。

在行人检测方法上现有两大类[2]:第一类是基于视觉传感器的行人检测方法,常用的方法有:基于小波和支持向量机的方法、基于运动特征的方法、基于立体视觉的方法、基于形状信息的方法、基于行人模型的方法等。早期的视觉传感器系统多借鉴基于静态摄像头的静态视觉监控技术,包括图像处理中的图像分割、边缘提取、图像匹配、光流、运动检测等技术及模式识别中的一些简单分类算法。随着智能化水平的不断提高,传感器也在不断更新中。目前较为前沿的行人检测方法是基于立体视觉的方法,即利用多部摄像机作为视觉传感器,在多方位同时进行图像采集,得到场景中行人的空间信息,但算法复杂、计算量大。多数使用的方法是利用多种传感器信息融合的技术。第二类是基于非视觉传感器的行人检测方法[3],常用的方法有:基于激光测距传感器的方法、基于微波雷达的方法、基于红外线成像传感器的方法等。两类方法均使用广泛,且结合适当的图像预处理技术和相关算法后均能用于夜间行人检测,为夜间行人检测的进行奠定了充足的基础。

现有的行人检测技术的两个主要侧重点分别为运动和形状。侧重于运动的检测方法是通过分析运动过程中人体行走的周期频率来进行行人检测。行走时,人体呈现出一定周期性的步态,处理过程中将先待检测图像序列的周期性与预先分析得到的行人步态的周期性进行对比,就可以判断出是不是行人。该方法的优点在于降低了光线变化和人体纹理产生的影响,但需要经过多帧对比才能得出判断结果,判断速度不及时,且只能检测运动过程中的行人。该方法的典型代表有基于光流法的行人检测。而侧重于形状的检测方法是通过对边缘、灰度、轮廓等信息的分析检测,达到对目标进行检测的目的。该方法既能检测运动的行人,亦能检测静止状态的行人,但易将不是行人的目标错认为行人而产生虚警信息。其典型方法有基于统计分类的方法、基于局部模型的方法和基于模板匹配的方法。但实际工程设计时,多采用两种方法同时使用,比如:Viola等人利用AdaBoost算法对人体的类Haar特征进行训练行人检测器[4],并融合进行人的外貌特征和肢体运动信息进行检测,取得了良好效果,在有行人、非机动车和运行汽车的环境下,能较好地检测出步行的行人。

此外,利用一些交叉学科的系统对人体进行建模,通过模型对运动物体进行识别检测也是目前较可行的方法。国际上现有的可以使用的行人检测系统[5]主要有:①2004年11月,在第38届东京车展上,三菱汽车公司(戴姆勒・克莱斯勒旗下)推出的以行人检测技术为支撑的三菱扶桑概念车,该车能在不超过150km/h车速的情况下,在多种天气条件下,对行人作出快速准确的检测,为驾驶者提供危险状况报警,并提供一定的安全应急措施;②2006年3月,在第76届日内瓦车展上,雷克萨斯LS460概念车集成了立体视觉近红线外加激光雷达的行人检测系统,能够以30~40km/h的车速,在距离车辆30~50m处检测出在人行横道上行走的行人;③2007年4月,在英国伦敦科学博物馆展出的无人驾驶汽车(德国大众汽车公司研制),能在不超过183米的范围内识别各种交通标识,并利用激光摄像机对汽车周围的行人和道路状况等障碍进行检测。

22国内研究现状

我国在行人检测技术方面,主要研究静止摄像机以及图像采集条件较好的行人检测,与此同时也在积极摸索运动摄像机情况下及夜间等受自然条件制约场景的行人检测。国内进行行人检测与跟踪研究的单位现有:浙江大学、中山大学、清华大学、哈尔滨工业大学、厦门大学、重庆大学、四川大学、长安大学、安徽大学、武汉理工大学等。浙江理工大学的徐振兴针对传统形状上下文特征在行人检测中区域划分较密的问题改进区域划分的方法,并在研究中引入随机森林分类器和点对比较特征进行行人检测。[6]苏州大学的王宝兴在单视点固定摄像头场景下提出了一种基于局部时空域模型的核密度估计行人检测算法,在单视点移动摄像头场景下提出了一种融合目标多特征的行人检测算法,并提出了基于卡尔曼滤波和显著区域检测的行人识别算法[7]用于处理由于高空视频细节模糊、背景杂乱等特点所导致的行人分割与识别困难问题。南京理工大学的陶建峰针对单特征辨识度较低和人体尺度多样性问题,提出一种多特征融合的行人检测方法。[8]

3主要存在的问题

近年来,国内外学者在夜间行人检测与运动跟踪领域的研究方面取得了一定的进展,但由于学科技术发展水平有限、实验设备性能不足、视频图像环境复杂等各方面因素的限制,至今仍然不能研究出一种方法能够在各种场景条件下都通用,其中,存在的主要技术问题有以下几点:

(1)动态视频图像采集的背景多样性问题。目前,行人检测研究多以静态背景进行,原因在于动态场景下检测目标及背景环境均在不断变化中,将出现多个不同类型复杂目标的遮挡问题。车身摄像机随车辆的抖动、偏转会发生拍摄角度及清晰度的变化,影响行人识别与检测的准确率。且对行人检测系统的鲁棒性(即应对“突然打击下”的适应能力)提出了更高的要求。

(2)夜间图像采集的复杂性问题。首先,夜间光线较弱,图像灰度值较高,色彩辨析困难,导致干扰因素多,阴影面积大;其次,现有的夜间图像采集多数使用红外线设备,红外图像分辨率低,层次感差,纹理信息少,轮廓模糊,导致夜间行人目标的检测难度更大。因此,目前进行夜间行人检测的研究项目的比重相对较低。

(3)行人外观和姿态的多样性问题。人体柔韧性强,具有多种形态,结合身材和衣着的差异,往往在行人识别检测中相差甚远。现有的行人特征有多种,但要获得较好的检测结果,既受到图像本身属性的直接影响,又取决于使用算法的选择,所以,通常不直接将特定的特征和通用的算法应用于行人识别检测。

(4)行人检测目标的快速准确判断。车载嵌入式系统随着车辆的行驶,行车速度、行车环境都在不断变化,相应采集到的图像信息复杂性高,且计算机运算速度有限,因此,如何快速地对采集到的目标进行分割、识别与检测成为实时检测系统的一大难题。

参考文献:

[1]田翠翠基于红外图像的夜间行人检测技术研究[D].重庆:重庆大学,2010.

[2]许腾,黄铁军,田永鸿车载视觉系统中的行人检测技术综述[J].中国图像图形学报,2013,18(4):359-367

[3]庄家俊,刘琼面向辅助驾驶的夜间行人检测方法[J].华南理工大学学报,2012,40(8):56-62

[4]陈志恒,姜明新基于OpenCV的人脸检测系统的设计[J].电子设计工程,2012,20(10):182-185

[5]单晓森混合交通中行人检测方法研究[D].哈尔滨:哈尔滨工程大学,2011.

[6]徐振兴基于机器视觉的行为检测和跟踪技术研究[D].杭州:浙江理工大学,2012.

计算机视觉研究的目的范文

在我国市场经济不断发展的盛况下,我国科技发展水平也紧随其后,成为世界上的科技强国之一。在计算机水平的不断提高下,计算机视觉技术应运而生。其中,计算机视觉技术被应用与各个领域,并在各个领域都得到广泛有效的应用,比如军事领域、医疗领域、工业领域等。本文针对计算机视觉技术在交通领域中的应用进行分析。

【关键词】计算机视觉交通领域探究

近年来,随着科技水平的提高,计算机视觉技术逐渐被人们熟知并广泛应用。相较于其他传感器来说,视觉能获得更多的信息。因此,在我国交通领域中,也对计算机视觉技术进行研究完善,将计算机视觉技术应用在交通领域各个方面中,并取得了显著的成效。

1计算机视觉的概述及基本体系结构

1.1计算机视觉概述

通过使用计算机和相关设备,对生物视觉进行模拟的方式,就是计算机视觉。对采集到的图片或视频进行相应的技术处理,从而获得相应的三维信息场景,是计算机视觉的主要任务。

计算机视觉是一门学问,它就如何通过计算机和照相机的运用,使人们获得被拍摄对象的数据与信息所需等问题进行研究。简单的说,就是让计算机通过人们给其安装上的“大脑”和“眼睛”,对周围环境进行感知。

计算机视觉是一门综合性学科,在各个领域都有所作为,已经吸引了各个领域的研究者对其研究。同时,计算机视觉也是科学领域中一个具有重要挑战性的研究。

1.2计算机视觉领域基本体系结构

提出第一个较为完善的视觉系统框架的是Marr,他从信息处理系统角度出发,结合图像处理、心理物理学等多领域的研究成果,提出被计算机视觉工作者基本接受的计算机视觉系统框架。在此基础上,研究者们针对视觉系统框架的各个角度、各个阶段、各个功能进行分析研究,得出了计算机视觉系统的基本体系结构,如图1。

2计算机视觉在交通领域的应用

2.1牌照识别

车辆的唯一身份是车辆牌照。在检测违规车辆、稽查被盗车辆和管理停车场工作中,车辆牌照的有效识别与检测具有重要的作用和应用价值。然而在实际应用工作中,虽然车牌识别技术相对成熟,但是由于受到拍摄角度、光照、天气等因素的影响,车牌识别技术仍需改善。车牌定位技术、车牌字符识别技术和车牌字符分割技术是组成车牌识别技术的重要部分。

2.2车辆检测

目前,城市交通路口处红绿灯的间隔时间是固定不变的,但是受交通路口的位置不同、时间不同的影响,每个交通路口的交通流量也是持续变化的。此外,对于某些交通区域来说,公共资源的配备,比如交通警察、交通车辆的数量是有限的。如果能根据计算机视觉技术,对交通路口的不同时间、不同位置的交通情况进行分析计算,并对交通流量进行预测,有利于为交通警察缩短出警时间、为交通路口的红绿灯根据实际情况设置动态变化等技术提供支持。

2.3统计公交乘客人数

城市公共交通的核心内容是城市公交调度问题,一个城市如何合理的解决公交调度问题,是缓解城市运力和运量矛盾,缓解城市交通紧张的有效措施。城市公交调度问题,为公交公司与乘客的平衡利益,为公交公司的经济利益和社会效益的提高做出了巨大的贡献。由于在不同的地域、不同的时间,公交客流会存在不均衡性,高峰时段的公交乘客过多,平峰时段的公交乘客过少,造成了公交调度不均衡问题,使有限资源浪费严重。在计算机视觉智能公交系统中,自动乘客计数技术是其关键技术。自动乘客计数技术,是对乘客上下车的时间和地点自动收集的最有效的技术之一。根据其收集到的数据,从时间和地点两方面对客流分析,为城市公交调度进行合理的安排。

2.4对车道偏离程度和驾驶员工作状态判断

交通事故的发生率随着车辆数量的增加而增加。引发交通事故的重要因素之一就是驾驶员疲劳驾驶。据相关数据显示,因车道偏离导致的交通事故在40%以上。其中,驾驶员的疲劳驾驶就是导致车道偏离的主要原因。针对此种现象,为减少交通事故的发生,计算机视觉中车道偏离预警系统被研究开发并被广泛应用。针对驾驶员眨眼频率,利用计算机视觉对驾驶员面部进行图像处理和分析,再根据疲劳驾驶关注度与眨眼频率的关系,对驾驶员的工作状态进行判断。此外,根据道路识别技术,对车辆行驶状态进行检测,也是判断驾驶员工作状态的方法之一。这两种方法,是目前基于计算机视觉的基础上,检测驾驶员疲劳状态的有效方法。

2.5路面破损检测

最常见的路面损坏方式就是裂缝。利用计算机视觉,及时发现路面破损情况,并在其裂缝程度严重之前进行修补,有利于节省维护成本,也避免出现路面坍塌,车辆凹陷的情况发生。利用计算机视觉进行路面检测,相较于之前人工视觉检测相比,有效提高了视觉检测的效率,增强了自动化程度,提高了安全性,为市民的出行安全带来了更高保障。

3结论

本文从计算机视觉的概述,及计算机视觉基本体系结构,和计算机视觉在交通领域中的应用三面进行分析,可见计算机视觉在交通领域中的广泛应用,在交通领域中应用的有效性、显著性,以此可得计算机视觉在现展过程中的重要性。随着计算机视觉技术的越来越成熟,交通领域的检测管理一定会加严格,更加安全。

参考文献

[1]段里仁.智能交通系境在我国道路空通管理中的应用[J].北方工业时报,2015(06).

[2]王丰元.计算机视觉在建筑区间的应用实例分析[J].河北电力学报,2015(04).

[3]李钊称.主动测距技术在计算机数据分析中的作用探析[J].计算机应用,2015(08).

[4]马良红.三维物体影像的摄取与分析[J].中国公路学报,2014(05).

[5]朱学君,沈睿.关于计算机视觉在交通领域中的探讨[J].信息通信,2013(01):123.

[6]王大勇.关于计算机视觉在交通领域中的应用分析[J].科技与企业,2013(01):115.

作者简介

夏栋(1988-),男,湖北省孝感市人。现为同济大学软件学院在读硕士。研究方向为计算机视觉。

计算机视觉研究的目的范文篇10

关键词:虚拟现实;研究现况;发展趋势

中图分类号:F061.3文献标识码:A文章编号:1672-3198(2009)02-0279-02

1虚拟现实

虚拟现实(VirtualReality,简称VR),又译为临境,灵境等。从应用上看它是一种综合计算机图形技术、多媒体技术、人机交互技术、网络技术、立体显示技术及仿真技术等多种科学技术综合发展起来的计算机领域的最新技术,也是力学、数学、光学、机构运动学等各种学科的综合应用。这种计算机领域最新技术的特点在于以模仿的方式为用户创造一种虚拟的环境,通过视、听、触等感知行为使得用户产生一种沉浸于虚拟环境的感觉,并与虚拟环境相互作用从而引起虚拟环境的实时变化。现在与虚拟现实有关的内容已经扩大到与之相关的许多方面,如“人工现实”(Artifi-cialReality)、“遥在”(Telepresence)、“虚拟环境”(VirtualEnvironment)、“赛博空间”(Cyberspace)等等。

2国外虚拟现实技术研究现状

计算机的发展提供了一种计算工具和分析工具,并因此导致了许多解决问题的新方法的产生。虚拟现实技术的产生与发展也同样如此,概括的国内外虚拟现实技术,它主要涉及到三个研究领域:通过计算图形方式建立实时的三维视觉效果;建立对虚拟世界的观察界面;使用虚拟现实技术加强诸如科学计算技术等方面的应用。

2.1VR技术在美国的研究现状

美国是虚拟现实技术研究的发源地,虚拟现实技术可以追溯到上世纪40年代。最初的研究应用主要集中在美国军方对飞行驾驶员与宇航员的模拟训练。然而,随着冷战后美国军费的削减,这些技术逐步转为民用,目前美国在该领域的基础研究主要集中在感知、用户界面、后台软件和硬件四个方面。

上世纪80年代,美国宇航局(NASA)及美国国防部组织了一系列有关虚拟现实技术的研究,并取得了令人瞩目的研究成果,美国宇航局Ames实验室致力于一个叫“虚拟行星探索”(VPE)的实验计划。现NASA已经建立了航空、卫星维护VR训练系统,空间站VR训练系统,并已经建立了可供全国使用的VR教育系统。北卡罗来纳大学的计算机系是进行VR研究最早最著名的大学。他们主要研究分子建模、航空驾驶、外科手术仿真、建筑仿真等。乔治梅森大学研制出一套在动态虚拟环境中的流体实时仿真系统。施乐公司研究中心在VR领域主要从事利用VRT建立未来办公室的研究,并努力设计一项基于VR使得数据存取更容易的窗口系统。波音公司的波音777运输机采用全无纸化设计,利用所开发的虚拟现实系统将虚拟环境叠加于真实环境之上,把虚拟的模板显示在正在加工的工件上,工人根据此模板控制待加工尺寸,从而简化加工过程。

图形图像处理技术和传感器技术是以上VR项目的主要技术。就目前看,空间的动态性和时间的实时性是这项技术的最主要焦点。

2.2VR技术在欧洲的研究现状

在欧洲,英国在VR开发的某些方面,特别是在分布并行处理、辅助设备(包括触觉反馈)设计和应用研究方面。在欧洲来说是领先的。英国Bristol公司发现,VR应用的交点应集中在整体综合技术上,他们在软件和硬件的某些领域处于领先地位。英国ARRL公司关于远地呈现的研究实验,主要包括VR重构问题。他们的产品还包括建筑和科学可视化计算。

欧洲其它一些较发达的国家如:荷兰、德国、瑞典等也积极进行了VR的研究与应用。

瑞典的DIVE分布式虚拟交互环境,是一个基于Unix的,不同节点上的多个进程可以在同一世界中工作的异质分布式系统。

荷兰海牙TNO研究所的物理电子实验室(TNO-PEL)开发的训练和模拟系统,通过改进人机界面来改善现有模拟系统,以使用户完全介入模拟环境。

德国在VR的应用方面取得了出乎意料的成果。在改造传统产业方面,一是用于产品设计、降低成本,避免新产品开发的风险;二是产品演示,吸引客户争取定单;三是用于培训,在新生产设备投入使用前用虚拟工厂来提高工人的操作水平。

2008年10月27-29日在法国举行的ACMSymposi-umonVirtualRealitySoftwareandTechnoogy大会,整体上促进了虚拟现实技术的深入发展。

2.3VR技术在日本的研究现状

日本的虚拟现实技术的发展在世界相关领域的研究中同样具有举足轻重的地位,它在建立大规模VR知识库和虚拟现实的游戏方面作出了很大的成就。

在东京技术学院精密和智能实验室研究了一个用于建立三维模型的人性化界面,称为SpmARNEC公司开发了一种虚拟现实系统,用代用手来处理CAD中的三维形体模型。通过数据手套把对模型的处理与操作者的手联系起来;日本国际工业和商业部产品科学研究院开发了一种采用x、Y记录器的受力反馈装置;东京大学的高级科学研究中心的研究重点主要集中在远程控制方面,他们最近的研究项目是可以使用户控制远程摄像系统和一个模拟人手的随动机械人手臂的主从系统;东京大学广濑研究室重点研究虚拟现实的可视化问题。他们正在开发一种虚拟全息系统,用于克服当前显示和交互作用技术的局限性;日本奈良尖端技术研究生院大学教授千原国宏领导的研究小组于2004年开发出一种嗅觉模拟器,只要把虚拟空间里的水果放到鼻尖上一闻,装置就会在鼻尖处放出水果的香味,这是虚拟现实技术在嗅觉研究领域的一项突破。

3国内虚拟现实技术研究现状

在我国虚拟现实技术的研究和一些发达国家相比还有很大的一段距离,随着计算机图形学、计算机系统工程等技术的高速发展,虚拟现实技术已经得到了相当的重视,引起我国各界人士的兴趣和关注,研究与应用VR,建立虚拟环境!虚拟场景模型分布式VR系统的开发正朝着深度和广度发展。国家科委国防科工委部已将虚拟现实技术的研究列为重点攻关项目,国内许多研究机构和高校也都在进行虚拟现实的研究和应用并取得了一些不错的研究成果。

北京航空航天大学计算机系也是国内最早进行VR研究、最有权威的单位之一,其虚拟实现与可视化新技术研究室集成了分布式虚拟环境,可以提供实时三维动态数据库、虚拟现实演示环境、用行员训练的虚拟现实系统、虚拟现实应用系统的开发平台等,并在以下方面取得进展:着重研究了虚拟环境中物体物理特性的表示与处理;在虚拟现实中的视觉接口方面开发出部分硬件,并提出有关算法及

实现方法。

清华大学国家光盘工程研究中心所作的“布达拉宫”,采用了QuickTime技术,实现大全景VR制;浙江大学CAD&CG国家重点实验室开发了一套桌面型虚拟建筑环境实时漫游系统;哈尔滨工业大学计算机系已经成功地合成了人的高级行为中的特定人脸图像,解决了表情的合成和唇动合成技术问题,并正在研究人说话时手势和头势的动作、语音和语调的同步等。

4虚拟现实技术的发展趋势

随着虚拟现实技术在城市规划、军事等方面应用的不断深入,在建模与绘制方法、交互方式和系统构建方法等方面,对虚拟现实技术都提出来更高的需求。为了满足这些新的需求,近年来,虚拟现实相关技术研究遵循“低成本、高性能”原则取得了快速发展,表现出一些新的特点和发展趋势。主要表现在以下方面:

(1)动态环境建模技术。

虚拟环境的建立是VR技术的核心内容,动态环境建模技术的目的是获取实际环境的三维数据,并根据需要建立相应的虚拟环境模型。

(2)实时三维图形生成和显示技术。

三维图形的生成技术已比较成熟,而关键是如何“实时生成”,在不降低图形的质量和复杂程度的前提下,如何提高刷新频率将是今后重要的研究内容。此外,VR还依赖于立体显示和传感器技术的发展,现有的虚拟设备还不能满足系统的需要,有必要开发新的三维图形生成和显示技术。

(3)适人化、智能化人机交互设备的研制。

虽然头盔和数据手套等设备能够增强沉浸感,但在实际应用中,它们的效果并不好,并未达到沉浸交互的目的。采用人类最为自然的视觉、听觉、触觉和自然语言等作为交互的方式,会有效地提高虚拟现实的交互性效果。

(4)大型网络分布式虚拟现实的研究与应用。

网络虚拟现实是指多个用户在一个基于网络的计算机集合中,利用新型的人机交互设备介入计算机产生多维的、适用于用户(即适人化)应用的、相关的虚拟情景环境。分布式虚拟环境系统除了满足复杂虚拟环境计算的需求外,还应满足分布式仿真与协同工作等应用对共享虚拟环境的自然需求。分布式虚拟现实系统必须支持系统中多个用户、信息对象(实体)之间通过消息传递实现的交互。分布式虚拟现实可以看作是基于网络的虚拟现实系统,是可供多用户同时异地参与的分布式虚拟环境,处于不同地理位置的用户如同进入到同一个真实环境中。目前,分布式虚拟现实系统已成为国际上的研究热点,相继推出了相关标准,在国家“八六三”计划的支持下,由北京航空航天大学、杭州大学、中国科学院计算所、中国科学院软件所和装甲兵工程学院等单位共同开发了一个分布虚拟环境基础信息平台,为我国开展分布式虚拟现实的研究提供了必要额网络平台和软硬件基础环境。

5结语

计算机视觉研究的目的范文篇11

1.1射频识别

射频识别(RFID)是一种利用无线通信进行目标身份识别的技术。典型RFID系统通常由标签、解读器和天线3部分构成。标签进入磁场后,接收解读器发出的射频信号,凭借感应电流所获得的能量发送存储在芯片中的信息(无源标签或被动标签),或者主动发送某一频率的信号(有源标签或主动标签);解读器读取信息并解码后,送至中央信息系统进行有关数据处理。RFID在施工管理中主要被应用到建材、工人和施工机械管理3方面:①建材管理方面可用来辅助物流和供应链管理、库存管理、建材质检以及废料管理;②工人管理方面可用作进出场控制及出勤考评、安全预警等;③施工机械管理方面RFID技术可以跟踪施工机械及工具、记录施工操作及机械维护等。

Jaselskis等最先探讨了RFID在施工管理中的4个潜在应用(工程设计、建材管理、设备维护、现场监控),并在2个施工项目中使用RFID管理钢管、吊管架等预制建材的进场过程。与人工计数的建材管理方式相比,使用RFID明显节省了时间。Su&Liu建议结合RFID与GPS2种技术,实时报告施工机械的编号和位置,并提出了将上述信息转化为分析施工操作的模型,进行实时的施工效率分析。WangLC利用RFID与移动设备、通信网络构建了一个建材质量检查与管理系统,进行混凝土质量检验。试验表明该系统可以提高建材质检的工作效率、降低运行成本、增强客户满意度。Costin等在一幢高层建筑的翻新工程中,将RFID安装在升降机上,在数月的施工周期中,详细记录了工人、设备和建材的流动,切实评估了RFID技术在施工管理中的性能表现。

1.2超宽带通信

超宽带通信(UWB)是一种利用绝对带宽>1.5GHz或分数带宽>25%的超宽带信号进行多目标定位的技术。典型的UWB系统主要包含数据处理计算机、集线器、接收器和射频标签。当有3个及以上接收器获取射频标签信号时,可定位射频标签的精确二维坐标;而4个及以上的接收器就可提供精确的三维坐标。相比于传统的窄带通信系统,UWB技术有如下优点:不易受其他通信系统干扰、不易受多径效应干扰、高数据采样率、高精度定位、超低能耗、实时跟踪多个目标、可同时在室内和室外应用、相比其他高频通信系统具有更大的室内覆盖范围。UWB因其多目标实时精确定位能力,被广泛地应用到施工现场的工人、机械、建材定位中,以开展施工安全监控、施工操作分析等工作。施工过程中,常发生工人不慎进入危险区域而造成的人身伤害。Giretti等利用UWB跟踪佩戴有射频标签的工人,并根据施工场地的先验知识划定虚拟危险区域,一旦UWB系统报告工人逼近或进入危险区域,就会触发工人随身携带的报警器。3组场地试验验证了这套系统的有效性。除工人外,大型施工机械的操作也是施工安全监控中的重点。Hwang&Liu以T形塔式起重机为研究对象,在2台塔式起重机上分别安装UWB射频标签,通过实时定位,计算2台塔式起重机动态距离,评估其发生碰撞的概率,从而达到安全预警的目的。

Teizer的研究小组在基于UWB的施工管理方面开展了较为深入的工作。文利用UWB跟踪工人以及建材,分析其运动轨迹,指出了UWB在施工安全和施工效率评估方面的应用潜力;并开展了室内和室外2组试验,对于钢结构安装过程中的工人和钢材进行了跟踪。对于UWB生成的工人运动轨迹展开了更为深入的分析,以工人出现在工地各处的概率,生成了占据网格。在此网格基础上,利用路径规划算法,给出了工人运动的最佳轨迹;同时以规避机械与工人相撞为原则,给出了施工机械的最佳行驶轨迹。该研究将传感器在施工管理中的应用提升到了施工行为理解的层面,在施工场地规划与物流规划方面有积极意义。把UWB和一种体态传感器(physiologicalstatusmonitoring,PSM)同时应用在工人身上。UWB提供工人的位置信息,根据施工场地的先验知识,可以粗略判断工人所处的工作区域和任务性质,实时位置信息同时反映工人当前运动状态(运动或静止)。PSM佩戴在工人胸部,给出当前体态(弯腰或直立)。综合工人的空间位置、运动状态、当前体态,该研究给出了一种利用自动工作采样(worksampling)实时判断施工效率的方法。

1.3GPS

GPS是较早被应用到施工管理中的技术。相比前2种技术,其最大的优点是无需其他配套设备。Oloufa等利用差分GPS跟踪施工机械,根据其实时位置,提出一种防碰撞方法,以增强施工安全。Hildreth等利用GPS代替人工工时分析,通过GPS记录施工机械的位置和速度信息,在数据精简的基础上,对各工序耗时进行自动分析,并在土石方工程中实地验证了算法的有效性。Prahananaga&Teizer同样利用GPS进行施工机械的操作分析,他们提出了GPS数据的误差分析和处理方法。在场地试验中,对挖掘机和推土机的GPS信号进行了分析,自动识别两种机械的周期性往复运动,分析了施工机械之间的交互式作业。GPS可以方便地定位单一目标,但在多目标同时定位时,不具备辨别目标身份的能力。因此有研究者尝试将GPS与RFID相结合,以达到多目标定位的目的。Ergen等利用GPS和RFID来跟踪预制件供应过程。Grau等采用了同样的方法来自动跟踪工件在施工现场的流转,并与人工计件的方法相比,验证了其效率优势。

1.4视觉传感器

众多技术中,利用视觉传感器采集照片和视频是较早被引入施工管理的信息化方法。早在20世纪90年代,美国的学者就对施工现场的照片和视频进行收集和管理,用于施工过程控制,并且呼吁有关人员对照片和视频的应用给予重视。日本在工程项目管理中对照片的应用已经贯穿施工阶段的始终,并制定了专门的规程和规范。近年来,我国也开始强调照片和视频在施工项目管理中的应用。然而,现阶段的施工照片和视频仅仅被作为档案留存,供管理人员偶尔查阅、分析,其蕴含的丰富信息并没有被充分挖掘。与其他传感器的不同之处在于,视觉传感器所包含的信息无法直接输出,或者需要依靠人工分析,或者需要依靠计算机算法进行处理。机器视觉技术通过视觉传感器收集数据,利用计算机分析图像或视频数据,模拟生物视觉对环境进行感知和理解。由于数据采集方便、成本低廉、所获取信息丰富,近年来在施工管理中得到了较为广泛的应用。

机器视觉在施工管理中的应用主要包含两个层面。第1层面类似其他传感器的功能,跟踪定位施工过程的参与者(包含工人、建材、施工机械等)。Zou&Kim利用彩色图像分割提取并跟踪挖掘机,并根据其位置变化判断挖掘机是处于工作还是闲置状态。Teizer&Vela利用视频摄像机跟踪建筑工人,评估了4种典型的视频跟踪算法在工人跟踪中的性能表现。算法涵盖均值平移法、贝叶斯分割法、动态轮廓法和图分割法,试验表明前两种算法的跟踪效果较好。在后续的研究中,该小组又提出了一种基于核主成分分析的多个工人跟踪算法。Brilakis等提出利用双目视觉来进行施工现场运动目标的三维跟踪,分别开展了对工人、施工机械等目标的跟踪试验。考虑到视频跟踪算法常需要手动初始化被跟踪目标,Memarzadeh等提出利用机器学习算法自动检测识别工人及机械,自动进行目标跟踪的算法。机器视觉应用的第2层面是施工行为分析理解层面。

这个层面可以建立在第1层面的基础上,对跟踪结果进一步深入分析,形成对施工管理有直接意义的信息;也可以完全脱离第1层面,直接进行视频分析。Peddi等通过对视频中的工人进行区域跟踪、轮廓提取、姿态识别,将工人的生产效率自动划分为不同等级。HanS等利用核主成分分析对高维的运动信号降维,从而识别工人的不安全行为。但该方法需要在工人身体各关节部位安装运动传感器,在实际施工应用中并不适用。施工行为理解并不局限于工人,也包含施工机械。GongJ等提取视频中的特征语义词汇(Bag-of-Video-Feature-Words),通过贝叶斯网络学习工人和机械的各种典型施工动作,以达到施工行为自动分类识别的目的。YangJ等通过视频跟踪塔式起重机吊臂,分析其混凝土浇筑行为。Heydarian等则利用视频自动识别挖掘机的掘土行为,并将其与施工机械的温室气体排放模型相关联,从而评估施工对于环境的影响。

2施工产出自动评估

施工产出自动评估,即对建筑实体进行远程传感,采集其二维或三维的信息,并与原有施工设计和进度规划进行比对,以达到自动评估施工进度、控制工程质量、维护并管理建筑实体等目的。在这一领域主要应用2种传感器:视觉传感器和激光扫描仪。

2.1视觉传感器

视觉传感器在建筑实体评估中应用历史较长。早期研究主要是利用图像提供的二维信息,比较图像中的建筑实体在历经施工周期推移所发生的外观变化,从而分析工程进度。Abeid&Arditi设计了一个施工进度控制系统,通过回放每天的施工日志图像,手工标记工程进度。Trucco&Kada通过计算两幅图像间的Hausdorff距离来判断其相似度,由此定位不同图像间的相似标志性物体。在后续研究中,该小组提出了以设计三维模型为先验知识,检测施工日志图像中的变化,并判断其是否对应实际的施工进程;后又提出将工程进度自动划分为工作包的模型,并在此基础上,利用图像的变化检测来自动分析施工进程。近年来,机器视觉三维重建算法得到了极大的发展,基于视觉传感器的建筑实体评估基本都趋向于利用多幅图像或者视频重构所修建的(as-built)建筑实体三维模型,并将其与所设计的(as-planned)三维CAD模型或者BIM(buildinginformationmodel)模型进行比较,以达到施工进度、施工质量自动评估的目的。

Golparvar-Fard等利用日常工程管理中所拍摄的图像,通过立体视觉重建施工现场的稀疏三维点云,并将所生成的三维模型叠加在所设计的三维模型之上,形成一种增强现实的模型,从而方便管理人员直观地评价工程进度。在后续的研究中,该研究小组又引入支持向量机算法实现了简单的施工进度自动评估;还将上述系统应用到公路健康监测中,在三维重建的基础上,利用图像分割进一步将三维模型划分成多个语义目标。Kim等进行施工现场的图像三维重建,利用张量投票法精炼三维点阵,最后通过支持向量机检测三维模型中的水泥构件。Klein等则对于图像三维重建法的精确度进行了深入分析,对一幢建筑物的内部和外部分别进行了三维建模,并将图像量测数据与激光扫描数据进行了比较。

2.2激光扫描仪

激光扫描仪通过向被测量物体主动发射激光波束并测量回波来获取三维距离信息,从而生成密集的三维点云(pointcloud),以达到对物体三维建模的目的。Turkan等利用激光扫描仪生成施工现场的三维数据,将目标识别技术与工程进度信息相结合,提出了一种以工程目标为导向的四维工程进度跟踪系统。Hajian&Brandow利用激光扫描仪扫描钢结构安装过程中的钢筋和锚栓,并与施工计划比较,达到监控施工质量的目的。Lee等提出了一种基于轮廓的算法,在管道安装施工中,利用激光扫描来自动生成所铺设管道的模型。激光扫描仪虽然可以精确获取密集的三维点云,但由于价格昂贵、体积笨重、需专业人员操作等缺点,制约了其在施工管理中的广泛应用。相较之,视觉传感器价格低廉、操作简便,而且可以提供更加丰富的信息。

一些研究者提出融合激光扫描仪和视觉传感器两者优势的思路。在未来建筑界,BIM将逐步替代CAD模型成为主流标准。对于基于传统CAD模型建成的建筑物,如何生成BIM,以方便建筑物生命周期的管理和维护,已成为行业中的难点问题。Brilakis等提出了利用激光扫描仪生成三维点云,并利用视觉传感器进行目标识别,以生成包含目标语义信息的BIM。TangPB等[39]对利用激光扫描仪自动生成BIM的相关技术进行了深入详细的介绍。整个建模过程被分为几何建模、物体识别、物体间相互关系建模3个阶段,其中几何建模又被细化为面、体以及复杂结构建模,物体识别则有基于分类的、基于上下文语义的、基于先验知识等方法。

3发展趋势展望

虽然基于信息技术的施工管理已有丰富的研究成果,但作为一个新兴的研究领域,仍存在许多问题亟待解决。从具体技术角度来看,RFID和UWB都是基于无线通信的,在实际应用中,信号接收器的排布将直接影响到系统定位及身份识别的有效范围和准确性。而且无线通信要求保持信号发射器与接收器之间的空间通达性,即Line-of-sight,而施工环境是动态变化的,之前较为空旷的空间可能在后续施工中被墙体或其他工件遮挡,这为RFID和UWB技术在施工管理中的长期、持续应用带来挑战。因此研究RFID和UWB在实际应用中的系统合理设置以及动态施工环境对系统准确性的影响等问题,是未来需关注的问题之一。虽然视觉传感器因成本低、信息量丰富而应用更为广泛,但相较之其他传感器技术,其后期的信息处理算法复杂度非常高。一些关键算法,例如视频跟踪、目标识别、视频理解、三维重建等都存在计算量大、实时应用困难的问题。过分强调视觉传感器的优势,而忽略其计算荷载是不可取的。研究多种传感器结合,发挥各自优势,将是未来的必然趋势。

从具体应用角度来看,在施工投入实时监控方面,信息技术尚不能完全取代人工,如何构建一种交互式平台,使得人工管理与自动化管理可以相互结合,将是未来发展的方向。随着智能手机的不断普及,利用智能手机应用软件来实现这种交互式平台的构建,将不失为一种选择。在施工产出自动评估方面,目前多数研究所生成的三维建筑实体模型,还仅限于三维点云的层面,没有将三维模型上升到建筑语义对象的层面,这对于全面认知建筑实体、评估进度,仍然是不充分的。因此未来的趋势必然是面向建筑语义对象的三维重建。另外,基于传感器技术的施工质量自动评估目前还较少有人涉及,未来的研究可更多的探讨。

计算机视觉研究的目的范文篇12

关键词:双目立体视觉;区域相关;立体匹配;标准测试图

中图分类号:TP391文献标识码:A

文章编号:1004-373X(2009)12-068-03

ImprovementofRegionalRelatedMatchAlgorithmfor

BinocularStereoVisionandItsImplementation

HERenjie

(ElectronicsandInformationSchool,NorthwesternPolytechnicalUniversity,Xi′an,710129,China)

Abstract:Matchalgorithmisoneofkeytechniquesinthebinocularstereovisionsystem.Thesimilarityfunctions,theregionalrelatedmatchalgorithmsforBinocularstereovisionarediscussedandthealgorithmiccomplexityisanalyzed.Moreover,anewimprovedregionalrelatedmatchalgorithmbyslidingpatternplateisproposedtodecreasethematchingtimeandatestsoftwareisdesignedbyusingVC++andOPEN-CV.Anumberofexperimentsarecarriedoutthroughthetwo-camerasystemandthestandardtestimagesaswellaspracticalsenseimages.Theanalyticalandexperimentalresultsshowthattheimprovedmethodiseffectiveanditsmatchingtimeisdecreasedgreatly.

Keywords:binocularstereovision;regionalrelated;stereomatch;standardtestimage

0引言

立体视觉是计算机视觉的一个重要分支,主要研究如何借助成像技术从图像中获取场景中物体的三维信息[1-3]。立体视觉的基本方法是从两个或者多个视点去观察同一场景,获得在不同视角下的一组图像;然后通过三角测量原理获得不同图像中对应像素间的视差,并从中获得深度信息,进而与平面信息整合形成立体图像。立体匹配是立体视觉算法中最重要也是最困难的部分。

根据匹配基元的不同,现有的立体匹配方法可大致分为三类:基于特征的匹配[4,5],基于区域的匹配[6]和基于相位的匹配[7]。

本文重点研究双目视觉立体匹配中基于区域的局部匹配算法,对基于SAD(SumofAbsoluteDifference)的区域匹配算法通过模板滑动进行了改进。经分析和多次实验结果表明,该改进算法具有有效性和快速性。

1双目立体视觉区域局部匹配的理论基础

1.1相似性测度函数

匹配算法的实质就是估计待匹配点和候选匹配点之间的相似性程度,评价这种相似性程度度量方法有多种。由于单个像素点所包含的信息太少,因而只依据单个像素点是的信息建立度量方法可靠性较差。为了提高相似性度量方法的可靠性,一般需要在匹配点上的一个小邻域内的像素点集合中进行。

表1列出了目前几种主要的相似性测度函数[6]。其中,IL(x,y),IR(x,y)分别代表左右图像中像素坐标(x,y)处的灰度值;IL(x,y),IR(x,y)分别表示左右图中以坐标(x,y)为中心,在窗口范围U内像素灰度的平均值。由于SAD相似性测度函数在时间以及匹配质量方面较其他测度函数更具有优势,且实现较简单[8]。这里研究选择SAD作为局部相关匹配算法的相似性测度函数。

1.2局部相关匹配算法原理

局部相关匹配算法是以基准图像中待匹配点为中心像素来创建一个大小为n×n的矩形窗,由该窗口内的像素灰度分布来表征该像素。在第二幅图像中,沿极线在视差范围内取出与基准点邻域同样大小为n×n的像素邻域,依次与匹配点的窗口进行比较,最大相似性对应的点就是最佳匹配。整个匹配过程如图1所示。

表1几种相似性测度函数

名称公式

SAD∑(i,j)∈U|IL(x+i,y+j)-IR(x+dx+i,y+j)|

ZSAD∑(i,j)∈U|[IL(x+i,y+j)-IR(x,y)]-

[IR(x+dx+i,y+j)-IR(x+dx,y)]|

SSD∑(i,j)∈U[IL(x+i,y+j)-IR(x+dx+i,y+j)]2

ZSSD∑(i,j)∈U[IL(x+i,y+j)-IL(x,y)]-

[IR(x+dx+i,y+j)-IR(x+dx,y)]2

SSD-N∑(i,j)∈U[IL(x+i,y+j)-IR(x+dx+i,y+j)]2∑(i,j)∈UIL(x+i,y+j)2∑(i,j)∈UIR(x+dx+i,y+j)2

SCP∑(i,j)∈UIL(x+i,y+j)IR(x+dx+i,y+j)

图1局部相关算法原理示意图

1.3局部相关匹配算法的时间复杂度

在图1(a)中坐标为(x,y)的像素点,算法要计算图1(b)中所有相关像素的相似性。根据极线约束以及视差约束,在图1(b)中只需计算同一极线上,视差范围内的像素相似性即可,需要的计算量为:

T(x,y)=dmaxn2(1)

式中:n为正方形窗口边长;dmax为最大视差。设W为图像的宽度;H为图像的高度,对于整幅图片,全部相似性的计算量为:

T=∑0≤i

易知,局部相关匹配算法的时间复杂度为O(WHdmaxn2)。

1.4局部相关匹配算法的改进

若假设匹配窗口的边长为2n+1,对于每行像素,其相似性测度函数为P(x,y,d)=∑ni=-n|IL(x+i,y)-IR(x+i+d,y)|;在模板向右滑动时,P(x+1,y,d)可由之前的计算结果得到,有迭代公式:

P(x+1,y,d)=P(x,y,d)+[|IL(x+n+1,y)-

IR(x+n+1+d,y)|-|IL(x-n,y)-

IR(x-n+d,y)|](3)

即在模板滑动时,不需要重新计算整个窗口的SAD,而只需计算新的一列SAD。分析可知,改进后算法的时间复杂度由O(WHdmaxn2)降为O(WHdmaxn),算法实时性有了较大提升。

2双目立体视觉区域局部匹配算法的实现

2.1实验环境

该研究的实验主要是通过计算机编程实现区域局部匹配算法,并在双相机系统上利用标准和实际场景图像进行验证性实验的。以VC++6.0及OPENCV为编程环境,完成验证软件设计。

该研究的验证实验使用了西安交通大学系统工程所的实验设备(如图2所示)。两只摄像机平行放置,其位置姿态参数已由标定结果给出,如表2所示。

图2试验系统

表2相机标定参数表(以像素为单位)

参数指标左相机右相机

焦距699.85696.15

相机中心[392.34283.94][389.26308.18]

畸变[-0.270200.45448][-0.239750.25622]

旋转角/radα=0.01377,β=0.00107,γ=0.00038

相对位移/mmt1=87.921,t2=1.205,t3=4.980

摄像机与处理计算机之间通过双1394总线连接,计算机中配备2块64位PCI-1394卡,以适应摄像机高速图像流的要求。摄像机的主要参数如表3所示。

表3摄像机参数

摄像机特性参数

CCD传感器SonyProgressiveScanCCDs

CCD最大像素1624×1224

像素大小4.4μm×4.4μm

支持图像大小320×240(30),640×480(30),800×600(30),1600×1200(15)

快门0.01~66.63ms

图像输出方式双1394总线输出

2.2软件设计流程图

系统算法流程图如图3所示。

图3系统算法流程图

2.3实验结果

部分实验结果如图4所示。

图4实验结果

由图4可知[10],实验得到的图片较好地完成了对现实场景中的匹配,可以较直接地从所得视差图中获得物体的深度信息。

同时,图像边缘处的匹配精度受到图像边界的影响,误差较大,真实场景图片中噪声较大,导致误匹配较多。如何减少误差,提高精度是现在和今后重点考虑的问题之一。

3结语

这里对双目立体视觉中的区域局部匹配算法进行讨论,对现有SAD算法进行了改进,较显著地提高了匹配速度。在实验平台上较好地完成了对标准图像及现实场景图像的视差图获取,验证了算法的有效性和快速性。

参考文献

[1]章毓晋.图像工程(下册)图像理解[M].2版.北京:清华大学出版社,2007.

[2]何明一,卫保国.数字图像处理[M].北京:科学出版社,2008.

[3]游素亚.立体视觉研究的现状与进展[J].中国图像图形学报,1997,2(1):1-2.

[4]HajarSadeghi,PaymanMoallem,MonadjemiSA.FeatureBasedDenseStereoMatchingusingDynamicProgrammingandColor[J].InternationalJournalofComputationalIntelligence,2004,4(3):179-186.

[5]高峰,文贡坚,吕金建.一种准自动高精度图像配准算法[J].现代电子技术,2007,30(6):56-59.

[6]KukJinYoon,InSoKweon.AdaptiveSupport-WeightApproachforCorrespondenceSearch[A].APRIL[C].2006,28(4):650-655.

[7]徐奕,周军,周源华.立体视觉匹配技术[J].计算机工程与应用,2003,39(15):388-392.

[8]CyganekB,BorgoszJ.AComparativeStudyofPerformanceandImplementationofSomeArea-basedStereoAlgorithms[A].CAIP[C].2001,21(24):709-716.

更多范文

热门推荐