计算机视觉的前景范例(12篇)
时间:2024-03-28
时间:2024-03-28
国内人工智能产业链解构
基础技术、人工智能技术和人工智能应用构成了人工智能产业链的三个核心环节,我们将主要从这三个方面对国内人工智能产业进行梳理,并对其中的人工智能应用进行重点解构。
人工智能的基础技术主要依赖于大数据管理和云计算技术,经过近几年的发展,国内大数据管理和云计算技术已从一个崭新的领域逐步转变为大众化服务的基础平台。而依据服务性质的不同,这些平台主要集中于三个服务层面,即基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。基础技术提供平台为人工智能技术的实现和人工智能应用的落地提供基础的后台保障,也是一切人工智能技术和应用实现的前提。
对于许多中小型企业来说,SaaS是采用先进技术的最好途径,它消除了企业购买、构建和维护基础设施和应用程序的需要;而IaaS通过三种不同形态服务的提供(公有云、私有云和混合云)可以更快地开发应用程序和服务,缩短开发和测试周期;作为SaaS和IaaS中间服务的PaaS则为二者的实现提供了云环境中的应用基础设施服务。
人工智能技术平台
与基础技术提供平台不同,人工智能技术平台主要专注于机器学习、模式识别和人机交互三项与人工智能应用密切相关的技术,所涉及的领域包括机器视觉、指纹识别、人脸识别、视网膜识别、虹膜识别、掌纹识别、专家系统、自动规划、智能搜索、定理证明、博弈、自动程序设计、智能控制、机器人学习、语言和图像理解和遗传编程等。
机器学习:通俗的说就是让机器自己去学习,然后通过学习到的知识来指导进一步的判断。我们用大量的标签样本数据来让计算机进行运算并设计惩罚函数,通过不断的迭代,机器就学会了怎样进行分类,使得惩罚最小。这些学到的分类规则可以进行预测等活动,具体应用覆盖了从通用人工智能应用到专用人工智能应用的大多数领域,如:计算机视觉、自然语言处理、生物特征识别、证券市场分析和DNA测序等。
模式识别:模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读,它偏重于对信号、图像、语音、文字、指纹等非直观数据方面的处理,如语音识别,人脸识别等,通过提取出相关的特征来实现一定的目标。文字识别、语音识别、指纹识别和图像识别等都属于模式识别的场景应用。
人机交互:人机交互是一门研究系统与用户之间交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。在应用层面,它既包括人与系统的语音交互,也包含了人与机器人实体的物理交互。
而在国内,人工智能技术平台在应用层面主要聚焦于计算机视觉、语音识别和语言技术处理领域,其中的代表企业包括科大讯飞、格灵深瞳、捷通华声(灵云)、地平线、SenseTime、永洪科技、旷视科技、云知声等。
人工智能应用
人工智能应用涉及到专用应用和通用应用两个方面,这也是机器学习、模式识别和人机交互这三项人工智能技术的落地实现形式。其中,专用领域的应用涵盖了目前国内人工智能应用的大多数应用,包括各领域的人脸和语音识别以及服务型机器人等方面;而通用型则侧重于金融、医疗、智能家居等领域的通用解决方案,目前国内人工智能应用正处于由专业应用向通用应用过度的发展阶段。
(1)计算机视觉在国内计算机视觉领域,动静态图像识别和人脸识别是主要研究方向
图像识别:是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。
人脸识别:是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术,通常也叫做人像识别、面部识别。
目前,由于动态检测与识别的技术门槛限制,静态图像识别与人脸识别的研究暂时处于领先位置,其中既有腾讯、蚂蚁金服、百度和搜狗这样基于社交、搜索大数据整合的互联网公司,也有三星中国技术研究院、微软亚洲研究院、Intel中国研究院这类的传统硬件与技术服务商;同时,类似于Face++和FaceID这类的新兴技术公司也在各自专业技术和识别准确率上取得了不错的突破。
而在难度最大的动态视觉检测领域,格灵深瞳、东方网力和Video++等企业的着力点主要在企业和家庭安防,在一些常见的应用场景也与人脸识别技术联动使用。
(2)语音/语义识别
语音识别的关键基于大量样本数据的识别处理,因此,国内大多数语音识别技术商都在平台化的方向上发力,希望通过不同平台以及软硬件方面的数据和技术积累不断提高识别准确率。
在通用识别率上,各企业的成绩基本维持在95%左右,真正的差异化在于对垂直领域的定制化开发。类似百度、科大讯飞这样的上市公司凭借着深厚的技术、数据积累占据在市场前列的位置,并且通过软硬件服务的开发不断进化着自身的服务能力;此外,在科大讯飞之后国内第二家语音识别公有云的云知声在各项通用语音服务技术的提供上也占据着不小的市场空间。值得注意的是,不少机器人和通用硬件制造商在语音、语义的识别上也取得了不错的进展,例如智臻智能推出的小i机器人的语义识别、图灵机器人的个性化语音助手机器人和服务、被Google投资的出门问问的软硬件服务。
(3)智能机器人
由于工业发展和智能化生活的需要,目前国内智能机器人行业的研发主要集中于家庭机器人、工业企业服务和智能助手三个方面其中,工业及企业服务类的机器人研发企业依托政策背景和市场需要处于较为发达的发展阶段,代表性企业包括依托中科院沈阳自动化研究所的新松机器人、聚焦智能医疗领域的博实股份,以及大疆、优爱宝机器人、Slamtec这类专注工业生产和企业服务的智能机器人公司。在以上三个分类中,从事家庭机器人和智能助手的企业占据着绝大多数比例,涉及到的国内企业近300家。
(4)智能家居
与家庭机器人不同,智能家居和物联企业的主要着力点在于智能设备和智能中控两个方面。在这其中,以海尔和美的为代表的传统家电企业依托自身渠道、技术和配套产品优势建立起了实体化智能家居产品生态.而以阿里、腾讯、京东、小米和乐视等互联网企业为代表的公司则通过各自平台内的数据和终端资源提供不同的软硬件服务。
值得关注的是,科沃斯、broadlink、感居物联、风向标科技、欧瑞博、物联传感和华为等技术解决方案商在通用硬件和技术、系统级解决方案上已成为诸多智能家居和物联企业的合作伙伴。综合来看,智能家居和物联企业由于市场分类、技术种类和数据积累的不同各自提供着差异化的解决方案。在既定市场中,没有绝对意义上的排斥竞争,各企业之间的合作融合度较强。
(5)智能医疗
目前国内智能医疗领域的研究主要集中于医疗机器人、医疗解决方案和生命科学领域。由于起步较晚和技术门槛的限制,目前国内医用机器人的研发水平和普及率相较于国际一线水平仍存在一定的差距,从事企业主要集中与手术机器人和康复机器人两大领域,以新松机器人、博实股份、妙手机器人、和技创等企业为代表。
在医疗解决方案方面,以腾讯、阿里巴巴、百度和科大讯飞为代表的公司通过和政府、医疗机构的合作,为脑科学、疾病防治与医疗信息数据等领域提供智能解决方案。而在生命科学领域,研究的着眼点在以基因和细胞检测为代表的前沿研究领域。
综合来看,国内人工智能产业链的基础技术链条已经构建成熟,人工智能技术和应用则集中在人脸和图像识别、语音助手、智能生活等专用领域的场景化解决方案上。就趋势来看,未来国内人工智能领域的差异化竞争和突破将主要集中在人工智能相关技术的突破和应用场景升级两个层面。
未来国内人工智能行业发展的五大趋势
(1)机器学习与场景应用将迎来下一轮爆发
根据VentureScanner的统计,截至2015年9月,全球人工智能领域获得投资的公司中,按照平均融资额度排名的五大业务依次是:机器学习(应用类)、智能机器人、计算机视觉(研发类)、机器学习(研发类)和视频内容识别等。
自2009年以来,人工智能已经吸引了超过170亿美元的投资。过去四年间,人工智能领域的民间投资以平均每年62%的增长速率增加,这一速率预计还会持续下去。而在2015年,全球人工智能领域的投资占到了年度总投资的5%,尽管高于2013年的2%,但相比其他竞争领域仍处于落后位置。
目前中国地区人工智能领域获得投资最多的五大细分领域是计算机视觉(研发类)、自然语言处理、私人虚拟助理、智能机器人和语音识别。从投资领域和趋势来看,未来国内人工智能行业的资本将主要涌向机器学习与场景应用两大方向。
(2)专用领域的智能化仍是发展核心
基于GPU(图形处理器)计算速度(每半年性能增加一倍)和基础技术平台的飞速发展,企业对于人工智能神经网络的构建取得了前所未有的突破。但是,由于人工智能各领域技术和算法的复杂性,未来20年内人工智能的应用仍将集中于人脸和图像识别、语音助手和智能家居等专用领域。
通过上述产业链环节构成和投资分类可以看出,优势企业的核心竞争力主要集中于特定领域的专用技术研发;其中,计算机视觉和语音识别领域的研发和应用已处于国际一流水平,专业应用机器人的研发也有望近10年内迎来突破性发展。可以预见的是,在由专业领域向通用领域过渡的过程中,自然语言处理与计算机视觉两个方向将会成为人工智能通用应用最大的两个突破口。
(3)产业分工日渐明晰,企业合作大于竞争
随着专用领域应用开发的成熟和差异化技术门槛的存在,国内人工智能产业将逐渐分化为底层基础构建、通用场景应用和专用应用研发三个方向。
在底层基础构建方面,腾讯、阿里巴巴、百度、华为等企业依托自身数据、算法、技术和服务器优势为行业链条的各公司提供基础资源支持的同时,也会将自身优势转化为通用和专业应用领域的研究,从而形成自身生态内的人工智能产业链闭环。
在通用场景应用方面,以科大讯飞、格灵深瞳和旷视科技为代表的企业将主要以计算机视觉和语音识别为方向,为安防、教育和金融等领域提供通用解决方案。而在专用应用研发方面则集中了大部分硬件和创业企业,这其中既包括以小米和broadlink为代表的智能家居解决方案商,也包含了出门问问、linkface和优必选这类的差异化应用提供商。
总的来说,由通用领域向专业领域的进化离不开产业链条各核心环节企业的相互配合,专用领域的竞争尽管存在,但各分工层级间的协作互通已成为多数企业的共识。
(4)系统级开源将成为常态
任何一个人工智能研究分支都涉及到异常庞大的代码计算,加上漏洞排查与跨领域交叉,任何一家企业都无法做到在封闭环境内取得阶段性突破的可能。可以看到的趋势是,Google、微软、Facebook和雅虎等视人工智能为未来核心竞争力的顶级企业都先后开放了自身的人工智能系统。
需要明确的一点是,开源并不代表核心技术和算法的完全出让,底层系统的开源将会让更多企业从不同维度参与到人工智能相关领域的研发,这为行业层面新产品的快速迭代和共同试错提供了一个良性且规范化的共生平台。于开放企业而言,这也确保了它们与行业最新前沿技术的同步。
(5)算法突破将拉开竞争差距
作为人工智能实现的核心,算法将成为未来国内人工智能行业最大的竞争门槛。以Google为例,Google旗下的搜索算法实验室每天都要进行超过200次的改进,以完成由关键字匹配到知识图谱、语义搜索的算法创新。
在未来竞争的重点机器学习领域,监督学习、非监督学习和增强学习三个方面算法的竞争将进入白热化阶段。而正是算法层面的突破造就了腾讯优图、科大讯飞和格灵深瞳等企业在图像识别和计算机视觉领域取得了突破性进展和国际一线的技术水平。
但就目前国内人工智能算法的总体发展而言,工程学算法虽已取得阶段性突破,但基于认知层面的算法水平还亟待提高,这也是未来竞争的核心领域。
总的来看,虽然基础技术的成熟带来了存储容量和机器学习等人工智能技术的提升,但由于现阶段运算能力以及大规模CPU和GPU并行解决方案的局限,目前国内人工智能的发展主要集中于计算机视觉、语音识别、智能生活等方向上。
虽然专用化领域的场景应用仍是目前研发和投资的核心,但随着技术、数据的积累演化以及超算平台的应用,由专用化领域的场景应用向语音、视觉等领域的通用化解决方案应该在未来20年内成为发展的主流。
【关键词】计算机技术;园林设计;应用
随着电子计算机技术的不断发展和计算机技术应用的迅速普及,计算机已经渗透到社会的各个学科和领域,涵盖范围涉及机械电子工程、电视电影制作、广告创意设计、室内装修设计等等。如今,人们对于生态环境保护的关注度越来越高,人们的环境保护意识也逐渐强,这预示着园林设计将会得到更多关注力度,因而计算机技术在园林设计中的应用将更为重视。
1计算机技术与园林设计的关系
1.1园林设计的基本概念阐述
园林设计指的是在一定的地域范围内,运用园林艺术和工程技术手段,通过改造地形,种植花草树木,营造建筑和布置园路等途径创作而建成美的自然环境和生活、游憩境域的过程。它展现出的成果不仅是一件艺术品,更是一种文化信息的载体。园林设计是一门协调人类活动、社会经济发展和自然环境达到和谐完美统一的综合性学科。所以,这就要求园林设计工作者具备较高的综合素质,良好的专业技能和扎实的理论知识,并且要学会不断学习,追求进步,吸收现代自然科学、社会科学的新观念,掌握发展规律及态势。
1.2计算机技术辅助园林设计
一个好的园林设计作品,离不开两大因素,一是园林设计工作者要拥有良好的设计思想和理念,在空间意识、审美观念、人生情趣及艺术修养等方面都有较高的造诣。二是园林设计工作者要掌握一定的计算机技术,学会使用计算机绘制出园林设计图,计算机的运用不仅能帮助设计者更好地表达设计思想和理念,而且能够帮忙检验和修改设计图,节约时间、提高质量。园林设计工作者在实际的工作中,第一步先通过实地考察,初步建立一个设计思想和理念框架,第二步是使用计算机技术,进一步帮助完成、完善设计方案,根据最终的效果图判断方案的可行性。其中,设计者利用计算机软件技术进行园林设计,可以从任务书、基地调查与分析、方案设计、详细图设计、施工图制作等阶段进行。设计者紧密结合计算机技术和园林设计过程,首先是资料的录入工作,先在电脑中输入基础资料,从而让计算机系统自主参与分析,计算以及设计。然后是合成实景景物的工作,在景物合成的阶段同时进行实时三维效果预视,在此过程中,设计者便可以一面感受视觉效果,一面进行二次地设计和修改创作。当设计者完成设计过程,设计图纸也相应诞生了,从而节省了时间、提高了工作效率。最后是各种丰富多彩、设计必要的设计图、工程图、效果图以及三维动画漫游的效果的工作。园林设计最终形成的方案将涵盖平面图、剖面图、效果图、文字说明和模拟动画图像等图形图像内容,以及特色的背景音乐、精彩的解说这些全面而丰富的内容,把这些部分组合起来,会产生不一样的视听效果,乃至给人们一种身临其境的感觉。
2计算机技术在园林设计中的应用路径探索
2.1虚拟现实技术
虚拟现实技术(VirtualReality,简称VR),指的是一种可以创建和体验虚拟世界的计算机仿真系统。它利用计算机技术生成一种多源信息交融的虚拟环境,这种环境除计算机自身能生成的视觉感知外,还可以产生听觉、触觉、嗅觉等多种感知。参与者沉浸到这种环境中,通过运用自己的视觉点去直接地感受观察,以及多角度多方位的体验融合,从而带给人一种“身临其境”的感觉,这在一定程度上促进了人机的合二为一。假如把这种VR技术运用到园林设计中呢,那将是一种什么样的感受?第一,可以达成出一种人机交流的效果,当设计者通过VR技术去面对设计对象时,他们将对这个整体有一个更为直观的感受和体会。园林设计工作有一个很大的特点,就是在动工之前就必须对完工之后的环境有一个明确的、清晰的概念,这是因为园林造景与周围的环境变化有着极高的关联度,而且还对于环境变化要具有一定的预见性。通常,设计者在展示给决策者、工程人员及大众设计效果时,会利用沙盘、三维效果图、漫游动画等几种方式来展示。这几种传统的展示方式在以前技术不发达的时候具有一定的优势,但是随着技术的发达,他们都逐渐呈现出一个较为明显的缺点,那就是难以将人的感受与设计对象融为一体,让看客得到全方位的观察设计效果,给人身临其境的感觉。现在随着VR技术的诞生,这个问题已经得到了解决。决策者、工程人员以及大众通过VR技术的展示,不仅可以实现任意角度的、实时的观看、感受,还能够真实地、身临其境般的与周围景物进行互动,更有助于他们较简单地理解设计者的设计意图。VR技术解决了传统手段不能达到的一个难题,提高了园林设计效果。
2.2Internet(互联网)信息技术
互联网信息技术的强大已经不是单方面能够想象的了,只要随便输入一个关键词都能获取许多丰富且全面的园林信息资源。因此,园林工作者可以充分有效地利用网络技术带来的便利,到网上进行查询、检索等信息服务,以此来获取所需的丰富的信息资料。同时,他们还可以在线通过互联网技术进行信息共享,把有价值的资源与他人分享交流。总之,园林设计是一门综合了艺术与科学的技艺学科。近年来,越来越受到人们的广泛关注。重视的方面由大型的城市建设规划方面,到小型的小区环境建设开发等方面。计算机技术在园林设计中的应用将随之逐渐走向规范化、高效化,科学的软件技术应用将为园林设计的发展提供更加有力的保障。
参考文献:
关键词:避障;重叠区域;测距;单双目结合;全景相机
中图分类号:TN948.41?34;TH761.2文献标识码:A文章编号:1004?373X(2017)05?0038?04
Abstract:Therangefindingtechnologybasedonparallelbinocularvisionhasbecomerelativelymature,buttheunparallelpositionofthetwocamerasinthepracticalapplicationscanreducethefieldoverlappingareaofthetwocameras,soastoshortenthescopeofrangefinding.Aimingattheaboveproblems,anomnidirectionalrangefindingmethodcombiningbinocularvisionwithmonocularvisionisproposed,inwhichthebinocularrangefindingisusedintheFOVoverlappingarea,andthemonocularrangefindingisusedinthenon?overlappingareatorealizetheobstaclerangefindingintheomnidirectionalFOV.Themethodispopularizedtotheomnidirectionalrangefindingofthepanoramacamera.Theprecisionoftherangefindingmethodwasverifiedwithanexperiment.Theexperimentalresultsshowthatthemethodhashighrangefindingaccuracy,andcanmeettheaccuracyrequirementoftheobstacleavoidance.
Keywords:obstacleavoidance;overlappingarea;rangefinding;monocularandbinocularcombination;panoramacamera
0引言
C器视觉是人类利用计算机实现人的视觉功能对客观世界三维场景的感知、识别和理解,是一个相当全新而且发展迅速的研究领域[1]。基于各类传感器的机器人避障研究一直是机器人研究领域的热点,例如利用激光雷达、超声波等传感器[2?6]。激光雷达和超声波的原理都是通过主动发射脉冲和接收反射脉冲来测距的,因此当多个机器人同时工作时,相互之间可能产生干扰,而视觉是被动测量,不存在这种问题。将视觉传感器与接触传感器、激光雷达和超声波等其他传感器相比,机器视觉测量到的障碍物信息更丰富、完整,而且增加了障碍物的检测范围,这使得通过视觉传感器准确获取信息成为智能机器人避障的主要发展方向之一。
传统的局部视觉系统尽管成像形变较小、使用方便,但观察范围有限,只能观测到摄像机前方几十度视场内的目标,在场地复杂环境下能够提供的信息较少,不利于优化避障决策。因此,国内外都开始了对全景视觉系统的研究。杨鹏等针对足球机器人比赛中要求快速准确获取目标位置信息的特点,设计了由双曲面折反射全景视觉和前向视觉共同构建而成的机器人视觉系统[6]。周宗思将全方位视觉传感器采用两个相同结构的双曲面折反射摄像机同轴同向上下安装,然后根据双目测距原理检测障碍物[7]。文献[8]提出一种只使用一个全景相机检测静态障碍物的绝对距离,这种方法不需要知道基线长或人工标记,但是需要确定相机中心距地面的距离。文献[9]将两个Ladybug3上下对齐重叠构成全方位立体视觉系统,获取3D深度图,实现距离的测量,缺点是需要2个全景相机,体积大、成本高。
本文基于以上背景提出了一种单双目结合的测距方法,实验结果证明该方法具有较好的测距精度,能满足避障的精确性要求。
1单双目测距策略
本文研究的双目视觉系统镜头分布及测量范围的平面示意图,如图1所示。根据其视场分为四个区域,A区为视场重叠区,B、C区为非重叠区域,即只有一个摄像机能观测到的区域,以及一个盲区,即两个摄像机都观测不到的区域。O0,O1分别为cam0,cam1的光心,Z0,Z1分别为光轴,[β]是两摄像机所成的夹角([90°
则相邻摄像机重叠区域的角度[θ]的计算公式为:
投射到图像平面上的各个区域的关系示意图如图2所示。其中[W]为采集到单幅图像的宽度,根据式(1)与图2的三角关系可以计算出重叠区域的宽度[d:]
在求出重叠区域的宽度[d]后,即可确定视场分界线的位置。根据视场分界线判断障碍物是否存在重叠区域,来确定使用双目测距或单目测距。假设cam0中一个视角边界[l0]与[x]轴重合,[l2]为最左边界;[l1]为cam1的最右边界,[l3]为最左边界,如图3所示。
在图3中,[α0]为cam0的非重叠视场,[α1]为cam0与cam1的重叠视场,[α2]为cam1的非重叠视场。由式(1),式(2)可得:
若摄像机的视场中存在障碍物[(x,y),]定义[G(x,y)]为被测障碍物与视场分界线的关系函数,以此判断其障碍物是否在重叠区域。函数如下:
根据[G(x,y)]取值,即可判断被测障碍物处于摄像机的视场内位置。若障碍物处于重叠区域中,则开启双目测距机制;若处于非重叠区域中,则开启单目测距机制。
本文将以上提出的单双目结合测距策略应用于全景相机Ladybug3,实现360°测距。Ladybug3全景相机是一种多相机球面全景成像系统,它由6个200万像素SONY镜头相机组成,其结构如图4所示。
全景相机Ladybug3的镜头成正五边形分布,其中侧面5个相机负责拍摄水平方向图片,顶部1个相机负责拍摄垂直方向图片,能同时采集6幅图像。侧面5个相机可以形成5对单双目组合,从而实现360°障碍物测距。
2重叠区双目测距
如果障碍物处于图1的A区域中,则两个摄像机可以同时观测到此障碍物。此时,开启双目测距机制,当对两个摄像机的摆放位置不做特别要求,两摄像机之间有任意的旋转和平移,这样便构成了非平行配置双目立体视觉。
设两摄像机的有效焦距分别为[f0]和[f1,]取cam0的坐标系为[O?xyz,]图像坐标系为[O0?X0Y0,]cam1的坐标系为[O1?x1y1z1,]图像坐标系为[O1?X1Y1,]空间任意一点[P(x,y,z),][P]点在左右图像上的坐标分别为[P0(X0,Y0)]和[P1(X1,Y1)。]
根据透视变换的三角关系等式可以得到:
[X0=f0xz,Y0=f0yz,X1=f1x1z1,Y1=f1y1z1](5)
而cam0的坐标系与cam1的坐标系之间的相互位置关系可以通过空间变换矩阵[M]来表示。
[xryrzr=Mxyz1,M=r1r2r3txr4r5r6tyr7r8r9tz=Rt](6)
式中:[R]和[t]分别为[O?xyz]坐标系与[O1?x1y1z1]坐标系之间的旋转矩阵和原点之间的平移向量。可以推导出空间点的三维坐标为:
通过摄像机标定技术得到了左右相机的有效焦距及左右相机之间的旋转矩阵[R]与平移向量[t,]则只要通过匹配算法获得空间物点在左右像平面上所成像点的坐标,就可以按照式(7)计算出空间物点的三维空间坐标及深度信息。
下面以cam0和cam1为例阐述对障碍物测距:由Ladybug3的SDK同步获得图像;利用Matlab标定工具箱对摄像机进行标定,得到内外参数;使用RANSAC?SIFT匹配算法对采集的图像进行匹配,获取特征点坐标;利用透视模型推导式(7)计算距离。测量距离与实际距离及误差如表1所示。
3非重叠区单目测距
如果障碍物处于图1的B或C区域中,则只有一个摄像机可以观测到此障碍物。此时,开启单目测距机制。单目视觉系统一般对摄像机进行内、外参数标定,建立测量坐标参考系,采用对应点标定法获取图像的深度信息,然后求得物体的距离。对应点标定法是指通过不同坐标系中对应点的对应坐标求解坐标系的转换关系,在标定过程中,由于受器材限制,无法做到十分精确地记录一个点在世界坐标系和图像坐标系中的对应坐标。
本文采用数据回归建模的方法[12]建立测距模型,先获取距离样本点与像平面之间较为稠密的一一对应关系,再用数据回归分析的方法建立该映射关系对应的测距模型。该方法不用再单独考虑成像模型、成像系统误差、透镜畸变等带来的影响,而是在进行回归拟合时隐含地加以解决。与以前方法相比,计算复杂性不高,但相对而言,准确性和鲁棒性较高,且无须在使用前标定相机。
回归建模所需的观察数据来自定标实验。从1.2m处开始测量,每隔0.2m测量一次,一直到5m处,共20个观察值。由记录所得的观察数据,采用非线性回归对该模型进行拟合。
回归模型进行非线性回归建模:
式中:[D]为要求取的实际距离;[y]为像平面垂直高度值;[(b0,b1,b2)]为未知参数;[ε]为零均值的随机变量。定义[y1=y,][y2=y2,]利用最小二乘法对参数[(b0,b1,b2)]进行估计,像平面垂直高度[y]对实际距离[D]的回归方程为:
最后,利用检验假设检验显著性水平,验证上述回归方程是否有意义,结果表明回归方程有意义。使用非线性回归模型求得的测量距离与实际距离及误差见表2。
4实验结果分析
Ρ1,表2的实验结果进行分析,可以看出:双目测距结果最大误差在5m处,达到4.30%,误差随着距离的增大逐渐增大;单目测距结果的最大误差为3m时的8.67%,误差的变化较为随机,并不随着距离的增大而增大,但是误差明显比双目测距要大。实验中的测距相对误差最大为9.78%,测距绝对误差最大为0.76m,其中,在5~10m范围最大误差为0.57m,在10~20m范围内最大误差为0.76m。可见,在要求的安全行车距离范围之内,本文提出的测距算法完全可以满足测距的准确性要求。
5结论
本文提出了一种单双目结合的全景测距方法。该方法通过在视场重叠区域使用双目测距,在非重叠区域使用单目测距,充分利用整个视场实现障碍物测距。此方法对于多目全景相机解决360°障碍物探测具有指导性意义。同时,实验结果分析表明,该方法具有较好的测距精度,能满足避障的精确性要求。
本文下一步将把单双目结合测距策略应用于多目全景相机Ladybug3中,实现全方位障碍物检测。同时,针对单目测距精度较低的问题继续进行实验,对一定距离障碍物分别采用双目和单目方式测距,得出所用相机两种方式测距之间的定量误差关系,用于校正实际使用时单目测距区的测量值。
注:本文通讯作者为赵祚喜。
参考文献
[1]张广军.机器视觉[M].北京:科学出版社,2005.
[2]刘杰,闫清东,唐正华.基于激光雷达的移动机器人避障控制研究[J].计算机测量与控制,2015,23(3):787?790.
[3]蔡自兴,郑敏捷,邹小兵.基于激光雷达的移动机器人实时避障策略[J].中南大学学报(自然科学版),2006,37(2):324?329.
[4]李恒,徐小力,左云波.移动机器人超声波测距避障系统设计[J].现代电子技术,2014,37(3):157?159.
[5]韩军,常瑞丽,陈志灵.智能移动机器人超声波测距定位系统的研究[J].煤矿机械,2009,30(8):66?68.
[6]杨鹏,高晶,刘作军,等.基于全景与前向视觉的足球机器人定位方法研究[J].控制与决策,2008,23(1):75?78.
[7]周宗思.全方位视觉技术及其在移动机器人导航中的应用[D].杭州:浙江工业大学,2008.
[8]MILLNERTO,GOEDEMET,TUYTELAARST,etal.Rangedeterminationformobilerobotsusinganomnidirectionalca?mera[J].Integratedcomputer?aidedengineering,2007,14(1):63?72.
[9]YANGLiangliang,NOGUCHINoboru,ISHIIKazunobu.Deve?lopmentofarealtimemulti?lensbasedomni?directionalstereovision[R].US:PerkinElmer,2012.
[10]KINDLMANNU,WHITAKERR,TASDIZENT,etal.Curvature?basedtransferfunctionsfordirectvolumerendering:methodsandapplications[C]//Proceedingsof2003IEEEVisualizationConference.SalkLake:IEEE,2003:513?520.
关键词:双目立体视觉;区域相关;立体匹配;标准测试图
中图分类号:TP391文献标识码:A
文章编号:1004-373X(2009)12-068-03
ImprovementofRegionalRelatedMatchAlgorithmfor
BinocularStereoVisionandItsImplementation
HERenjie
(ElectronicsandInformationSchool,NorthwesternPolytechnicalUniversity,Xi′an,710129,China)
Abstract:Matchalgorithmisoneofkeytechniquesinthebinocularstereovisionsystem.Thesimilarityfunctions,theregionalrelatedmatchalgorithmsforBinocularstereovisionarediscussedandthealgorithmiccomplexityisanalyzed.Moreover,anewimprovedregionalrelatedmatchalgorithmbyslidingpatternplateisproposedtodecreasethematchingtimeandatestsoftwareisdesignedbyusingVC++andOPEN-CV.Anumberofexperimentsarecarriedoutthroughthetwo-camerasystemandthestandardtestimagesaswellaspracticalsenseimages.Theanalyticalandexperimentalresultsshowthattheimprovedmethodiseffectiveanditsmatchingtimeisdecreasedgreatly.
Keywords:binocularstereovision;regionalrelated;stereomatch;standardtestimage
0引言
立体视觉是计算机视觉的一个重要分支,主要研究如何借助成像技术从图像中获取场景中物体的三维信息[1-3]。立体视觉的基本方法是从两个或者多个视点去观察同一场景,获得在不同视角下的一组图像;然后通过三角测量原理获得不同图像中对应像素间的视差,并从中获得深度信息,进而与平面信息整合形成立体图像。立体匹配是立体视觉算法中最重要也是最困难的部分。
根据匹配基元的不同,现有的立体匹配方法可大致分为三类:基于特征的匹配[4,5],基于区域的匹配[6]和基于相位的匹配[7]。
本文重点研究双目视觉立体匹配中基于区域的局部匹配算法,对基于SAD(SumofAbsoluteDifference)的区域匹配算法通过模板滑动进行了改进。经分析和多次实验结果表明,该改进算法具有有效性和快速性。
1双目立体视觉区域局部匹配的理论基础
1.1相似性测度函数
匹配算法的实质就是估计待匹配点和候选匹配点之间的相似性程度,评价这种相似性程度度量方法有多种。由于单个像素点所包含的信息太少,因而只依据单个像素点是的信息建立度量方法可靠性较差。为了提高相似性度量方法的可靠性,一般需要在匹配点上的一个小邻域内的像素点集合中进行。
表1列出了目前几种主要的相似性测度函数[6]。其中,IL(x,y),IR(x,y)分别代表左右图像中像素坐标(x,y)处的灰度值;IL(x,y),IR(x,y)分别表示左右图中以坐标(x,y)为中心,在窗口范围U内像素灰度的平均值。由于SAD相似性测度函数在时间以及匹配质量方面较其他测度函数更具有优势,且实现较简单[8]。这里研究选择SAD作为局部相关匹配算法的相似性测度函数。
1.2局部相关匹配算法原理
局部相关匹配算法是以基准图像中待匹配点为中心像素来创建一个大小为n×n的矩形窗,由该窗口内的像素灰度分布来表征该像素。在第二幅图像中,沿极线在视差范围内取出与基准点邻域同样大小为n×n的像素邻域,依次与匹配点的窗口进行比较,最大相似性对应的点就是最佳匹配。整个匹配过程如图1所示。
表1几种相似性测度函数
名称公式
SAD∑(i,j)∈U|IL(x+i,y+j)-IR(x+dx+i,y+j)|
ZSAD∑(i,j)∈U|[IL(x+i,y+j)-IR(x,y)]-
[IR(x+dx+i,y+j)-IR(x+dx,y)]|
SSD∑(i,j)∈U[IL(x+i,y+j)-IR(x+dx+i,y+j)]2
ZSSD∑(i,j)∈U[IL(x+i,y+j)-IL(x,y)]-
[IR(x+dx+i,y+j)-IR(x+dx,y)]2
SSD-N∑(i,j)∈U[IL(x+i,y+j)-IR(x+dx+i,y+j)]2∑(i,j)∈UIL(x+i,y+j)2∑(i,j)∈UIR(x+dx+i,y+j)2
SCP∑(i,j)∈UIL(x+i,y+j)IR(x+dx+i,y+j)
图1局部相关算法原理示意图
1.3局部相关匹配算法的时间复杂度
在图1(a)中坐标为(x,y)的像素点,算法要计算图1(b)中所有相关像素的相似性。根据极线约束以及视差约束,在图1(b)中只需计算同一极线上,视差范围内的像素相似性即可,需要的计算量为:
T(x,y)=dmaxn2(1)
式中:n为正方形窗口边长;dmax为最大视差。设W为图像的宽度;H为图像的高度,对于整幅图片,全部相似性的计算量为:
T=∑0≤i
易知,局部相关匹配算法的时间复杂度为O(WHdmaxn2)。
1.4局部相关匹配算法的改进
若假设匹配窗口的边长为2n+1,对于每行像素,其相似性测度函数为P(x,y,d)=∑ni=-n|IL(x+i,y)-IR(x+i+d,y)|;在模板向右滑动时,P(x+1,y,d)可由之前的计算结果得到,有迭代公式:
P(x+1,y,d)=P(x,y,d)+[|IL(x+n+1,y)-
IR(x+n+1+d,y)|-|IL(x-n,y)-
IR(x-n+d,y)|](3)
即在模板滑动时,不需要重新计算整个窗口的SAD,而只需计算新的一列SAD。分析可知,改进后算法的时间复杂度由O(WHdmaxn2)降为O(WHdmaxn),算法实时性有了较大提升。
2双目立体视觉区域局部匹配算法的实现
2.1实验环境
该研究的实验主要是通过计算机编程实现区域局部匹配算法,并在双相机系统上利用标准和实际场景图像进行验证性实验的。以VC++6.0及OPENCV为编程环境,完成验证软件设计。
该研究的验证实验使用了西安交通大学系统工程所的实验设备(如图2所示)。两只摄像机平行放置,其位置姿态参数已由标定结果给出,如表2所示。
图2试验系统
表2相机标定参数表(以像素为单位)
参数指标左相机右相机
焦距699.85696.15
相机中心[392.34283.94][389.26308.18]
畸变[-0.270200.45448][-0.239750.25622]
旋转角/radα=0.01377,β=0.00107,γ=0.00038
相对位移/mmt1=87.921,t2=1.205,t3=4.980
摄像机与处理计算机之间通过双1394总线连接,计算机中配备2块64位PCI-1394卡,以适应摄像机高速图像流的要求。摄像机的主要参数如表3所示。
表3摄像机参数
摄像机特性参数
CCD传感器SonyProgressiveScanCCDs
CCD最大像素1624×1224
像素大小4.4μm×4.4μm
支持图像大小320×240(30),640×480(30),800×600(30),1600×1200(15)
快门0.01~66.63ms
图像输出方式双1394总线输出
2.2软件设计流程图
系统算法流程图如图3所示。
图3系统算法流程图
2.3实验结果
部分实验结果如图4所示。
图4实验结果
由图4可知[10],实验得到的图片较好地完成了对现实场景中的匹配,可以较直接地从所得视差图中获得物体的深度信息。
同时,图像边缘处的匹配精度受到图像边界的影响,误差较大,真实场景图片中噪声较大,导致误匹配较多。如何减少误差,提高精度是现在和今后重点考虑的问题之一。
3结语
这里对双目立体视觉中的区域局部匹配算法进行讨论,对现有SAD算法进行了改进,较显著地提高了匹配速度。在实验平台上较好地完成了对标准图像及现实场景图像的视差图获取,验证了算法的有效性和快速性。
参考文献
[1]章毓晋.图像工程(下册)图像理解[M].2版.北京:清华大学出版社,2007.
[2]何明一,卫保国.数字图像处理[M].北京:科学出版社,2008.
[3]游素亚.立体视觉研究的现状与进展[J].中国图像图形学报,1997,2(1):1-2.
[4]HajarSadeghi,PaymanMoallem,MonadjemiSA.FeatureBasedDenseStereoMatchingusingDynamicProgrammingandColor[J].InternationalJournalofComputationalIntelligence,2004,4(3):179-186.
[5]高峰,文贡坚,吕金建.一种准自动高精度图像配准算法[J].现代电子技术,2007,30(6):56-59.
[6]KukJinYoon,InSoKweon.AdaptiveSupport-WeightApproachforCorrespondenceSearch[A].APRIL[C].2006,28(4):650-655.
[7]徐奕,周军,周源华.立体视觉匹配技术[J].计算机工程与应用,2003,39(15):388-392.
[8]CyganekB,BorgoszJ.AComparativeStudyofPerformanceandImplementationofSomeArea-basedStereoAlgorithms[A].CAIP[C].2001,21(24):709-716.
关键词:视觉跟踪;复杂场景;融合;支持向量机;粒子滤波
中图分类号:TP391文献标识码:A文章编号:1009-3044(2016)01-0196-02
ResearchonVisualTrackinginComplexScenes
DINGJian-wei1,LIUWei2,3
(1.People'sPublicSecurityUniversityofChina,Beijing,102623,China;2.SchoolofElectro-mechanicalEngineering,NanyangNormalUniversity,Nanyang473061,China;3.OilEquipmentIntelligentControlEngineeringLaboratoryofHenanProvince,NanyangNormalUniversity,Nanyang473061,China)
Abstract:Itisstilldifficultforexistingvisualtrackingalgorithmstotrackeffectivelymovingobjectsincomplexscenes.However,itcanpromotetrackingperformanceslargelybyintegratingmultiplefeaturesincomplexscenes.Thispaperproposesamultiplefeaturesfusionbasedvisualtrackingalgorithminparticlefilterframework.Andtheonlinetrainedsupportvectormachineclassifierisusedtoconstructthediscriminativeappearancemodel.Themethodistestedinvideoswithcomplexscenes,andexperimentalresultsshowsthattheproposedtrackingalgorithmisrobustandaccurate.
Keywords:visualtracking;complexscenes;fusion;supportvectormachine;particlefilter
1概述
视觉跟踪研究如何让计算机自动确定感兴趣的目标在视频中的位置、轨迹以及运动参数等信息,是计算机视觉的关键研究问题。近年来,虽然视觉跟踪研究有了长足的进步,但当场景中存在严重的图像噪声、快速的光照、姿态变化以及复杂的目标运动时,现有的目标跟踪算法依然很难解决这些难题,原因在于跟踪的核心问题目标表观建模还没有得到根本解决。
对目标表观进行建模,一般需要首先提取跟踪物体的视觉特征,常用的特征有原始像素特征[1]和直方图特征[2]等,这些特征都有其优缺点,并不适用于任意场景和物体。因此,本文研究基于多种视觉特征描述目标表观,避免使用单一特征存在的缺点,提升跟踪算法在复杂场景中的性能,
2算法框架
在粒子滤波框架下,跟踪可以看做是贝叶斯状态空间推理问题:
[p(Xt|Ot)∝p(ot|Xt)p(Xt|Xt-1)p(Xt|Ot)dXt-1](1)
其中[Ot={o1,o2…ot}]是目标的观测集合,[ot]是目标在t时刻的观测向量。[Xt]是目标在t时刻的状态参数,[Xt=(xt,yt,ht,wt)],其中[xt],[yt],[ht]和[wt]分别表示目标在横轴和纵轴的位移,以及跟踪方框的长度和宽度。跟踪过程由表观似然度函数[p(ot|Xt)]和目标动态函数[p(Xt|Xt-1)]决定,下面分别讨论。
2.1表观似然度函数
表观似然度函数[p(ot|Xt)]表示目标状态为[Xt]时观测为[ot]的概率,基于在线学习的目标表观模型计算得到。目标表观模型可分为生成式和判别式两种,由于判别式模型融合了背景信息,因而在跟踪时能够比生成式模型更好的区分相似物体的干扰,本文选择判别式表观模型描述目标,具体包括特征提取和在线分类器学习。
2.1.1多特征融合
为了克服单一特征造成的局限性,提高跟踪算法在复杂场景下的准确性,本文选择融合HSI颜色特征、局部二值模式(LocalBinaryPatterns,LBP)特征、方向梯度直方图(HistogramofOrientedGradient,HOG)特征描述目标。
HSI颜色特征:基于HSI颜色空间提取的特征,包括色度(Hue)、饱和度(Saturation)和灰度(Intensity)。将输入图像从RGB空间转化到HSI空间,调整图像尺寸为标准大小,例如24×24像素,并将该颜色特征向量进行归一化。
LBP特征:是一种有效的纹理描述算子,用来度量和提取图像局部的纹理信息,具有旋转不变性和灰度不变性等显著的优点。
HOG特征:HOG特征[3]通过计算和统计图像局部区域的梯度方向直方图来描述物体,对图像的几何和光学形变都能保持较好的不变性,因而在计算机视觉领域获得了广泛应用,特别是在图像检测领域取得了巨大的成功。由于原始的HOG特征提取比较费时,因此本文采用文献[7]描述的快速HOG特征提取方法,并对提取的HOG特征进行归一化。
将HSI颜色特征、LBP特征和HOG特征组合,即可得到目标图像的特征描述子[ot]。
2.1.2在线分类器学习
在判别式跟踪框架中,表观似然度函数[p(ot|Xt)]由在线学习的二分类器计算得到,本文选择支持向量机(SupportVectorMachine,SVM)分类器。SVM分类器的输入是特征描述子[ot],设输出的分类结果为[y∈{+1,-1}],其中数值-1代表背景,而数值+1代表跟踪目标,则目标表观似然度由下式计算得到:
[p(ot|Xt)∝f(ot)=wTot+b](2)
式中[f(ot)]是输入为特征向量[ot]输出分类结果为[y=+1]的概率,[w]和[b]是SVM分类器的模型参数。
在得到每一帧跟踪结果后,在跟踪结果周围提取新的样本,然后用来训练SVM分类器,得到新的模型参数,在实验中使用了L2正则化的SVM训练方式[4]。
2.2目标动态函数
目标动态函数[p(Xt|Xt-1)]表示连续帧之间目标状态的转移概率,考虑到算法的实时性要求,一般认为目标在当前帧的状态与前一帧的状态相差不大,因此可以假设[Xt]服从以[Xt-1]为均值的高斯分布,即
[p(Xt|Xt-1)=N(Xt;Xt-1,Φ)](3)
式中[N]表示高斯分布,[Φ]是对角协方差矩阵,[Φ=diag(σ2x,σ2y,σ2h,σ2w)],[σ2x,σ2y,σ2h,σ2w]是常数参数。
3实验
为了验证算法在复杂场景下跟踪目标的有效性,本文选择了三段公开的跟踪测试视频[5],视频中存在各种跟踪难题,包括光照突然变化、大的姿态变化、杂乱背景和低质量图像等。
图1、图2和图3分别是在视频“David”、“Car4”、“Woman”上测试的跟踪结果截图。图1跟踪的目标是人脸,视频中存在光照突变,姿态变化和杂乱背景等。图2跟踪的目标是汽车,视频中存在光照突变,尺度变化等。图3跟踪的目标是行人,视频中存在物体遮挡,和杂乱背景等。由图可知,本文算法可以准确的跟踪目标。
图1在视频“David”上的跟踪结果截图
图2在视频“Car4”上的跟踪结果截图
图3在视频“Woman”上的跟踪结果截图
4结论
本文研究了复杂场景中目标跟踪的难题,为了改善基于单一特征很难有效跟踪目标的缺点,本文通过融合多种特征对目标进行跟踪。为了检验算法的有效性,选取了复杂场景的视频进行测试,实验结果表明使用多种特征能准确鲁棒的跟踪目标。
参考文献:
[1]RossDA,LimJ,LinRS,etal.Incrementallearningforrobustvisualtracking[J].InternationalJournalofComputerVision,2008,77(1):125C141.
[2]ComaniciuD,RameshV,MeerP.Kernel-basedobjecttracking[J].IEEETrans.onPatternAnalysisandMachineIntelligence,2003,25(5):564C577.
[3]NavneetDalal,BillTriggs.HistogramsofOrientedGradientsforHumanDetection.IEEEConferenceonComputerVisionandPatternRecognition[C].SanDiego:IEEEPress,2005:886-893.
(上海大学通信与信息工程学院,上海200072)
摘要:运动目标的检测是数字图像处理和模式识别的基础,也是计算机视觉研究的一个重要领域。以C#为主要研究工具,对基于相邻帧差法及背景差分法的视频目标检测算法进行了研究,主要对其原理和算法进行研究。最后利用以AForge.NET架构类库,利用图像灰度的绝对值是否大于设置的阈值实现了对运动目标进行检测,实验结果表明,采用该算法可以对运动目标进行较为精确的检测。
关键词:运动检测;AForge.NET;帧差法;背景差分法
中图分类号:TN911.73?34文献标识码:A文章编号:1004?373X(2015)17?0058?03
0引言
由于微电子技术的发展与社会生活水平的提高及各种安防需求的增多,运动目标检测逐步成为当前监控系统研究领域的热点,更是计算机视觉领域中视频跟踪算法和识别技术的基础,该算法的检测精度直接影响了后续的运动目标跟踪及识别效果。目前,运动目标检测领域比较常用的方法有:光流法、帧间差分法和背景差分法。
光流法是相对于观察者的运动目标造成的观测目标、表面或边缘的运动[1]。但是该算法计算量比较大,并且存在抗干扰能力差,所以对于实时性要求较高的场合,该检测算法在视频运动检测应用中并不是特别的适用,目前在运动检测中最常用的方法实际上是背景差分法[2]和帧间差分法[3]。
帧间差分法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法,非常适用于存在多个运动目标和摄像机移动的情况[4]。由于该算法对光线及场景变化具有较强的抗干扰性,且无需获得背景图像,更新速度快,所以非常适用于实时性较强的应用场合。但是该算法存在阈值难以确定的问题,这个现象在低对比度灰度图像序列中特别明显,导致对目标对象的完整区域提取不完整而产生空洞的现象。
背景差分法是采用图像序列中的当前帧和背景参考模型比较,来检测运动目标的一种方法,其检测性能依赖于所使用的背景建模技术[5]。该算法可以实现缓慢的背景变化过程中对目标进行精确快速的分割,所以具有很强的适用性,然而对于突然的光照变化和背景扰动,对物体带有影子的图像分割出来的前景图像可能带有影子区域[6],为此可以通过建立实时更新的背景模型机制将前景区域分割出来,就可以减少动态场景变化对运动分割的影响[7]。
本文利用AForge.NET[8]架构类库,在MicrosoftVisualStudio2010中分别实验了帧间差分法与背景差分法,并实现运动目标的检测。实验结果表明,利用帧间差分法可以快速实现运动目标的检测,但是对于运动速度较慢的目标检测效果不是特别理想。为此,对于缓慢变化的运动目标引入背景差分法,利用类库中MoveTowards类建立实时有效的背景模型,有效地解决目标低速运动识别率较低的问题,提高了目标检测的准确率。
1AForge.NET简介
AForge.NET是一个专门为开发者和研究者设计的基于C#框架,包括计算机视觉与人工智能、图像处理、神经网络、遗传算法、机器学习、模糊系统、机器人控制等领域[9]。AForge.NET是一个不断完善和发展的计算机视觉和图像处理库,目前的最新版本是2.2.5。
这个框架由一系列的类库组成,主要包括有:
AForge.Imaging:日常的图像处理和过滤器;
AForge.Vision:计算机视觉应用类库;
AForge.Neuro:神经网络计算库AForge.Genetic?进化算法编程库;
AForge.MachineLearning:机器学习类库;
AForge.Robotics:提供一些机器学习的工具类库;
AForge.Video:一系列的视频处理类库;
AForge.Fuzzy:模糊推理系统类库;
AForge.Controls:图像,三维,图表显示控件。
2检测原理
帧差法及背景差分法主要原理就是图像的差分技术。设在一个时间轴上相邻时刻点ti采集到的图像帧分别为f(x,y,ti),ti+1采集到的帧为f(x,y,ti+1),则可以得出:
//对两帧数据差值进行数据滤波
Bitmaptmp3=erosionFilter.Apply(tmp2);
上面几行代码可以计算出当前帧与上一帧这两帧数据相差的像素数据,通过设定特定的阈值,就可以实现对运动目标的报警功能。在本文所做的实验中,为了形象展示当前帧与上一帧数据的差值数据,把连续两帧数据差值用过红色高亮数据进行显示。实验结果表明,通过差帧法可以快速实现运动目标的检测,由于帧差检测法存在阈值难以确定的问题,特别是对于低速运动的运动目标,如果设定较低的阈值则存在误触发虚报的问题,而对于设定的高阈值,因为具有较低的检测灵敏度,则存在漏警的问题,实验结果如图2所示。
为此,本文引入了背景差分法技术,相对帧差检测算法,该算法使用AForge.NET的MoveTowards类实现实时背景的建模,再通过当前图像帧与建模形成的背景帧数据进行差分运算,实现运动目标的检测。该算法可以解决帧差检测法阈值难以确定的问题,可以实现低速运动目标精确的定位与检测。
背景差分法与帧间差分法的区别只是有了一个背景更新的过程,本文新背景的建立是通过AForge.NET视频库中类实现,该类背景提取算法原理是当前帧与前一个背景帧求加权平均得出当前背景帧数据。背景差分法的具体算法流程如图3所示。
背景差分法相关实现代码如下:
//初始化背景类
MoveTowardsmoveTowardsFilter=newMoveTowards();
//把当前帧复制给该类
moveTowardsFilter.OverlayImage=currentFrame;
//通过前一帧与当前帧建立新的背景
Bitmaptmp=moveTowardsFilter.Apply(backgroundFrame);
//把原先老的背景去除掉
backgroundFrame.Dispose();
//把当前计算出来的背景帧保存下来,为下一背景帧计算做准备
backgroundFrame=tmp;
背景差分法运动检测算法的相关实验结果如图4所示。
从图4可以看出,背景差分法具有更好的目标轮廓,通过当前帧与背景帧比较的运动检测算法,可以很好地解决运动目标低速运行的问题,可以较为精确地实现与运动目标的检测。所有背景差分法与帧差法相比,具有更高的检测精度,非常适合工程中的应用。
4结语
本文利用AForge.NET类库,分别采用帧差法及背景差分法对运动目标进行实时检测。实验结果证明,利用AForge.NET可以实现运动目标的检测功能,并且具有很强的实时性。帧差法可以快速地检测运动目标,但是由于其特性决定了其对于低速运动目标的检测较背景差分法检测灵敏度要低。本文只针对运动目标进行简单的检测,对于更进一步的问题将在后续工作中继续研究。
参考文献
[1]陈银,任侃,顾国华,等.基于改进的单高斯背景模型运动目标检测算法[J].中国激光,2014(11):245?253.
[2]纪青华,禹素萍.基于Surendra背景减除法和四帧差分法的目标检测算法[J].计算机应用与软件,2014(12):242?244.
[3]邱斌,干红华,张亶.基于时空信息的运动目标分割算法[J].激光杂志,2014(12):40?44.
[4]柴池.基于背景差分和三帧差分的运动目标检测[J].网络安全技术与应用,2014(11):75?76.
[5]黄素茵.基于视频监控运动目标检测算法研究[D].广州:华南理工大学,2013.
[6]余启明.基于背景减法和帧差法的运动目标检测算法研究[D].赣州:江西理工大学,2013.
[7]严晓明.一种基于改进帧差法的运动目标检测[J].莆田学院学报,2011(5):69?72.
[8]KIRILLOVA.AForge.NETframework[EB/OL].(2010?03?02)[2010?12?20].http://aforgenet.com.
(1)课程内容方面:工程应用价值较小的内容居多;具备工程应用价值的方法,如基于结构光的3D信息获取,在课程内容中却极少出现。
(2)课程定位方面:现有课程体系中未能体现最新研究成果,而掌握世界最新工程应用成果是卓越工程师的基本要求之一。
(3)教学形式方面:传统计算机视觉课程侧重基本原理,尽管范例教学被引入到课堂教学中,在一定程度上帮助学生理解,但卓越工程师培养目标是培养学生解决实际工程问题的能力。针对卓越工程师培养目标,以及目前计算机视觉课程中存在的问题,本文提出工程应用导向型的课程内容、面向最新成果的课程定位、理论实例化与工程实践化的教学形式,以培养具有扎实理论基础及工程实践能力的卓越工程师。
1工程应用导向型的课程内容传统计算机视觉课程围绕Marr理论框架展开教学,其中部分原理仅在理想状态或若干假设下成立,不能直接运用到工程实践中。近年来已具备工程应用基础的原理及方法,在传统课程内容中较少出现,如已在工业测量、视频监控、游戏娱乐等领域中应用的主动式三维数据获取方法等。我们对工程应用价值高的课程内容,增加课时,充分讲解其原理及算法,并进行工程实例分析;对工程应用价值较低内容,压缩课时,以介绍方法原理为主。例如,在教授3D信息获取部分时,课时主要投入到工程应用价值较大的内容,如立体视觉、运动恢复结构、基于结构光的3D信息获取等;而对于基于阴影的景物恢复等缺乏应用基础的内容主要介绍其基本原理,并引导学生进行其工程应用的可行性分析,培养学生缜密的思维习惯,训练学生辩证的分析能力。
2面向最新成果的课程定位计算机视觉近十年来发展迅速,新方法和新理论层出不穷,在现有课程体系中未能得以体现。跟进世界最新成果是卓越工程师的基本要求之一,因此计算机视觉课程定位应当面向国际最新成果。为实现这一目标,我们主要从以下两方面入手。
(1)选用涵盖最新成果的教材。我们在教学中加入国际最新科研成果及应用范例,在教材选取上采用2010年RichardSzeliski教授所著《Computervision:algorithmsandapplications》作为参考教材。该书是RichardSzeliski教授在多年MIT执教经验及微软多年计算机视觉领域工作经验基础上所著,涵盖计算机视觉领域的主要科研成果及应用范例,参考文献最新引用至2010年。这是目前最新的计算机视觉著作之一,条理清晰,深入浅出,特点在于对计算机视觉的基本原理介绍非常详尽,算法应用紧跟国际前沿。
(2)强化学生调研及自学能力。“授之以鱼”,不如“授之以渔”。在教授学生的同时,更重要的是培养学生调研、跟踪、学习并分析国际最新科研及工程应用成果的能力。为强化学生的知识结构,培养学生跟踪国际前沿的能力,我们在教学中加入10%的课外学时,指导每位学生完成最近三年本领域的国际最新文献调研及工程应用新技术调研,并撰写相关调研论文。同时,设置2学时课内学时,让每位学生介绍调研成果,并进行课堂讨论。在调研基础上,选择相关算法进行了实验证明,进一步强化学习成果。实践证明,由于学生能够根据自己的兴趣,选择本领域感兴趣的课题进行深入调研,极大地调动了学生的积极性,强化了学生调研、跟踪、学习并分析国际最新科研及工程应用成果的能力。
3工程实践化的教学形式我们在教学中提出工程实践化的教学形式,即以人类视觉功能为背景,由相应工程实例引出相关理论,并最终将理论运用到工程实例中的算法和方法传授给学生。
关键词:计算机辅助环境艺术设计起源现状及发展
随着计算机软硬件的进步,计算机辅助设计逐渐成为建筑效果图表现的主流。所谓计算机辅助环境艺术设计是指设计师通过计算机技术表现设计意图,最终以图像的方式告知客户,使客户清晰地理解设计师的设计意图和创意,它是一种更为直接、有效的表现方式,通常又被人们称为计算机建筑效果图。
一、计算机辅助环境艺术设计的起源
计算机的发展及应用,使人们的生活日新月异。计算机辅助设计源于计算机图形技术的产生,计算机辅助设计的研究构想发端于1950年,但使用计算机绘图的最早记录是在1963年,美国麻省理工学院的研究人员伊凡·苏泽兰在美国计算机联合会会议上发表了名为《画板》的博士论文,从而开始了计算机辅助设计的发展历程。他从1950年开始着手开发通过图形技术来处理人与电脑交互对话的操作系统。1963年,这套以电脑主机、显示屏、光电笔和键盘为工具的图形画线系统得到实现。这套图形画线系统开发和引进了许多计算机绘图的基本思想和技术,使用户可以运用电脑画出直线、复杂曲线以及简单的标准部件。
最初CAD被解释为“计算机辅助绘图”,由于当时计算机在设计上的作用是替代传统手工绘图的一种新工具,但随着后来信息技术的飞速发展,计算机技术在各领域的广泛应用,CAD的含义也在不断变化扩展,随着20世纪70年代像素的产生、80年代三维曲面造型系统的开发等,使电脑绘图从只能用“线”这一基本绘制元素发展到可以用点、面、体进行绘制计算机图形,从而使CAD的含义也发展成现在人们比较熟知的计算机辅助设计这个概念了。1970年的威尼斯双年展首次接纳了计算机绘画作品,这也标志着新的视觉艺术形式的诞生得到了社会的承认。
我国的计算机辅助设计起源于20世纪70年代。与国外计算机辅助设计发展的轨迹相似,国内计算机辅助设计的研究与应用基本上是从各高等院校发展起来的。20世纪90年代初,随着我国现代化进程的迅速发展以及计算机的进一步普及,在环境艺术设计和创作领域,计算机技术应用的价值,逐渐得到人们的重视。
二、我国计算机辅助环境艺术设计的现状
计算机作为信息时代重要的技术工具,在环境艺术设计领域得到普遍应用。在20世纪90年代前,国内对环境艺术设计效果的表现是使用手工绘制的方法,到了20世纪90年代初期,计算机辅助设计技术开始在我国建筑业应用。计算机辅助设计技术在建筑设计表现领域以不可逆转的潮流迅速发展。尤其是到了20世纪末,计算机辅助设计逐渐成为建筑效果表现的主流。起初,设计师主要运用AutoCAD软件进行施工图的绘制,在方案阶段还以手绘为主。但随着相关专业软硬件的更新和进步,它自身的强大优势得以显示,同时对传统手绘表现产生了越来越大的冲击。
随着近十几年来我国计算机辅助环境艺术设计的发展,计算机建筑效果表现的类型己经有了很细致的划分,可以分为:计算机建筑效果图、计算机建筑漫游动画和计算机建筑效果虚拟现实。计算机建筑效果图主要是通过3DSMAX,Lightscape,Photoshop等计算机软件制作的静态的效果图。通过计算机三维软件从平面、立面数据中得到透视图,透视点位置及视点角度均可变换,然后再渲染出二维图像,这种方式是目前社会上应用最广泛的。计算机漫游动画是利用3DSMAX软件的三维动画功能,在建筑物的室内或室外的设计阶段就能以可视的、动态的方式全方位展示建筑物所处的地理环境、建筑物外貌和各种附属设施以及建筑物内部空间的效果,使人们能够在未来的建筑物中漫游,因而成为建筑设计方案及装修效果展示、建筑方案投标、论证、评审的有力工具。
三、计算机辅助环境艺术设计的发展趋势
当前,随着计算机软硬件技术的迅猛发展,计算机辅助设计在环境艺术设计领域受到了广泛的重视和应用,比如各种方案的汇报、投标以及招商广告中随处可见,从而出现了大量的绘图软件的教程以及在教学上更加重视计算机绘图软件的教学课程。人们更多的关注计算机技术,想方设法掌握各种绘图软件,在模型、材质、灯光以及各种渲染技法上花费大量的时间,而忽略了最终的效果图的艺术性。计算机辅助设计是科学与艺术以及计算机与艺术设计相结合的边缘学科。计算机辅助设计在视觉艺术创造规律、形式法则和审美方法与传统的艺术设计是相同的。所谓视觉艺术,是通过人的视觉感受而将客观内容纳入主观心灵并予以对象化呈现的艺术形态。一些美学研究者认为,从审美主体的角度来看,艺术离不开创造者和欣赏者两个方面,而这两个方面都要通过一定的感官和相应的感性物质媒介,前者创造出审美对象,后者达到审美愉悦。所以说,作为视觉艺术的计算机辅助设计作品既要真实的描绘场景,又要使欣赏者达到审美偷悦。不可否认,人们的欣赏水平在不断提高,求新、求异的视觉口味也越来越高。这源于技术的发展、审美的进步,计算机技术的发展对于社会和艺术创造产生了重大的推动作用。
在计算机辅助环境艺术设计发展的初级阶段,设计师的目标是使效果图具有真实感,能够模拟未来场景的真实效果,具有一定的实用性。目前的计算机建筑效果图的风格单一,已经不能满足大众的不断提高的视觉口味。计算机建筑效果图既是表现的技术同时它又是视觉艺术。设计师创造出审美对象,筑物内部空间的效果,使人们能够在未来的建筑物中漫游,因而成为建筑设计方案及装修效果展示、建筑方案投标、论证、评审的有力工具。使用的软件有Creator系列三维建模工具及Vega场景管理软件。计算机建筑效果虚拟现实技术强调的是一种身临其境的感觉,采用的是人与人之间自然的交互方式。它可以实现逼真的、纯三维的场景,可以全方位、多角度、完全由用户自由控制在场景中漫游。作为建筑师可以从多个角度观察建筑方案,所以说虚拟现实技术不仅可以使用于建筑表现,而且也是一种推敲方案的有利手段。VR技术在我国的环境艺术设计领域中有着广泛的应用前景,将给环境艺术设计带来革命性的改变。
设计师创造出审美对象,要使欣赏者达到审美愉悦而不是审美疲劳。为此,根据目前我国计算机辅助环境艺术的发展情况,未来计算机建筑效果图应呈现艺术化、人情化和多样化趋势。
参考文献:
[1]邓庆尧.环境艺术设计[M].济南:山东美术出版社.
[2]张绮曼.中央工艺美术学院环境艺术设计系—室内设计的风格样式与流派[M].北京:中国建筑工业出版社.
[3]张绮受.中央工艺美术学院一环境艺术设计与理论[M].北京:中国建筑工业出版社.
关键词:VR;AR;应用前景
1虚拟现实VR概述
虚拟现实技术(VirtualReality,VR)是20世纪90年代初崛起的一种实用技术。VR技术指借助计算机以及最新传感器技术创造的一种崭新的人机交互手段,其核心是建模与仿真。它是一种能够让现实中的人在计算机所创造的虚拟信息世界中体验与现实世界同样的事和物。它具有多感知性、沉浸性、交互性和构想性的基本特征。这种虚拟技术集合了计算机图形图像技术、现实仿真技术、多媒体技术等的多种科学技术。它能够模拟出人的视觉、听觉、触觉等的感官功能。使人们在计算机所创造的虚拟世界中通过语言、动作等方式进行实时交流,可以说这种技术的发展前景是非常广阔的,无论是生活上还是军事上都有非常广泛的发展前景。
2虚拟现实技术的特征以及涉及的相关技术
2.1虚拟现实技术的特征
(1)多感知性的特征,是指视、力、触、运动、味、嗅等感知系统,从人类理想的虚拟现实技术的发展来说,是希望能够完全的模拟出现实中所有的感知,如在VR营造的环境中闻到各种味道、能够有触碰里面事物的感觉等,如同人在现实中一样,但因目前的技术掌握和传感技g的限制,仅仅只能模拟出一部分。
(2)沉浸性又称浸没感或临场感、存在感等,具体是指人以第一人称存在于虚拟世界中的真实体验。当然,以目前技术还没有达到最理想的程度。
(3)交互性就是指人在虚拟世界中,能够像在现实世界中一样,可以通过对一些物体的抓取、使用等动作,感觉到所触碰的物体的重量、形状、色泽等一些人与物体之间的互动信息。
(4)构想性,即将所想的物件、所做的事情在虚拟世界里面呈现出来,这样做能达到什么样的效果,那样做又能达到什么样的效果,甚至还可以把在现实世界不可能存在的事和物都可以在虚拟世界中构想出来。
2.2VR技术中涉及的相关技术-软件
(1)立体视觉现实技术:人通过视觉所获取到的信息是人本身所有感觉中最多的一种感官,所以虚拟现实技术中立体显示技术占有不可或缺的重要地位。
(2)环境构建技术:在虚拟世界中,构件环境是一个重要的环节,要营造一个区域的环境,首先就要创造环境或建筑模块,然后在这个基础上再进行实时描绘、立体显示,从而形成一个虚拟的区域环境。
(3)真实感实时描绘技术:要在虚拟世界中实现与现实世界相同的事物,仅靠立体显示技术还是远远不够的,虚拟世界中必须存在真实感和实时感,简单来说就是实现一个物体的重量、质量、色泽、相对位置、遮挡关系等的技术。
(4)虚拟世界声音的实现技术:在虚拟世界中虽然视觉是获取信息的重要途径之一,除了视觉还有很多感官系统可以获取到周围的信息。如听觉,这种技术就是在虚拟世界中实现声音,这样人在虚拟世界里不仅能够看得到也能听得到。
2.3VR技术涉及的相关技术-硬件
(1)输入设备。与虚拟现实技术相关的硬件输入设备分成两大类:一是基于自然的交互设备,用于虚拟世界的信息输入;另一种是三维定位跟踪设备,主要用于输入设备在虚拟世界中的位置进行判定,并输送到虚拟世界当中。
虚拟世界与人实现自然交互的形式有很多,比如有数据手套、数据衣服、三维控制器、三维扫描仪等。
数据手套是一种多模式的虚拟现实硬件,通过软件编程,可进行虚拟场景中物体的抓取、移动、旋转等动作,也可以利用它的多模式性,用作一种控制场景漫游的工具。数据手套的出现,为虚拟现实系统提供了一种全新的交互手段,目前的产品已经能够检测出手指的弯曲度,并利用磁定位传感器来精确地定位出手在三维空间中的位置。这种结合手指弯曲度测试和空间定位测试的数据手套被称为“真实手套”,可以为用户提供一种非常真实自然的三维交互手段。
数据衣是为了让VR系统识别全身运动而设计的输入装置。数据衣对人体大约50多个不同的关节进行测量,包括膝盖、手臂、躯干和脚。通过光电转换、身体的运动信息被计算机识别。通过BOOM显示器和数据手套与虚拟现实交互数据衣。
(2)输出设备。人在虚拟世界中要体现沉浸的感觉,就必须实现现实世界中的多种感受,如视、听、触、力、嗅、味等感官感觉,只不过以目前的虚拟技术只实现了视觉、听觉和触觉罢了。
(3)VR构成设备。虚拟现实世界的构成,主要的设备就是计算机本身了,虚拟世界的所有景象都是靠一个个模型造成的,而这些模型则是由计算机制作出来的。一般计算机被划分成四个部分:第一,高配置的个人计算机,专门用于普通的图形配置加速卡,实现于VR技术中的桌面式特征;第二,高性能图形工作站,就是一台高配置的图形处理计算机;第三,高度并行系统计算机;第四,分布式虚拟实现计算机。
3VR技术的应用范围
VR技术从诞生到现今已经历了几个年代,其应用范围也越来越广,如医学方面,可以提供给医生进行模拟手术,这样大大提高了现实中手术成功的概率。如游戏方面,近年来游戏中的VR如朝阳一样如火如荼的发展,游戏者在游戏中体验着VR技术带来的身临其境与敌人面对面进行厮杀的。如建筑方面,运用虚拟现实技术可以将建筑的形式以真实的角度展现在投资方、设计方、施工方以及后期的物业管理和更高层次的政府,这把之前的二维平面表达方式或者动画表现方式进行了升级,使用者可以全方位的感受建筑的空间、尺度和材质,这对非设计人员参与到设计当中很有帮助,这使得我们未来的建筑将综合更多因素,更加合理化,还有军事、科技、商业、建筑、生活等。
4结语
虚拟现实技术是一个极具潜力的研究项目,是未来的重要技术之一。它在理论、软件或者硬件的领域上都依赖着很多技术,当然其中也有较多的技术只实现了理论,硬件方面还是有待完善的。不过可以遇见,在未来,虚拟现实技术绝对会被广泛的应用。
参考文献:
[1]李袁.虚拟现实技术在数字图书馆中的应用[J].科技情报开发与经济,2009,19(36):3-5.
1.虚拟现实简介虚拟现实(VR)是一种由计算机和电子技术创造的新世界,是一个看似真实的模拟环境,通过多种传感设备用户可根据自身的感觉,使用人的自然技能对虚拟世界的物体进行考察或操作,参与其中的事件;同时提供视觉、听觉、触觉等多通道的信息,用户通过视、听、摸等直观而又自然的实时感知,并使参与者沉浸于模拟环境中。VR的三个最突出的特征,即它的3“I”特性:交互性(interactivity)、沉浸感(IllusionofImmersion)、想象(imagination)。
虚拟现实技术是在众多相关技术如计算机图形学、仿真技术、多媒体技术、传感器技术、人工智能的基础上发展起来的。虚拟现实技术在最近十年里获得了极大的发展,这主要归因于计算机软、硬件条件的飞速发展,以及虚拟现实专用设备价格的下降和性能的提高。目前虚拟现实技术已经获得了广泛的应用,而且日益普及,不仅在诸如NASA的大型工程得到应用,也出现在一些游戏中,在一些高档的PC机上甚至可以构建自己的个人PCVRS(个人虚拟现实系统)。
设计一个虚拟现实系统除了硬件条件一般个人无法定制外,能够充分发挥个人能动性的就只能是在系统软的方面下功夫了。设计一个VR系统,首要的问题是创造一个虚拟环境,这个虚拟环境包括三维模型、三维声音等,在这些要素中,因为在人的感觉中,视觉摄取的信息量最大,反应亦最为灵敏,所以创造一个逼真而又合理的模型,并且能够实时动态地显示是最重要的。虚拟现实系统构建的很大一部分工作也是建造逼真合适的三维模型。
2.3DStudioMAX简介3DStudioMAX是Kinetix公司推出的一套强大的三维建模软件,由于它是基于WinNT或Win98平台的,方便易学,又因其相对低廉的价格优势,所以成为目前个人PC上最为流行的三维建模软件。其3.0版本的推出,更是巩固了它在个人PC平台上的地位。它的3.0版本相较以前的版本有了明显的改进,具体表现在以下几个方面:
⑴工作流模式使得工作组的协调更容易,效率更高。3DStudioMAXR3引入了工作流模式,在具体的实现上从外部参考体系(XRef)、示意视图(SchematicView)的引入以及现在3DMAX可以使用其他程序从外部加以控制,而不必激活它的工作界面。
⑵易用性的改进。操作界面的改进是Release3.0版本的最显著的变化,除了外观的变化之外,R3.0版本还增加了诸如用户自定义界面、宏记录、插件代码、变换Gizmo、轨迹条等功能。
⑶渲染的改进。Autodesk公司在收购了以渲染和视频技术闻名的DiscreetLogic公司,吸收了该公司的先进技术,3DMAXR3对其渲染器几乎做了重新设计,不仅增加了渲染的速度,而且提高了画面渲染的质量。
⑷建模技术的增强。建模技术的增强是3DStudioMAX最重要、最突出的改进,这也是在虚拟现实系统构建中应用它的一个有力的原因。主要的改进包括:
①细分曲面技术(SubdivisionSurface)。3DSMAX包含了细分曲面技术,细分曲面技术是1998年以来业界最流行的建模技术,大有赶超NURBS技术之势,它可以使模型建立更容易,而且效果更好。
②柔性选择。此项技术可以“部分地”选择顶点,从而在变换顶点时获得光滑、柔和的效果,这对建立复杂物体的模型时非常有用。
③曲面工具和改进的NURBS技术。使用曲面工具可以产生很复杂的“面片”模型,这亦是一种重要的建模方法,Release3.0版本中的NURBS技术不但速度加快,而且增加了一系列方便、易用的功能。
⑸对游戏的更好支持。3DStudioMAXR3大大增强了对游戏的支持,而且这些特性也可以用于其他场合。
①增加了角色动画功能。Release3.0版本内置了制作角色动画的功能,可以方便制作人物或动物的动作、柔软物体的效果以及变形效果。
②顶点信息以及加强的贴图坐标功能。现在可以对顶点着色,并增加了顶点的通道,增强了UVWUnwarp的功能,并增加了WorldXYZ贴图坐标。
此外,3DStudioMAXR3也显著增强了动画功能。
3.3DSMAX在VR系统构建过程中的应用如前所述,VR系统要求实时动态逼真地模拟环境,考虑到硬件的限制和虚拟现实系统的实时性的要求,VR系统的建模与以造型为主的动画建模方法有着显著的不同,VR的建模大都采用模型分割、纹理映射等技术。目前VR中的虚拟场景的构造主要有以下途径:基于模型的方法和IBR(基于图像的绘制)方法两种。这两种方法都可以在3DSMAX中加以实现和验证,下面具体展开加以说明。
3.1基于模型的构造方法。3DSMAX的几何建模方法主要有多边形(Polygon)建模、非均匀有理B样条曲线建模(NURBS)、细分曲面技术建模(SubdivisionSurface)。通常建立一个模型可以分别通过几种方法得到,但有优劣、繁简之分。
⑴多边形建模。多边形建模技术是最早采用的一种建模技术,它的思想很简单,就是用小平面来模拟曲面,从而制作出各种形状的三维物体,小平面可以是三角形、矩形或其他多边形但实际中多是三角形或矩形。使用多边形建模可以通过直接创建基本的几何体,再根据要求采用修改器调整物体形状或通过使用放样、曲面片造型、组合物体来制作虚拟现实作品。多边形建模的主要优点是简单、方便和快速但它难于生成光滑的曲面,故而多边形建模技术适合于构造具有规则形状的物体,如大部分的人造物体,同时可根据虚拟现实系统的要求,仅仅通过调整所建立模型的参数就可以获得不同分辨率的模型,以适应虚拟场景实时显示的需要。
⑵NURBS建模。NURBS是Non-UniformRationalB-Splines(非均匀有理B样条曲线)的缩写,它纯粹是计算机图形学的一个数学概念。NURBS建模技术是最近4年来三维动画最主要的建模方法之一,特别适合于创建光滑的、复杂的模型,而且在应用的广泛性和模型的细节逼真性方面具有其他技术无可比拟的优势。但由于NURBS建模必须使用曲面片作为其基本的建模单元,所以它也有以下局限性:NURBS曲面只有有限的几种拓扑结构,导致它很难制作拓扑结构很复杂的物体(例如带空洞的物体);NURBS曲面片的基本结构是网格状的,若模型比较复杂,会导致控制点急剧增加而难于控制;构造复杂模型时经常需要裁剪曲面,但大量裁剪容易导致计算错误;NURBS技术很难构造“带有分枝的”物体。
⑶细分曲面技术。细分曲面技术是1998年才引入的三维建模方法,它解决了NURBS技术在建立曲面时面临的困难,它使用任意多面体作为控制网格,然后自动根据控制网格来生成平滑的曲面。细分曲面技术的网格可以是任意形状,因而可以很容易地构造出各种拓扑结构,并始终保持整个曲面的光滑性。细分曲面技术的另一个重要特点是“细分”,就是只在物体的局部增加细节,而不必增加整个物体的复杂程度,同时还能维持增加了细节的物体的光滑性。但由于细分曲面技术是一种刚出现不久的技术,3DStudioMAXR3对它的支持还显得稚嫩,还不能完成一些十分复杂的模型创作。
有了以上3DSMAX几种建模方法的认识,就可以在为虚拟现实系统制作相应模型前,根据虚拟现实系统的要求选取合适的建模途径,多快好省地完成虚拟现实的作品的制作。
在虚拟现实作品制作的时候应当遵循一个原则:在能够保证视觉效果的前提下,尽量采用比较简单的模型,而且若能够用参数化方法构建的对象尽量用参数化方法构建,同时,在模型创作过程中,对模型进行分割,分别建模,以利于在虚拟现实系统中进行操作和考察。
对于复杂对象的运动或原理演示,我们可以预先将对象的运动和说明做成动画存为avi文件,然后等待VR系统合适的触发事件,播放该avi文件即可。
3.2基于图像的绘制(IBR),传统图形绘制技术均是面向景物几何而设计的,因而绘制过程涉及到复杂的建模、消隐和光亮度计算。尽管通过可见性预计算技术及场景几何简化技术可大大减少需处理景物的面片数目,但对高度复杂的场景,现有的计算机硬件仍无法实时绘制简化后的场景几何。因而我们面临的一个重要问题是如何在具有普通计算能力的计算机上实现真实感图形的实时绘制。IBR技术就是为实现这一目标而设计的一种全新的图形绘制方式。该技术基于一些预先生成的图像(或环境映照)来生成不同视点的场景画面,与传统绘制技术相比,它有着鲜明的特点:
⑴图形绘制独立于场景复杂性,仅与所要生成画面的分辨率有关。
⑵预先存储的图像(或环境映照)既可以是计算机合成的,亦可以是实际拍摄的画面,而且两者可以混合使用。
⑶该绘制技术对计算资源的要求不高,因而可以在普通工作站和个人计算机上实现复杂场景的实时显示。
由于每一帧场景画面都只描述了给定视点沿某一特定视线方向观察场景的结果,并不是从图像中恢复几何或光学景象模型,为了摆脱单帧画面视域的局限性,我们可在一给定视点处拍摄或通过计算得到其沿所有方向的图像,并将它们拼接成一张全景图像。为使用户能在场景中漫游,我们需要建立场景在不同位置处的全景图,继而通过视图插值或变形来获得临近视点的对应的视图。IBR技术是新兴的研究领域,它将改变人们对计算机图形学的传统认识,从而使计算机图形学获得更加广泛的应用。
3DSMAX在IBR中的应用是自然的,3DSMAX的出色的纹理贴图,强大的贴图控制能力,各种空间扭曲和变形,都提供了对图像和环境映照的容易的处理途径。例如,在各种IBR的应用中,全景图的生成是经常需要解决的问题,这方面,利用3DSMAX可以根据所需的全景图类型先生成对应的基板,比如,柱面全景图就先生成一个圆柱,然后控制各个方向的条状图像沿着圆柱面进行贴图即可。而且可以将图像拼接的过程编制成Script文件做成插件嵌入3DSMAX环境中,可以容易地生成全景图并且预先观察在虚拟现实系统中漫游的效果,这通过在VideoPost设置摄像机的运动轨迹即可。事实上,目前已经有一些全景图生成和校正的插件。
在用3DSMAX为VR系统创作好模型后,结合VR系统的要求,看是否需要采用诸如LOD(LevelofDetail)模型,如果需要可利用MAX自带的LOD插件直接生成对象的LOD模型,最后根据VR系统的编辑环境将模型输出为编辑环境所能接收的文件类型,如VRML97或DXF等格式的文件。
以上主要介绍了3DSMAX制作VR作品,下面再简单介绍一些3DSMAX的另外的应用。
在VR系统中经常需要有视差和景深的立体视图,这可以通过在3DSMAX中设置双摄像机来模拟人的双眼来渲染立体视图对,这个需要调整双摄像机的相对位置,然后分别渲染不同的摄像机视图即可得到立体视图对,具体实现过程可参见文献〖2〗。
3DSMAX是用C++语言和OpenGL编写的应用软件,而且它提供的MAXSDK也是采用C++编写的代码,我们可以很容易地用C++和OpenGL结合MAXSDK实现我们的图形学算法,再把我们的算法作为插件嵌入3DSMAX环境中,而不用考虑物体模型的生成和处理的复杂代码,利用3DSMAX的渲染计时器可以方便地检验我们所编算法的效率和效果。
参考文献
1.曾芬芳主编.虚拟现实技术.上海交通大学出版社,1997年第一版.
2.黄心渊编著.虚拟现实技术与应用.科学出版社,1999年第一版.
3.Heung-YeungShumandLi-WeeHe.RenderingwithConcentricMosaics.SIGGRAPH’99.
4.张昀、徐自亮.3DStudioMAXR3(上册).清华大学出版社,1999年第一版.
关键词机器视觉模式识别自动控制教学方法
中图分类号:G424文献标识码:ADOI:10.16400/ki.kjdkx.2016.06.031
AbstractWithmoderncomputertechnology,digitalimageprocessingtechnologydevelopment,traditionalautomaticcontrolteachingmethodsneedcontinuousinnovation.Themachinevisiontechnologycombinedwithautomaticcontrolsystemteachingmethodarisesatthehistoricmoment.Inthispaper,westartwiththebackgroundoftheapplicationofmachinevisiontechnologyinautomaticcontrolteaching,givetheteachingpurposeandteachingimplementationscheme.ThisteachingmethodinprojectteachingreformhasobtainedthepreliminaryeffectofteachinginHubeiBusinessCollegeofMechanicalandElectricalandInformationEngineeringCollege.
Keywordsmachinevision;patternrecognition;automaticcontrol;teachingmethod
视觉识别技术是通过计算机强大的运算能力对图像进行适当处理,提取所需信息的一门技术,一个完整的视觉识别系统中能够自动的采集图片或者视频信息并进行预处理,包括复原、去噪、加强等手段,然后对经过预处理的信息进行选择或变换,提取最能反映分类本质的特征,最后对特征进行分类并根据判别规则对信息进行处理。
在当前的教育背景和时代背景要求下,高等院校的教学更加强调实践和创新能力,智能控制技术已经深入到了自动控制教学的方方面面,在以往的教学过程中,传统的智能机器人项目比如基于单片机智能循迹避障小车、机器人足球、四轴飞行器等,都能激发学生浓厚的学习兴趣,动手实践参与度增高,能将控制理论与实践结合,加深理论知识理解。
1机器视觉技术在自动控制教学中的应用背景研究
视觉是人类的主要感官,是人脑理解环境的重要信息来源,机器视觉技术作为一门利用计算机辅助来替代视觉工作的技术就是让机器“长出眼睛”,能够对周围事物产生视觉,感知环境的变化。随着现代科技的发展,人工智能在近年来引起了大家的广泛兴趣,自动化控制系统与视觉识别技术的融合能够很好地改善系统的自动化水平,让机器更智能,更好地为人类服务。
但是目前在单片机实践课程中学生在进行智能机器人的学习和制作时,并未应用到图像处理技术,而是通过传感器来获取外界信息。例如最常见的循迹避障小车,它的“视觉”是通过小车车身携带的红外传感器来检测地面上的黑色轨迹,通过红外接收装置来判断小车是否循迹或是偏离车道,从而对小车的行驶轨迹进行控制,利用红外传感器来实现小车的循迹避障功能原理简单易懂,方便实现且成本低廉,但是红外传感器对于外界环境要求极高,任何光线的变化都可能导致传感器无法正常工作,后期的调试工作任务繁重,系统鲁棒性差,无法满足复杂多变的环境要求。
机器视觉与模式识别是信息工程类专业的一门重要课程,该课程涉及多门基础学科,是一门多领域的综合性学科,高校通常在计算机信息类专业开设该课程,在自动化控制类专业中开设该门课程的高校较少。在长期的自动控制类教学过程中,偶尔的提及该技术,学生都表现出了强烈的学习欲望,因此,笔者认为在自动化控制教学中有必要结合模式识别理论来加深学生的直观感受,提高学生的实践水平。
2机器视觉技术的教学目标
基于以上的背景,对于高校的自动控制类课程,有必要将机器视觉加入到实践教学中,让学生接触前沿科学技术,了解和学习相关领域的知识,通过该技术更好地进行智能机器人的设计,提高学生的创新能力。
将机器视觉技术运用到自动控制类课程的教学过程,实质就是将机器视觉应用到控制类的嵌入式开发项目中,通过选取合适的教学案例,编写图像或视频处理算法来实现机器的视觉功能,根据图像理解结果来实现控制,是一种软硬件相结合的教学模式。因为机器视觉属于交叉性学科,内容涉及广,在编写图像处理算法时有一定的复杂性,因此,在实际教学过程中采用以机器视觉与模式识别理论为导向,实际应用为主的教学理念。尽量避免算法中繁琐复杂的数学公式,让学生在掌握视觉概念的基础上能培养出学习兴趣,发散思维,主动结合所学的控制理论知识来进行更深入的智能机器人设计。
【关键词】平面测量技术;铅球项目;成绩测量
0引言
随着计算机处理能力的提高和传感器技术的发展,近年来基于视频图像处理的计算机视觉技术已成为图像处理领域的研究热点,该技术在众多的领域中都有十分广泛的应用[1]。
视觉是人类认识世界、观察世界的重要手段。人类从外界获取的信息量约有75%来自视觉系统,这表明视觉信息量十分巨大以及人类对视觉信息有较高的利用率。人类利用视觉的过程可看作是一个从感觉到知觉的复杂过程,即从感受到的对三维世界的投影图像到依据投影图像去认知三维世界的内容和含义[2]。
计算机视觉技术是指利用计算机实现人的视觉功能,既对客观世界的三维场景的识别、感知和理解。该技术包括是仿生学方法及工程方法,仿生学方法是模仿人类视觉功能的结构及原理,建立相应的处理系统,完成类似的工作和功能;工程方法是从分析人类视觉系统着手,并采用任何现有的可行手段实现人类视觉系统的功能[3],该方法的特点是只关心系统的输入和输出。计算机视觉的主要研究目标是建成计算机视觉系统,完成各种视觉功能。也就是说,即要能借助各种视觉传感器(如CMOS摄像器件、CCD等)获取现实世界的图像,而感知和恢复3D环境中物体的几何性质、运动情况、姿态结构、相互位置等,并且要对客观场景进行识别、解释、描述、进而做出决断。目前,计算机视觉技术在体育运动中也得到了广泛的应用,利用该技术不仅可以从不同的视角观察运动员的动作,而且能将运动员速度、加速度、所在位置等数据进行量化处理,使体育训练及比赛摆脱依靠传统经验分析及判别的状态,从而进入科学化、数字化的状态,而且还可以完成竞技体育项目的成绩测试[4-5]。
在测试项目中铅球成绩的测量仍采用皮尺丈量法。这种方法存在着三个方面的缺陷,一是皮尺本身具有弹性以及易折叠特性,二是受场地的凹凸不平,三是人为因素影响较大。由于这三方面的作用,故在铅球成绩的测量精确度受到极大的限制。针对这一问题本课题提出了一种基于同视场(铅球场地)测量地平面坐标的单摄像机模型[6-7]。该模型利用透视投影几何关系,对摄像机内部参数进行标定,然后,建立相应的网格匹配数学模型,通过单目CCD摄像机像面坐标,测量铅球落点的地平面坐标[8]。成功的解决了铅球着点测量在双目视觉交汇组合测量存在的死角影响系统的测量范围的问题,另外,单目视觉测量系统也避免了双目视觉系统存在对应特征点匹配问题。
1平面测量原理
图1铅球的2D场景坐标系
铅球场地是一个扇形区域(如图1)。假设建立一个如图1的2D场景坐标系,首先要做的事是要确定场地上指定点的真实坐标与采集到的图片的指定点象素坐标之间的对应关系,即要找到这两种坐标系之间的转换关系。而这种转换关系可以用平面测量的相关技术获得。在计算机视觉中,所谓的平面测量,就是从图像中获得2D场景信息。在实际的测量中,我们可以通过在图像上标定一定数量的坐标点来确定图像中场地指定点的象素坐标和真实世界中的指定点的现实坐标之间的单应矩阵。
我们获取一幅2D场景S的图像I,通过S与I之间的N(N>=4)对对应点,就可以确定它们之间的单应矩阵H。
令:
H=h■,h■,h■=h■,h■,h■h■,h■,h■h■,h■,h■(1)
在H的九个元素中,有八个独立比率,即一个单应有八个自由度变量,一个常数1。因此,在H中,往往设置h■=1。
令(x■,y■)∈I,x■■,y■■∈S为一对对应点,i=1,2,…N。由每一对对应点,根据图像与场景之间的单应关系,我们可以得到两个线性方程:
其中,h是矩阵H的向量形式,
于是我们可以得到2N个方程,写成矩阵形式为:
AH=0(3)
其中
因此,要求得8个参数的单应矩阵,至少需要4个对应点。在实际的测量中,为了提高精度,每个模板平面上提供的对应点数目都会超过4个。
当N>4时,我们可以用奇异值分解法(SVD)[14]求最小二乘解h。
求得单应矩阵后,利用公式(2),就可以计算出图像上指定点对应的真实坐标值,从而计算出铅球投掷的距离。
2实验结果与分析
表1
2.1实验结论(下转第38页)
(上接第21页)经实际测量的6个标定点(如图1)的坐标分别为A(700,0)、B(900,0)、C(1100,0)、D(570,407)、E(733,523)、F(895,639)。为了测试本文提出的测量模型,在反复测量铅球投掷实验中选取了典型的10个测试样本,其中铅球落点10个。
2.2误差分析
从表1中我们可以看到人工测量值和系统测量值有一定的误差,分析误差产生的原因有如下几种:
1)数字CCD镜头的光学性能引起的误差,如焦距、畸变和光学中心误差等通过摄像机内部参数校正来解决。
2)摄像机的支架及底座一定要有足够的稳定性和刚度,在视频图像获取过程中应保证摄像机的相对位置稳定不动,由意外情况所造成的误差在计算中应予以剔除。
3)环境的变化将对测量结果产生影响,因此测量中要及时修正背景图像。
4)人工测量本身就会与真实值产生一定的误差。
3总结
本论文首先介绍了课题背景,对单目视觉测量的研究现状和测量建模在国内外的研究现状进行了分析和归纳,同时分析了视频图像处理技术在体育项目应用现状,将基于单目视频图像处理技术的铅球成绩测量作为切入点,对数字图像处理技术在田径运动中应用的关键技术进行了研究。结合铅球场地的特点,提出一种基于视频图像的铅球测量方法,并通过实际应用证明了该方法的可行性。
【参考文献】
[1]CriminisiA,ReidI,ZissermanA.Aplanemeasuringdevice[J].ImageandVisionComputing,1999,17(8),625-634.
[2]LorenzoBruzzone,DiegoFernàndezPrieto.AutomaticAnalysisoftheDifferenceImageforUnsupervisedChangeDetection[J].IEEETransactionsonGeoscienceandRemoteSensing,2000,5,38(3).
[3]LSajó,ZRuttkay,AFazekas.Turk-2,amulti-modalchessplayer[J].InternationalJournalofHuman-ComputerStudies,2011,7,69(7-8):483-495.
[4]Lichtenberg,D.B.,Wills,J.G.,Maximizingtherangeoftheshot-put[J].AmericanJournalofPhysics,1978,46:546-549.
[5]Maheras,A.V..Therelationshipbetweentheangleofreleaseandthevelocityofreleaseintheshot-put,andtheapplicationofatheoreticalmodeltoestimatetheoptimumangleofrelease(throwing)[D].UniversityofKansas.,1995.
[6]AntonioPlaza,JonAtliBenediktsson,JosephW.Boardman.Recentadvancesintechniquesforhyperspectralimageprocessing[J].RemoteSensingofEnvironment,2009,9,113(1):S110-S112.
热门推荐