舆情监测(4篇)
时间:2023-12-19
时间:2023-12-19
网络爆料,有料必查,有腐必纠,形成的正面鼓励效应不可小觑。从雷政富到单增德,纪委快速反应,网络举报发威秒杀问题官员,网络成为官场博弈另一场域。网络反腐有个特点就是露头就打,可以说,如果正确引导,会成为体制反腐的重要组成部分。
网络给网民提供了自由的话语平台,也开启了网络问政的新篇章,网民席卷式的关注,通过网络舆论推动事态发展,进而逐步形成线下动员之势。相关部门线上卖萌受到网友欢迎,形成亲切印象,线下也应积极热诚,开门为民服务,接受民众监督,只有线上线下保持合力才能真正服务于民。
如今的微博爆料已然提供了更多碎片化讯息,为相关部门的科学化决策提供支持与保障,因而网民资源不容小觑。御猫软件的诞生,专注于预警、海量数据分析挖掘,以及语言智能技术处理,采取“第一时间”稳准快深度采集,智能化发现,辅决策进行全面检索,推出“多漏斗、多用户”服务,汇聚成了网络舆情监测的显著特征。
和谐社会需倾听网络各类声音,正视自身责任感和民意诉求,逐步形成多元化、全方位、多角度的蜘蛛网式的信息,从而更有利于政府理性地、科学地作出决策。
近日,新华网网络舆情监测分析中心梳理出了2012年11月份有关城市网络形象的15件典型“舆情热点事件”,通过舆情事件热度值、官方回应、媒体应对能力等指标来评估相关城市舆情应对能力,这一动作引起人们极大兴趣。
12月13日,记者感受了御猫软件,采访了山西搜讯传媒科技有限公司总经理万嘉。
记者:网络舆情是怎么一回事?
万嘉:舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
网络舆情是近些年随着互联网技术的普及而产生的新名词,它关系到社会的方方面面。现在,只要我们浏览各大网站和论坛,点击率最高、位置最明显的往往是那些反映政府管理层面缺失的虚虚实实的网络舆情。有关于物价的、有关于楼市的、有关于公检法机关执法问题的、有关于城市建设拆迁、等等,似乎显现出当今社会的现状。无论真假,归结起来都是关乎百姓生活的方方面面,都是关乎百姓的切身利益。
与报纸、无线广播和电视等传统的传播媒体相比,网络媒体具有进入门槛低、信息超大规模、信息与传播迅速、参与群体庞大、实时交互性强等综合性特点。由于网络信息的成本极低,信息的提供者、传播者和阅读者之间已经没有明显的界限,而且空间和受众越来越多。
记者:作为开启御猫软件的专业公司,你对舆情有何看法?
万嘉:网络舆情具有以下特点:1、直接性,通过BBS新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通;2、突发性,网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;3、偏差性,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题认识片面等等,都会利用网络宣泄。因此在网络上更容易出现庸俗、灰色的言论。
在网络环境下,舆情信息的主要来源有新闻评论、BBS、博客、聚合新闻(RSS)等。每个人都有机会成为网络信息的者,每个人都有选择网络信息的自由,通过BBS,新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通。由于互联网的匿名特点,多数网民会自然地表达自己的真实观点,或者反映出自己的真实情绪。因此,网络舆情比较客观地反映了现实社会的矛盾,比较真实地体现了不同群体的价值。
记者:负面网络舆情导致政府公信力急剧下降,为什么非要等一些事件先从网上曝光,然后到引起媒体关注,最后才引起政府重视,形成这样一个固定模式的时候才来解决问题呢?
万嘉:究其根本原因就是我们个别的党员干部没有设身处地为老百姓解决实际问题。正是这些原因,才导致了老百姓诉求无门不得已求助网络,将本来可以正常渠道解决的问题公之于众,小到引起广泛关注,大到导致一些官员下马而引来轩然大波,甚至引发大规模的恶果。
记者:是什么原因让您的公司开启了御猫软件?
万嘉:在互联网上,网民普遍表现出强烈的参与意识。在对某一问题或事件发表意见、进行评论的过程中,常常有许多网民参与讨论,网民之间经常形成互动场面,赞成方的观点和反对方的观点同时出现,相互探讨、争论,相互交汇、碰撞,甚至出现意见交锋。这种网民之间的互动性实时交流,使各种观点和意见能够,快速地表达出来,讨论更广泛更深入,网络舆情能够得到更加集中的反映。
网上舆情的主题极为宽泛,话题的确定往往是自发、随意的。从舆情主体的范围来看,网民分布于社会各阶层和各个领域;从舆情的话题来看,涉及政治、经济、文化、军事、外交以及社会生活的各个方面;从舆情来源上看,网民可以在不受任何干扰的情况下预先写好言论,随时在网上,发表后的言论可以被任意评论和转载。
由于受各种主客观因素的影响,一些网络言论缺乏理性,比较感性化和情绪化,甚至有些人把互联网作为发泄情绪的场所,通过相互感染,这些情绪化言论很可能在众人的响应下,发展成为有害的舆论。为此,开启舆情监测势在必行,“御猫”由此应用而生。
记者:舆情监测的主要作用和流程有哪些?
万嘉:舆情监测是通过对互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点的一种监视和预测行为。主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。
就流程而言,首先要制定危机预警方案。针对各种类型的危机事件,制定比较详尽的判断标准和预警方案,以做到有所准备,一旦危机出现便有章可循、对症下药。其次,要密切关注事态发展。保持对事态的第一时间获知权,加强监测力度。这个可以通过例如御猫舆情监控系统之类的技术,在第一时间大量来采集、汇总各种互联网上的信息。此外,还要及时传递和沟通信息。即与舆论危机涉及的政府相关部门保持紧密沟通,建立和运用这种信息沟通机制,已经成为网络舆情管理部门的重要经验。以上海为例,无论在涉日舆情、地铁调价,还是普陀城管打人等“网络热点舆情”处理上,各部门协同作战、相互配合、共同商议,判断危机走向,对预案进行适当修正和调整,以符合实际所需是危机应对的重要措施。
记者:如何看待网络舆情监测?
万嘉:网络舆论的形成非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索。当某一事件发生时,网民可以立即在网络中发表意见,网民个体意见可以迅速地汇聚起来形成公共意见。同时,各种渠道的意见又可以迅速地进行互动,从而迅速形成强大声势。
同时,我们也必须清醒地认识到,网络所具有的特性又使得网络舆论的自由化带来了一系列的消极影响:比如一些网民通过网络散布谣言、披露隐私、进行偏激和非理性的谩骂与人身攻击;而且,西方敌对势力也借助网络对我国日益发起“和平演变”攻势。由此可见,网络舆情已成为影响社会持续有序发展、维护社会和谐与稳定的重要因素。如何因势利导,提高新形势下舆情信息的分析能力,及时准确地掌握社会舆情动态,积极引导仕会舆论,是网络这一新兴媒体所面临的严肃课题与严峻挑战。
记者:如何做好网络舆情监测?
万嘉:营造良好的发展环境,维护社会稳定,构建和谐社会是推动发展的基本保障,加强对网络舆论的及时监测、有效引导和积极化解网络舆论危机,努力营造良好舆论环境至关重要。积极探索、不断完善工作机制,为有力有效开展舆情工作奠定坚实基础,建立健全机制和预案,成立网络评论员队伍,切实加强网络管理,提高网络舆情监控管理实效,通过多种渠道,及时掌握和了解上级部门的工作需要,做到宣传信息因需而供,保持与基层信息队伍的紧密联系。
关键词:网络舆情;监测引导;Web数据挖掘
中图分类号:C93文献标志码:A文章编号:1673—291X(2012)28—0227—03
一、时代背景
互联网时代是人类历史上一个空前伟大的技术革命时代。现代信息技术、通讯传播技术、网络技术等众多现代化的传播技术已渗透到社会生活的各个领域。互联网广泛性、即时性、开放性、共享性和互动性的特点及丰富多彩、方便实用的应用形式决定其日益成为反映社情民意的重要阵地,网上热点层出不穷,网络舆情对国家事务、公共事务决策的影响力也日益加大。历史原因曾使中国长期处于封闭状态,国内关于舆情的研究起步较晚,目前迫切需要提升与之相应的理论和技术支持。舆情分析与监测是信息深加工,以往“剪报”式低价值粗加工的信息服务,虽可按主题范围搜集,但提供的结果仅局限于单一的信息内容,传统的单一线性收集方式已不能够满足人类大脑发散思维的需要。
二、网络舆情监测引导的技术支撑
在浩瀚的网络中,政府如果仅仅依靠人工完成网络海量信息的收集和处理是不现实的。而Web数据挖掘能快速、准确的获得有价值的网络信息,利用历史数据预测未来的行为以及从海量数据中发现知识。它克服了普通数据库管理系统无法发现数据中隐藏的关系和规则及根据现有数据预测未来的弱点。Web数据挖掘的出现为自动和智能的把互联网上的海量数据转化为有用信息和知识提供了条件。可有效地从Web获取并分析相关舆情,达到监测、辅助决策和引导的目的,为网络舆情预警提供了极大的帮助。
(一)Web数据挖掘
Web数据挖掘由传统数据库领域的数据挖掘技术演变而来。数据挖掘是指从大型数据库的数据中提取出人们感兴趣的、可信的、隐含的、明显未知的、新颖的、有效的、具有潜在用处的信息的过程[1]。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出新的理论与方法,演变成网络数据挖掘技术。Web数据挖掘是指对目标样本进行分析提取特征,以此为依据从Web文档和Web活动中抽取人们感兴趣、潜在的有用模式和隐藏的信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。
根据挖掘对象的不同,可将Web数据挖掘技术分为三大类[2]:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是指从Web上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴含于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。结构挖掘的重点在于链接信息。Web使用挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,利用这种方法,可以获知Web使用者的行为偏好,从而预测其行为。
(二)Web挖掘过程
Web数据挖掘依然遵循数据挖掘的研究思路,挖掘过程分为四个阶段:数据收集、数据预处理、模式发现和模式分析(如图1所示)[3]。
1.数据收集。网络信息的收集是网络舆情监测的源头,其广度和深度决定了监测效果。对于明确主题的舆情信息采集,可以采用搜索引擎方法。由于各个现存搜索引擎索引数据库的构造方法不同,其索引数据不尽完整,所以应将多个单搜索引擎搜索结果进行整合、调用、控制和优化。搜索中可以以宽度优先、深度优先或启发方式循环地在互联网中发现相关信息,可将网络空间按域名、IP地址或国别域名划分为独立子空间详细搜索;或以信息类型为划分,如HTML格式、XML格式、FTP文件、Word文档、newsgroup文章和各种音、视频文件等。舆情信息检索结果可按不同维度展现,包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。每个维度下把搜索结果自动分类统计展示,以便短时间内检索到精确信息。
2.数据预处理。因原始Web访问数据的文件格式是半结构化的,包含不完整、冗余、错误的数据,需进行提取、分解、合并,转化为适合挖掘的格式,保存到关系型数据库表或数据仓库中,等待进一步处理。数据预处理可改进数据质量,提高后续舆情挖掘过程的精度和性能。对采集到的舆情进行初步加工处理,如格式转换、数据清理、数据统计,对于新闻评论,需过滤无关信息,保存新闻标题、出处、时间、内容、点击次数、评论人、评论内容和评论数量等。对于论坛,需记录帖子的标题、发言人、时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时甚至可直接对网站服务器的数据库进行操作。
3.模式发现。利用数据挖掘的算法可发现用户聚类、页面聚类、频繁访问页组、频繁访问路径等隐藏的用户访问模式。若在挖掘用户浏览模式过程中发现选择的数据或属性有偏差,或挖掘技术达不到预期结果,需根据反馈结果不断重复以上过程,通过数据挖掘,创建和更新用户模式库。模式发现可应用许多相关领域的方法,但需针对Web数据挖掘的特点做出相应的改进。
关键词:新疆;网络舆情工作;体系
中图分类号:D633文献标志码:A文章编号:1002-2589(2014)29-0038-02
2014年5月23日,微信公众服务账号“中青舆情监测室”针对5月22日乌鲁木齐发生的案件,了一份互联网舆情报告《中青舆情:5・22事件,新疆人怎么看》。报告选取了5月22日案发当时至23日10时互联网舆情监测数据进行分析,数据内容之广泛,所得数据图表之详细,真实而有力地展现了7・5事件、4・30事件、5・22事件中新疆网民的观点变化。也让阅读者真切感受到互联网大数据时代的意义,以及大数据的说服力。作为一个常常面对互联网海量数据束手无策的研究者,又常常感到分析互联网舆情信息缺乏数据支持的研究者,倍感新疆需要尽快建立一个自己的互联网舆情监测体系。
五年前的7・5事件,就是远在几千公里之外的广东韶关发生的一起打架斗殴事件,经过互联网10天的“发酵”,最后酿成乌鲁木齐的暴力恐怖案件。若在这10天中,我们能有完善的互联网舆情监测数据,必然会得出相应的预警报告,提前疏导、提前预防。此后,新疆陆续发生过利用互联网捏造、散布谣言,进而扰乱社会持续的事件,但因为互联网舆情工作的改进都取得了很好的控制。2010年阿克苏发生了“”借助互联网传播思想、技术,煽动民族仇恨的“8・19事件”。2013年互联网上盛传,乌鲁木齐23中学因学生带花帽,勒令退学的谣言。仅仅6天时间,该谣言不仅在国内引起了网民的大量关注,而且被境外敌对势力的网站大肆宣扬。2013年鄯善“6・26”事件发生后,互联网上再次兴起关于此次事件的各种谣言。凭空捏造、歪曲事实在互联网上制造谣言,借机宣传极端思想,煽动民族仇恨,这是近年来新疆互联网舆情工作面对的最大挑战。2014年5月,新疆启动了为期一年的“严打”行动。5月25日的首次大抓捕行动中,抓获二百余参与活动的犯罪嫌疑人,都是通过互联网接受极端思想、暴力恐怖思想和技术。通过互联网传播的极端思想,已经成为危害新疆社会安定的首要问题。舆情预警分析能将危机处置环节提前,尽量把对无辜群众的伤害降到最低。另外,近年来暴力恐怖案件从新疆蔓延到全国,为追求轰动效应分子制造群死群伤。北京金水桥事件、昆明火车站事件导致内地群众对维吾尔族乃至整个新疆都产生了很深的误会,各种误解在互联网上此起彼伏。关注突发事件后的网民情绪宣泄,及时发现问题,及时疏导,化解误会,维持社会正能量,也是互联网舆情工作关注的重要内容。因此建设新疆互联网舆情监测系统已经迫在眉睫。
互联网最大的特征就是海量数据。其数据量之大,已经无法用常规工具和方法,在合理的时间里得到科学的分析结果。但大数据研究又有其独特的价值,它表现出的4V特性:Volume(大量)、Velocity(高速)、Variety(多样)、veracity(真实性)又是普通调查研究无法企及,也不能替代的。5・22事发当时,“中青舆情监测室”就开始收集舆情信息。24小时后就公布了新疆网民的舆情报告,处理数据量达三十二万余条,分析内容全面、细致。大数据的4V特性在此得到充分突显。但我们也发现该报告,过于注重数据和数据带来的定量分析,缺乏对数据背后社会问题的深入解读。
由此,我们可以看出,在互联网舆情工作中仅仅掌握有准确的数据是远远不够的,还需要专家对数据进行全方位的解读。在互联网舆情监测和分析中,大数据的价值显得日渐重要,大数据的出现为社会科学研究提供了前所未有的机遇和挑战。舆情监测数据的价值在于,将正确的信息在正确的时间交付到正确的人手中,最后能产生出一个科学的决策。
新疆社会科学院是新疆舆情监测、分析的重要阵地,作为一直积极参与互联网舆情分析实践的一员,强烈感受到新疆的互联网舆情工作任务重、挑战性强,对社会局面稳定产生直接影响。新疆互联网舆情工作的主要特点:一是少数民族语言网络舆情监控任务突出。首先,随着新疆社会经济快速发展,有能力上网的人越来越多,因此对互联网少数民族语言信息监控的任务就日趋加重。每当社会中发生一个热点事件,在互联网社交平台上就会出现各种“消息源”,几乎全民参与讨论。涉及敏感问题时,互联网上消息的产生、传播和发酵速度就异常之快,因此少数民族语言网络舆情监控的压力与日俱增。此外,互联网视频的传播,当前已经成为新疆爆恐事件频发的直接原因。近一年多来,每一起事件当中都能看到视频在其中发挥的重要作用。这些视频多用新疆使用范围较广的少数民族语言制作,煽动无知群众走上犯罪道路。二是境外网络舆情监控任务突出。在新疆反恐维稳过程中,境外敌对势力利用互联网策划、煽动境内人员施暴的情况日渐突出。因此,大量境外问题网站纳入了我们的监控范围。据统计,目前已发现建立于国外专门煽动新疆境内从事反动活动的网站、网页多达五十多个。
现在得到普遍认可的网络舆情分析模式为“三结合模式”:定性与定量分析相结合、软件与人工分析将结合、分析师与专家会商相结合。针对新疆互联网舆情发展的现状和未来趋势来看,我们的网络舆情工作还存在:分析研判缺少准确、详细、多样的舆情数据支持,我们的分析预测缺少牢靠的“抓手”。目前新疆网络舆情工作中,舆情数据与专家脱钩的问题最为突出。造成这一问题产生的根本原因是,我们还没有建立起一个合理的组织体系,网络舆情数据与专家之间还没有建立起一个顺畅的交流渠道。
以笔者和同事的互联网舆情收集实践为例,主要方法是:第一,搜集全国知名互联网舆情监测机构零星公布的新疆舆情监测数据,根据这些权威数据对热点事件进行分析。第二,利用全国知名搜索引擎和网络舆情工具搜索舆情关键词,做粗陋的数据统计和分析。利用自己制作的舆情数据进行网络舆情研判。这两种方法看起来容易,借助第三方公布数据或利用工具软件发掘、整理数据,最后得出分析结果,实践起来其实困难重重。全国知名互联网舆情监测机构公布的涉及新疆的数据极少,而且只是针对某一热点事件,缺乏连贯性,根本无法满足实际研究需要。自己利用搜索引擎进行舆情数据搜集,面对少则几千几万条,多则上百万条舆情数据,个人根本无法进行分析处理。此外,互联网的海量数据量靠几个普通搜索引擎根本无法应对。另外,普通社会科学研究人员缺乏数据统计能力,即便得到完整的数据,也很难做出科学的统计。在此过程中,其实专家既要承担网络舆情分析师的角色,还要承担专家的角色;既要完成数据收集、统计的工作,还要完成定性分析的工作。网络舆情分析师是专业性很强的工作,需要经过专业培训和长期实践,还要借助很多工具软件,才能充分发挥网络数据发掘。网络舆情工作体系中,网络舆情分析师的更多职责是完成数据搜集、发掘,拟补工具软件分析的不足,建立更完善的数据库;用数据走向,拓宽专家的研究视野。社会科学专家在这一体系中更多要承担的是,利用科学、扎实的数据研究社会现状、社会问题以及未来的发展方向,提出合理的对策建议。“三结合模式”其本质是要建立一个严密的网络舆情工作体系,在专家与数据间、专家与网络舆情分析师间建立顺畅的沟通渠道,这样才能建立一个有机的整体。
通过实践摸索,关于建设新疆互联网舆情监测体系初步形成了以下几个想法。
建立畅通的数据流通制度和途径。要想彻底解决舆情数据与专家脱离的问题,建立网络舆情工作体系和制度是唯一路径。一些第三方舆情数据监测室先行先试的经验很值得我们借鉴。舆情监测数据做得较好的是“中青舆情监测室”,定期向公众一些社会热点问题的舆情监测数据。新疆互联网舆情监测体系建成后也要建立分级舆情数据制度,一方面要注重分级别建立数据库和分级别舆情数据,另一方面各级别舆情数据库要注重建设方便快捷的舆情数据查询渠道。只要在规定的级别内,就能够方便快捷地看到相应的舆情监测数据。舆情变化瞬息万变,数据的时效性对研究者来说尤为重要。舆情危机出现时,没有第一时间数据支持,就得不出最快的预警报告,就无法进行提前疏导和准备,无法真正将危机处置环节提前。
培养互联网舆情监测师。优秀的舆情监测师是舆情监测的真正灵魂,这一步一定要走在前。舆情监测师要包括两部分人员,一部分为专业互联网数据搜集、分类、统计的技术人员,另一部分为具备较高社会科学素养和科研经验的社会科学研究人员。培养数据搜集、分类、统计的专业技术人员,能够为互联网舆情监测提供良好的技术保障。培养社会科学研究者具备一定互联网舆情数据搜集、分类、统计技术,能够使他们更好地参与互联网舆情监测活动中,使互联网舆情数据的收集、分类、统计更符合社会科学研究的需要。只有将这两类专业人员最大程度的结合,才能建立起一个有效的互联网舆情监测体系,才能真正提高目前新疆互联网舆情监测、分析的时效性和科学性。在这两类人才的培养中,尤其要注重青年舆情分析师和少数民族舆情分析师的培养的。首先,青年人的计算机和互联网应用技术普遍要高于中老年人,而这些应用技术在互联网舆情监测中是必不可少的操作技能。其次,互联网舆情更多反映的是青年人的观点、意识形态,青年舆情分析师本身就是其中一员,具有天然的分析研究优势。第三,新疆为一个少数民族聚居的地区,培养少数民族舆情分析师的意义不言而喻。他们的民族语言文字优势,以及他们与生俱来的对本民族事物的独特理解和把握,是其他民族人群所不能替代的。
关键词:网络舆情;舆情监测;指标体系
有效加强网络舆情监测分析,才能实时掌握网络舆情动态。网络舆情监测分析工作重要环节包括采集、整理和分析舆情信息,需要构建一定的指标体系,评价揭示网络舆情信息的特征与变化规律。指标是在评价某些研究对象所确定的依据和标准,包括指标名称和数值。网络舆情指标体系是由相互联系、相互补充的指标组成的统一整体,用于反映网络舆情的综合状况,揭示其中的各个方面。本文首先介绍舆情监测的来源范围,接着阐述网络舆情监测指标的构建原则与内容,提出从主题汇聚、热度、内容倾向性、预警等方面构建网络舆情监测指标体系。
1网络舆情监测来源
网络信息的来源不断趋于多样化,从传统的新闻网站、博客论坛,发展到微博、微信等社会化网络应用[2]。准确把握舆情态势,防止监测分析片面化,需要增加信息来源范围。然而,舆情监测难以捕获所有网络信息,网络舆情的来源选择就显得非常重要。在网络上,表现为围绕新闻、事件、问题与个案等产生的网络信息。网络舆情的信息来源选择主要包括:
(1)主流媒体新闻网站。网络新闻是民众获取信息的重要来源,特别是主流媒体的新闻。重大性与突发性舆情都会及时出现在主流媒体,聚集大量网民跟帖评论,是舆情的重要来源与传播源头。(2)论坛。在网络社区中,网民会发出具有个人观点看法的各类信息。在舆情监测工作中,接触到的近半信息都来自于各种论坛。(3)博客。博客是个人分享、交流思想知识的空间,会对热点和新闻事件、特定话题和现象发表个人评论,是舆情信息的重要载体之一。博客数量众多,主要采集专家、知名人物的博客及网民回复。(4)视频网站。视频网站是社会生活和事件的记录与者,并且大多视频网站提供给留言功能,比如优酷、爱奇艺等。视频信息鲜活,网民会分享观感看法与态度,视频标题与描述信息为舆情数据的整理分析提供了可能和便利。以往工作容易忽视这类舆情载体,而实际中一些舆情事件会较早通过视频网站传播。舆情监测工作需要重视视频信息的价值,及时采集抽取其中的有价值信息。(5)社交媒体。在社交媒体应用上,国内主要是微博和微信。微博相对数据开放,数据量巨大,很难在较短的轮询时间窗口完成采集遍历。所以,与传统博客类似,选择其中的部分微博。微信主要限制在个人通讯范畴,主要将微信公众号作为舆情信息来源。另外,一些网站由于赢利、点击量等原因,有意甚至恶意炒作负面信息。所以,要区分标识这类信息来源。同时,在采集器设置上进行一定限制和过滤,避免采集处理过多无效无关数据。
2监测指标构建原则
网络舆情指标体系的构建原则应包括:(1)主题性。具体的舆情工作具有明确的服务对象,其舆情内容具有鲜明的主题、行业或领域性质。舆情监测的目的是及时识别问题与风险。因此,舆情指标应对各类信息做出灵敏响应。(2)可靠性。指标的选取要有相对可靠性与稳定性,确保指标的使用在时间上有延续性[1]。(3)系统性。网络舆情监测分析工作是一项十分复杂的过程,涉及内容众多。指标体系一定要尽量全面完整形成整体,覆盖舆情工作流程,从多层次多角度揭示网络舆情特征。(4)实用性。舆情监测指标必须反映舆情演化趋势与客观规律,符合网络舆情工作需求与相关流程,便于分析和引导舆情。同时,指标的计算分析结果要尽量便于理解与解释说明,为舆情简报等工作提供必备的数据支持。
3监测指标体系
(1)主题聚合
按照内容相关度准确关联聚合舆情信息,是准确把握舆情整体走向、媒体与网民言论态度的前提。主题聚合即指依据信息内容实现信息的分类与聚类,是舆情话题发现与话题追踪的基本支撑。从技术实现角度,主题聚合涉及信息内容分析,大多都是基于词语匹配的聚分类方法实现舆情话题发现与追踪等主题聚合功能。然而,文本中存在大量词形不同,但意义关联的近义词、同义词与相关词,内容相同或相近的新闻、帖文会出现在不同的页面与帖文。舆情信息中包括大量短文本,特别是网民回帖评论,存在明显的语义特征稀疏问题。分类体系只限于关键词本身,不具备主题词的语义描述,容易影响聚分类的准确率与召回率,主题聚合指数的性能会受到明显限制。一个解决方法是构建语义知识,并扩展语义计算模型提高分析的准确程度;利用当前的最新技术,比如深度学习方法,通过构建具有多隐层的学习模型,以海量舆情数据作为训练集,学习扩展语义特征,提升内容分析的准确程度。
(2)热度
舆情热度衡量舆情被关注的程度与传播范围。舆情热度主要包括舆情关注度、传播覆盖度、舆情权威度等二级指标。一些研究提出地域关注度指标[3],但网民IP地址对于第三方采集系统是难以大范围直接获取的。其中,舆情关注度采用主题内容下舆情信息的关注数量衡量,具体是篇目、浏览、回复数量的综合加权值,一般以线性累加和公式计算。该指标主要从网民角度,衡量舆情内容的被关注程度和感兴趣情况。覆盖度是指主题信息在采集来源站点中出现的比例。舆情信息来源站点是经过筛选的,代表舆情在整个监测范围内的传播程度。由于信息来源规模与特点不同,所以需要对来源类型预设参数再进行比例计算。权威度指舆情信息的来源权威度,比如人民网的权威度较高而小型商业新闻网站的权威度低,知名公众人物的博客权威度较高。权威度通过预设参数区分主流媒体、论坛、博客、微信公众号的来源指标。最后,将以上二级指标综合加权,进行标准化处理得到主题热度。
(3)内容倾向
内容倾向是信息内容中包含的观点态度,内容倾向指标用于统计舆情信息中的各类情感倾向类型数量。倾向类型主要分为两类:正面(褒、支持)、负面(贬、反对)。文本中的句子不仅包括情感词,而且包含一些具有较强情感色彩的形容词、程度副词、感叹词、否定词等影响判断情感倾向的因素。区分舆情的倾向性,需要构建情感词库作为智力支撑,才能提高情感判断的范围与准确性。比如鄙视、侵犯属于负面动词,而拥护、赞扬属于正面动词,安全、漂亮属于正面形容词。“鄙视这种言论”,“这种装置不安全”,可以依据其中的动词形容词判断情感倾向。
传统手工构建的情感词典覆盖面有限,难以满足实际运用。考虑到技术实施的快速性、易用性以及语义问题。借助已有情感词典构建基本情感词库,运用Word2Vector工具将语料库(比如已采集舆情信息、维基百科知识)转换为词向量,计算其他词语与已知情感词的语义距离,构建情感词特征空间[4]。通过扩展情感词库,判断广泛的情感倾向。舆情信息中的回帖或评论大多由较短句构成,其中句子s中的情感词表示为,s的情感类型。其中,表示词wi的倾向类型。如果wi前面否定词个数是奇数,则反置wi的极性倾向。将倾向性判断问题转化为文本分类问题,这样可以有效判断各种长短文本的情感倾向,得到主题信息的情感态度频率分布与内容倾向趋势。
(4)预警
网络舆情表现为海量的网络信息,舆情变化程度对应相应数据的特征与趋势。所以,监测分析数据变化可以描述舆情的影响趋势,对网络舆情进行危机预警。当前,网络舆情事件处理存在应急准备不足,报送时间不及时,突发事件响应速度慢等不足。一个重要原因是网络舆情预警能力相对较弱。舆情监测需要增强舆情信息的分析和预测,将工作重点从单纯的收集有效数据,向深入研判与预测舆情的趋势方向拓展。常用的思路与方法是:预设时间窗口,获取主题信息数量,内容敏感程度,负面倾向性评价数量比例,传播范围等基本特征与指标。计算历史窗口下的信息增长率、增长梯度等变化程度,评估舆情信息的数据变化趋势并制定预警级别。进而,以数据挖掘为核心技术,应用不同的数据模型方法,比如传统的多元回归、贝叶斯网络、决策树、支撑向量机等预测舆情发展趋势。如果大于某阈值或符合预定模式,认为需要预警,即从海量网络数据中预判出潜在的危机隐患。
参考文献
[1]王铁套,王国营,陈越。基于模糊综合评价法的网络舆情预警模型[J].情报杂志,2012,31(6):47-51.
[2]IRI网络口碑研究咨询机构介绍及研究方法[EB/OL].http:///wiki/网络舆情指数体系。
[3]李雯静,许鑫,陈正权。网络舆情指标体系设计与分析[J].情报科学,2009(7):986-991.
[4]黄仁,张卫。基于word2vec的互联网商品评论情感倾向研究[J].计算机科学,2016(6):387-389.
上一篇:销售工作描述精彩(9篇)
下一篇:年申论 年申论(2篇)
热门推荐