网络舆情监控是指通过对网络各类信息汇集、分类、整合、筛选等技术处理,再形成对网络热点、动态、网民意见等实时统计报表的一个过程。
背景
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。
工作流程
各种舆情监控系统工作流程基本相同
(1)网络信息采集系统从互联网上采集新闻、论坛、博客、评论等舆情信息,存储到采集信息数据库中。
(2)舆情分析引擎负责对采集信息进行清洗、智能研判和加工,分析结果保存在舆情成果库中。舆情分析引擎 依赖于智能分析技术和舆情知识库。
(3)舆情服务平台把舆情成果库中经过加工处理的舆情数据发布到Web界面上并展示。
(4)通过舆情服务平台浏览舆情信息,通过简报生成等功能完成对舆情的深度加工和日常监管工作。
信息的来源
舆情监控的信息来源由于信息的高度发展,信息大部分的来源已经转向网络。网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。
系统分析
对于网络舆情的特点,社会管理者应当了然于心。对现实中出现的各种网络舆论,社会管理者应能做出及时反馈,防微杜渐,防患于未然。因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。
由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情分析系统,及时应对网络舆情,由被动防堵,化为主动梳理、引导。这样的系统应该具备以下功能[以乐思网络舆情监测系统为例]:
分析引擎
舆情分析系统的核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术。这些技术一向是国内外信息工作者关注的领域。文本检索会议(TREC)、情报检索专业组会议(SIGIR)、文本检测与跟踪会议(TDT)等都是展示此类技术最新研究成果的最主要的国际会议和论坛。其中基于关键词统计分析方法的技术相对比较成熟,但在其有效性方面还有很大的提高空间。
舆情分析引擎主要功能包括:
1、热点话题、敏感话题识别,可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用关键字布控和语义分析,识别敏感话题。
2、倾向性分析,对于每个话题,对每个发信人发表的文章的观点、倾向性进行分析与统计。
3、主题跟踪,分析新发表文章、贴子的话题是否与已有主题相同。
4、自动摘要,对各类主题,各类倾向能够形成自动摘要。
5、趋势分析,分析某个主题在不同的时间段内,人们所关注的程度。
6、突发事件分析,对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。
7、报警系统,对突发事件、涉及内容安全的敏感话题及时发现并报警。
8、统计报告,根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。
自动信息采集
其次是自动信息采集功能。现有的信息采集技术主要是通过网络页面之间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。目前,一些搜索引擎使用这项技术对全球范围内的网页进行检索。舆情监控系统应能根据用户信息需求,设定主题目标,使用人工参预和自动信息采集结合的方法完成信息收集任务。
数据处理
对收集到的信息进行预处理,如格式转换、数据清理,数据统计。对于新闻评论,需要滤除无关信息,保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等。对于论坛BBS,需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时,可直接针对服务器的数据库进行操作。
原文来自:http://www.baike.com/wiki/%E7%BD%91%E7%BB%9C%E8%88%86%E6%83%85%E7%9B%91%E6%8E%A7
