- 您的位置:
- 标准下载网 >>
- 标准分类 >>
- 通信行业标准(YD) >>
- YDB 147-2014 互联网舆情监测与分析系统框架

【YD通讯标准】 互联网舆情监测与分析系统框架
- YDB147-2014
- 现行
标准号:
YDB 147-2014
标准名称:
互联网舆情监测与分析系统框架
标准类别:
通信行业标准(YD)
标准状态:
现行出版语种:
简体中文下载格式:
.zip .pdf下载大小:
1.19 MB

点击下载
标准简介:
YDB 147-2014.System framework for public opinion monitoring and analysis of Internet.
1范围
YDB 147规定了互联网舆情信息的采集与存储、数据分析以及可视化展示平台等方面的功能要求,为輿情监测人员提供系统、一致的互联网舆情监测与分析功能描述,规范互联网奥情监测与分析功能架构,为系统间的数据层面和功能层面的互操作提供支持。
YDB 147适用于互联网舆情监测系统。
2规范性 引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
YDB 149-2014 互联网舆情社区分析及可视化要求
YDB 148-2014 互联网舆情监测系统知识库框架
3术语和定义
下列术语和定义适用于本文件。
3.1
意见领袖opinion leader
在人际传播网络中经常为他人提供信息,同时对他人施加影响的“活跃分子”,他们在大众传播效果的形成过程中起着重要的中介或过滤的作用,由他们将信息扩散给受众,形成信息传递的两级传播。
3.2
网络社区network community
虚拟网络中关系紧密的一组网络个体,在信息传播中起重要作用。
3.3
突发热点话题burst hot topic
社交网络中在短时间内迅速发展的话题(关键词)集合。
4互联网舆情监测与分析系统框架
互联网舆情监测与分析系统框架由数据采集层、数据存储层、数据分析层及可视化展示平台四个层次组成,实现舆情信息的采集、存储、事件分析与挖掘、社会网络社区分析、舆情信息传播分析五大基本功能。数据采集层采用分布式爬虫技术,实现对互联网规模的多渠道舆情信息的采集,为互联网舆情检测系统提供数据支撑;数据存储层实现支持海量信息高可用的分布式并行存储:数据分析层是系统的核心层,通过对事件分析与挖掘、社交网络社区分析以及舆情信息传播分析,实现舆情监控与分析;数据分析层的分析功能与分析结果通过可视化展示平台展示,可视化展示平台是系统的前端。框架如图1所示:

部分标准内容:
中国通信标准化协会标准
YDB147—2014
互联网情监测与分析系统框架
System framework for public opinion monitoring and analysis of Internet2015-01-30印发
中国通信标准化协会发布
引言,
规范性引用文件
术语和定义,
互联网舆情监测与分析系统框架..数据采集层..
5.2功能要求..
5.2.1新闻数据采集
5.2.2论坛数据采集.
5.2.3博客数据采集..
5.2.4微博客数据采集..
5.3性能要求.
5.4实现要求...
6数据存储层
6.2功能要求.
6.2.1分布式存储管理
6.2.2资源划分与副本管理,
多级数据及文件索引.
6.3性能要求
6.4实现要求
7数据分析层.bZxz.net
7.1概述.
7.2功能要求.
7.2.1事件分析与挖掘.
7.2.2社交网络社区分析..
7.2.3社交网络舆情传播分析
7.3性能要求..
7.4实现要求..
8可视化展示平台
8.1概述..
8.2功能要求
舆情监控平台.
8.2.2事件分析与挖掘可视化
社交网络社区分析可视化
YDB147—2014
YDB1472014
舆情信息传播路径可视化
性能要求.
实现要求.
..................
HiiKAoNiKAca
本标准是互联网舆情系列标准之一,该系列标准的结构及名称如下:a)
《互联网奥情监测与分析系统框架》《互联网舆情社区分析及可视化要求》:《互联网舆情监测系统知识库框架》本标准按照GB/T1.1-2009给出的规则起草。YDB147—2014
为适应信息通信业发展对通信标准文件的需要,由中国通信标准化协会组织制定“中国通信标准化协会标准”,推荐有关方面参考采用。有关对本标准的建议和意见,向中国通信标准化协会反映。本标准由中国通信标准化协会提出并归口。本标准起草单位:国防科技大学计算机学院。本标准主要起草人:周斌、李莎莎、汪祥、李树栋。II
HiiKAoNiKAca
YDB1472014
近年来,Web2.0技术迅速崛起。其中,微博、社交网络等应用形式拥有大量用户群体,进而成为了互联网奥情产生、演化的平台。例如,新浪微博从开始运营起,仅用了一年半时间便拥有超过1亿用户,而截止至2011年11月初,其用户数已达到2.5亿,成为了巨大的公共舆论集散地。此外,腾讯、网易甚至Twitter等提供的微博平台也是网民产生、传播舆情信息的重要场所。因此,各行各业对互联网舆情信息分析处理也越发重视,要求越来越高。一方面,监测互联网舆情信息能够有效掌握社会舆论的看法、观点和走向,从而达成各自目的。另一方面,互联网舆情信息的产生、蔓延也为社会稳定、公共安全、商业利益等提出了挑战或影响。因此很多奥情监测系统被相继开发出来,希望借此掌握公共舆论的态势和发展规律。
TiiKAoNiKAca
1范围
互联网情监测与分析系统框架
YDB147—2014
本标准规定了互联网舆情信息的采集与存储、数据分析以及可视化展示平台等方面的功能要求,为奥情监测人员提供系统、一致的互联网情监测与分析功能描述,规范互联网舆情监测与分析功能架构为系统间的数据层面和功能层面的互操作提供支持。本标准适用于互联网舆情监测系统。2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。YDB149-2014互联网奥情社区分析及可视化要求YDB148-2014互联网舆情监测系统知识库框架3术语和定义
下列术语和定义适用于本文件。3.1
意见领袖opinionleader
在人际传播网络中经常为他人提供信息,同时对他人施加影响的“活跃分子”,他们在大众传播效果的形成过程中起着重要的中介或过滤的作用,由他们将信息扩散给受众,形成信息传递的两级传播。3.2
网络社区networkcommunity
虚拟网络中关系紧密的一组网络个体,在信息传播中起重要作用。3.3
突发热点话题bursthottopic
社交网络中在短时间内迅速发展的话题(关键词)集合。4互联网舆情监测与分析系统框架互联网舆情监测与分析系统框架由数据采集层、数据存储层、数据分析层及可视化展示平台四个层次组成,实现舆情信息的采集、存储、事件分析与挖掘、社会网络社区分析、舆情信息传播分析五大基本功能。数据采集层采用分布式爬虫技术,实现对互联网规模的多渠道舆情信息的采集,为互联网舆情检测系统提供数据支撑;数据存储层实现支持海量信息高可用的分布式并行存储:数据分析层是系统的1
HiiKANiKAca
YDB1472014
核心层,通过对事件分析与挖掘、社交网络社区分析以及舆情信息传播分析,实现舆情监控与分析;数据分析层的分析功能与分析结果通过可视化展示平台展示,可视化展示平台是系统的前端。框架如图1所示:
奥情监控平台
社交网络社区分析可规化
事件分析与挖据
分有式存储管理
数据采集层
5.1概述
事件分析与挖班可视化
可视化展示平台
奥情信息传播路径可视化
社会网络社区分析
资源划分与副本管理
奥情信息传播分析
多级数据及文件实引管理
新闻网站
微徽博
互联网舆情监测与分析系统框架数据分析层
数据存储层
数据采集层
数据采集层采用分布式爬虫技术,实现对互联网规模的舆情信息的采集,为互联网情监测系统提供数据支撑。其整体架构如图2所示,该架构由配置服务器、爬虫控制服务器、爬虫服务器三部分组成。其中配置服务器用于理解用户定义的采集任务;爬虫控制服务器用于对所有的采集任务进行时间调度,支持对分布式部署的爬虫进行调度:爬虫服务器用于从互联网获取信息并将其存储至数据存储系统,Internet
存储系统
鹿虫服务器
爬虫服务器
爬虫控制服务器
爬虫服务器
配置服务器
数据采集层系统架构
爬虫服务器
HiiKAoiKAca
5.2功能要求
5.2.1新闻数据采集
YDB147—2014
新闻采集应抓取指定新闻站点的网页,获取新闻标题、新闻内容、新闻时间、新闻发布者等5.2.2论坛数据采集
论坛数据采集应根据用户定义选取论坛特定板块进行网页抓取,获取帖子ur1、帖子正文、帖子时间、帖子作者等信息。
5.2.3博客数据采集
博客数据采集应在指定博客服务提供商的情况下进行博客作者获取,然后抓取指定作者的所有博客正文,获取博客内容、博客标题、博客作者、创作时间、博客回复列表、博客标签等信息。5.2.4微博客数据采集
微博客数据采集应支持用户和微博内容两方面信息的采集,其中用户信息方面,支持用户profile及粉丝关系的获取,微博内容方面支持微博文本、发布时间、作者、转发数、回复列表等信息的获取。5.3性能要求
数据采集的性能要求包括:
应能保证数据采集效率目标。数据采集的效率是单位时间内所能采集的数据量的大小,例如网页个数、微博条数等。具体指标待定:应能保证数据解析效率目标。数据解析的效率是指针对爬取的数据,舆情监控与分析系统的解析模块单位时间内完成解析的网页的数目。具体指标待定;应能保证数据解析准确性目标。数据解析的准确性是指在对爬取的数据进行解析时,舆情监控与分析系统的解析模块完成正确解析的网页占所有被解析网页的百分比。具体指标待定。5.4实现要求
数据采集层的实现应符合下列要求:应使用分布式爬虫技术,实现新闻、论坛、博客、微博客数据的并行采集,从而保证数据采集的效率。数据采集必须在一定的时间段内能够获取所需要的数据,保证系统能够及时对舆情进行监测和分析;
应针对新闻、论坛,博客、微博客网页的特点,采用特定的网页解析技术,从而实现数据的高效、准确获取。
6数据存储层
6.1概述
鉴于互联网舆情信息是高速数据流且在舆情信息分析处理的过程中不断产生分析数据,数据存储层需要支持海量信息高可用的分布式并行存储,它负责数据分布式存储及数据的管理,在保证数据可用性的前提下,提供高吞吐量的数据访问。数据存储层包括海量情报信息资源的分布式存储管理模块,数据分区管理与副本管理模块,和多级数据及文件索引管理模块。其系统架构如图3所示:3
TiiKAoNiKAca
YDB147—2014
节点1
行存储
6.2功能要求
列存储
6.2.1分布式存储管理
存储视图逻辑视图
下数据划分
文件系统
节点2
分布式文件系统APT及服务
结构索引
图3数据存储层系统架构
其它索引
分布式存储管理提供基于分布式文件系统的海量数据资源分布式存储管理,支持拍级(PB)的基于文件系统的海量数据存储,构建数据存储层数据访问的物理存储视图。分布式存储管理主要由一个元数据服务器和众多文件块服务器构成的。元数据服务器的主要提供文件名到文件块地址的映射。文件块服务器需要提供文件块管理及向元数据服务器报告状态信息两方面的服务。对文件块的管理,主要包括文件块的创建、写入、读取、删除、复制等。其中创建、写入、读取操作受控于用户服务请求,而删除、复制等操作受控于元数据服务器。6.2.2资源划分与副本管理
资源划分与副本管理提供高可用的数据完余及更新机制,数据文件被划分成多个文件块(通常为64M),每个文件块生成多个数据副本分别存储在多个存储服务器上,从而实现容错性高,可伸缩、易于扩展的数据存储,并提供高效的并发控制机制。资源划分需要提供位置和调度服务策略,包括数据块的分割与合并策略、迁移策略等;副本管理需要设置元数据检查点,以便定期进行数据副本同步。当个元数据副本不可用时,元数据服务器能够自动从其它元数据副本读取数据,以保证透明容错。资源划分与副本管理为数据存储层建立逻辑视图。6.2.3多级数据及文件索引
多极数据及文件索引为了支持结构化以及非结构化数据的高效检索,需要在数据的逻辑结构与存储结构中,通过各类哈希索引及结构化索引,建立数据的逻辑视图到存储结构的高效映射。其中,结构索引可包括B-树系列、R-树系列等,也包括支持有序字段的区间查询的区间索引:哈希索引既包括传统的面向关系元组及属性的索引,也包括了面向非结构化数据的倒排索引或其它基于哈希变换的索引,如文本的隐式语义索引(LSI)。
6.3性能要求
HiikAoNiKAca
数据存储的性能要求包括:
应能保证数据恢复时间目标。具体指标待定:应能保证数据完整性并提供持有性证明:应能保证数据的可用性:
应能保证数据的一致性;
应能保证数据检索响应时间。具体指标待定。6.4实现要求
数据采集层的实现应符合下列要求:YDB147—2014
应通过数据块的分割与合并策略、迁移策略实现对数据副本的定位和调度服务;应采用时间戳、互斥、原子操作等技术,保证数据副本的一致性:应提供分布式文件系统存储及数据库存储,以支持海量结构,非结构化数据存储:应采用分布式索引技术,提供各类Hash索引及结构化索引,以支持结构化、非结构化数据的高效检索。
7数据分析层
7.1概述
数据分析层依靠常识知识库、舆情领域信息知识库、地理信息知识库、敏感词库等知识库(见YDB148-2014《互联网舆情监测系统知识库框架》),利用文本分类、文本聚类、信息抽取、图聚类等数据挖掘技术与手段,对互联网文本信息、社交网络网络结构等信息进行分析,从而监控舆情产生及发展的整个过程,发现在舆情的产生及传播过程中其关键作用的人物、事件等。数据分析层的整体架构如图4所示:
结果翰出
结果合并服务器
主服务器
计算服务器
计算服务器
计算服务器
分布式并行存储系统
数据分析层系统框架
YDB147—2014
7.2功能要求
7.2.1事件分析与挖掘
事件分析与挖掘需提供多通道数据中的敏感事件发现、敏感事件关联及线索提取以及针对事件的情感倾向性分析服务。
7.2.1.1多通道数据中的敏感事件发现多通道数据中的敏感事件需要从论坛、博客、微博等多个异构数据源中提取特定敏感话题相关的事件,并收集事件相关要素,如事件中的人物、地点,事件发生的时间等。由于数据源的多样性,并且在每种数据源中都存在大量的参与者,这使得同一事件可能会被多次引用。因此该子功能还应能够识别此种情况,将同一事件的引用归纳在一起7.2.1.2敏感事件关联及线索提取敏感事件关联及线索提取需要能发现与敏感事件相关的舆情信息,即事件发展过程中有转折意义的子事件,以及子事件发生的时间、地点、涉及的人物、起因、经过、结果、影响等。7.2.1.3针对敏感事件的情感倾向性分析针对敏感事件的情感倾向性分析需要对文本的倾向性进行研判,针对敏感事件,利用各通道文本内容对公众情感进行分析,采用时间片切片的方法,对不同时间粒度上用户情绪向量进行跟踪和对比分析,从而帮助用户发现公共情绪演化规律,达到公共情绪分析和演化跟踪的目的。7.2.2社交网络社区分析
社交网络社区分析主要针对在线社交网络数据,如微博客、博客、论坛等,需提供个体影响力分析、意见领袖发现以及话题社区发现服务。7.2.2.1个体影响力分析
个体影响力可通过粉丝数量、被转帖量等属性反映。个体影响力分析应支持从分、时、天、月、年等各种时间粒度上对指定用户的粉丝数量、发帖数量、转发数量、,回复数量等属性进行时序分析,以反映该用户的个人影响力变化。
7.2.2.2意见领袖发现
意见领袖指在突发事件或网络话题的产生、发酵、传播、暴炒等环节中起主要推动作用的网民。意见领袖发现应支持基于个人影响力的针对突发事件或网络话题的意见领袖发现。7.2.2.3社区发现
社区发现需提供以下两方面的服务:一方面,在有特定目标指引的前提下找到以特定目标为核心的局部社区结构;另一方面,在无先验知识的前提下,对整个话题网络进行分析,找到规模、紧密度等符合多重约束的各个子社区结构。另外,社区发现还需要提供社区规模、紧密度、活跃度等各种指标的计算服务。(具体可参见《互联网舆情社区分析及可视化技术标准》)。7.2.3社交网络舆情传播分析
YDB147—2014
社交网络舆情传播分析需要发现热点话题的传播源头并还原其传播途径,这里源头包括两个内涵:是引起话题热点的源头文档,二是在传播过程中起源头作用的用户。系统应分析出文档间显式的和隐式的关联关系,并找出这些源头。7.3性能要求
数据分析的性能要求包括:
应能保证舆情分析与监控的系统响应时间目标。具体指标待定;一一应能保证與情分析与监控的准确性目标。奥情分析与监控的准确性是指系统分析结果与实际情况的相符程度,该参数直接反映了系统对其使用者提供辅助的能力。具体指标待定。7.4实现要求
数据分析层的实现应符合下列要求:一应采用分布式流数据控掘技术进行事件分析与控掘,以确保敏感事件监控的实时性一应采用分布式图聚类方法进行社交网络社区分析,以确保大规模社交网络社区分析的可行性一一应采用基于知识库的数据分析技术,以便从语义层面理解互联网信息,同时能够通过逻辑推理确保敏感事件监控的准确性、合理性。8可视化展示平台
8.1概述
通常,可视化是指利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理。在互联网监测与分析系统中,可视化展示平台主要需要提供与监控用户的交互的平台以及互联网舆情分析结果的图形化展示两方面的服务。其系统框架如图5所示,逻
逻辑数据
8.2功能要求
8.2.1舆情监控平台
据到显示数据的映射
显示数据
5可视化展示平台系统框架
舆情监控平台应提供针对指定信息源的信息监控以及针对指定用户的信息展示。具体如下。8.2.1.1针对指定信息源的信息监控7
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。

标准图片预览:





- 热门标准
- YD通讯标准标准计划
- YD/T1786-2008 移动多媒体广播业务业务保护技术要求
- YD/T1770-2008 接入网用室内外光缆
- YD/T1765-2008 通信安全防护名词术语
- YD/T1460.4-2006 通信用气吹微型光缆及光纤单元 第4部分:微型光缆
- YD/T1790-2008 移动多媒体广播业务应用层接口技术要求
- YD/T1793-2008 2GHz 数字蜂窝移动通信网网络管理技术要求网元管理系统(EMS)功能
- YD/T1533.2-2006 固定网多媒体消息业务技术要求 第2部分:多媒体消息业务接口
- YD/T1460.5-2006 通信用气吹微型光缆及光纤单元 第5部分:高性能光纤单元
- YD/T1533.1-2006 固定网多媒体消息业务技术要求 第1部分:多媒体消息中心(MMSC)设备
- YD/T1368.2-2008 2GHz TD-SCDMA 数字蜂窝移动通信网终端设备测试方法 第2部分网络兼容性测试
- YD/T1785-2008 移动多媒体广播业务总体技术要求
- YD/T1787-2008 移动多媒体广播业务业务指南技术要求
- YD/T1118.2-2001 光纤用二次被覆材料 第2部分:改性聚丙烯
- YD/T1488-2006 400/1800MHz SCDMA 无线接入系统:频率间隔为 500kHz 的系统测试方法
- YD/T1791-2008 移动多媒体广播业务交互应用技术要求
网站备案号:湘ICP备2023016450号-1