微智科技网
您的当前位置:首页基于大数据的舆情分析系统解决方案

基于大数据的舆情分析系统解决方案

来源:微智科技网


基于大数据的舆情分析系统解决方

1

基于大数据的舆情分析系统解决方案

目录

1 大数据中心项目概述 .................................................................................................................... 4

1.1 建设背景............................................................................................................................................... 4 1.2 建设目标............................................................................................................................................... 4 1.3 建设原则............................................................................................................................................... 4 1.4 大数据中心优势 ................................................................................................................................... 6 1.5 现状分析............................................................................................................................................... 7 1.6 总体建设需求 ....................................................................................................................................... 7

2 大数据中心总体规划设计 ............................................................................................................. 9

2.1 整体建设思想 ....................................................................................................................................... 9 2.2 整体系统结构 ....................................................................................................................................... 9

3 计算资源和存储资源配置估算 ................................................................................................... 11

3.1 大数据平台系统管理支撑系统 ......................................................................................................... 11 3.2 产品定位............................................................................................................................................. 12 3.3 XX情报大数据应用 ............................................................................................................................. 12 3.3.1 产品架构.......................................................................................................................................... 13 3.3.2 产品数据体系 .................................................................................................................................. 13 3.3.2.1 基于大数据的情报数据管理与分析系统 ................................................................................... 14 3.3.2.1.1 大数据平台功能框架 ........................................................................................................... 15 3.3.2.1.2 分布式计算功能 ................................................................................................................... 15 3.3.2.1.3 NoSQL功能 ............................................................................................................................ 15

第1 页

基于大数据的舆情分析系统解决方案

3.3.2.1.4 数据仓库功能 ....................................................................................................................... 16 3.3.2.1.5 分布式协调功能 ................................................................................................................... 16 3.3.2.1.6 情报工作数据流管理功能 ................................................................................................... 17 3.3.2.1.7 维护管理功能 ....................................................................................................................... 17 3.3.2.2 情报中心分析系统架构 ............................................................................................................... 17 3.3.2.2.1 非格式数据的分类存储 ....................................................................................................... 18 3.3.2.2.2 对格式化数据的全文检索合多线索加权检索 .................................................................... 18 3.3.2.3 完善的情报中心分析报表系统 ................................................................................................... 19 3.3.2.3.1 情报形势分析 ....................................................................................................................... 19 3.3.2.3.1.1 按照世界地域分析各地方情报 .................................................................................... 19 3.3.2.3.1.2 按照大数据技术分析情报的趋向; ............................................................................ 20 3.3.2.3.1.3 可以定制所关心的数据统计图 .................................................................................... 20 3.3.2.3.2 情报数据存储管理分析系统架构 ....................................................................................... 20 3.3.2.3.3 数据按照信息分类趋势分析 ............................................................................................... 20 3.4 XX大数据统一平台 ............................................................................................................................. 20

3.4.1 数据采集 ................................................................................................................................ 22 3.4.2 数据接入 ................................................................................................................................ 22 3.4.3 规则过滤 ................................................................................................................................ 23 3.4.4 数据存储 ................................................................................................................................ 23 3.4.4.1 功能 .............................................................................................................................................. 24 3.4.4.2 组成 .............................................................................................................................................. 25 3.4.4.3 基本算子集 ................................................................................................................................... 25

第2 页

基于大数据的舆情分析系统解决方案

3.4.4.4 情报处理....................................................................................................................................... 27 3.4.4.5 情报管理....................................................................................................................................... 28 3.4.4.6 用户权限管理 ............................................................................................................................... 28 3.4.4.7 情报管理....................................................................................................................................... 29 3.4.5 大数据中心安全层规划设计 .......................................................................................................... 32 3.4.5.1 大数据平台安全建设需求 ........................................................................................................... 32 3.4.5.2 大数据平台安全建设思路 ........................................................................................................... 33 3.4.5.2.1 服务器负载均衡 ................................................................................................................... 35 3.4.5.2.2 虚拟机VM之间访问安全 .................................................................................................... 36 3.4.5.2.3 平台层安全 ........................................................................................................................... 38 3.4.5.2.4 数据层安全 ........................................................................................................................... 43 3.4.6 逻辑架构 ..................................................................................................................................... 43

第3 页

基于大数据的舆情分析系统解决方案

1 大数据中心项目概述

1.1 建设背景

情报与科技虽然在历史上就存在内在联系,但从来没有像今天这样联系紧密。当今世界,情报与科技日益相互渗透、相互促进:科技是情报发展的重要引擎,每一次科技进步都给情报发展带来性影响;科技成为情报收集分析的源泉。

当前,大数据引领新一轮科技创新,新的科技进步对情报的驱动作用越来越强,成为情报创新的新动力,我们越来越迫切的需要一个采用大数据架构的大数据中心,以实现全局IT资源的大整合,实现各种数据的大集中,实现数据的合理利用。促进互联网与情报的日益深度融合。

1.2 建设目标

依托大数据大数据技术,为情报收集提供了绝好的契机。对情报管理、情报分析、采集、分类、入库,实行统一规划和建设。所有资源整合后在逻辑上以单一整体的形式呈现,并可按需进行动态扩展和配置。按照分阶段可升级的标准要求,为多级单位提供应用支撑基础平台服务和数据存储、备份、交换等服务,实现基础软硬件资源的统一管理、按需分配、综合利用,增强情报数据中心的可管理性,提高情报的真实性和可用性,系统的部署,提升硬件资源的利用率;

1.3 建设原则

结合本项目的实际应用和发展要求,在进行大数据平台方案设计过程中,应始终坚持以下原则:

1) 可扩展性原则

为了保证情报系统收集的需求,必须具有灵活的结构并留有合理的扩充余地,以便根据需要进行适当的变动和扩充;主要平台系统应采用开放的结构,符合情报分析的标准,

第4 页

基于大数据的舆情分析系统解决方案

适应技术的发展和变化。我们把主要精力放在满足情报需求和对未来的系统扩展的支持性上,也就是需要设计成一个便于扩展的系统架构,系统应具备良好的扩展能力并能够便捷地进行扩展。

2) 合理性原则

在一定的资金条件下,以适当的投入,建立性能价格比高的、先进的、完善的情报系统。所有软硬件的选型和配置要坚持性能价格比最优原则。在满足系统性能、功能以及考虑到在可预见的未来不失去先进性的条件下,尽量取得整个系统的投入合理性,以构成一个性能价格比优化的应用系统。系统架构的设计应尽可能地运用虚拟化、大数据、大数据等新技术,以符合未来的技术发展方向。这种设计方法可以最大化地利用军事情报收集上,提高军事情报效率,降低总体拥有成本,提高情报的真实度降低虚假情报信息的发生。

3) 可靠性原则

系统要具有高可靠性及强大的容错能力。该系统必须保证7×24全天候不间断地工作,核心设备比如数据库服务器和存储设备具有全容错结构,并具有热插拔功能,可带电修复有关故障而不影响整个系统的工作,设计应保持一定数量的冗余以保证整体系统的高可靠性和高可用性。即便是在系统建设初期也要着重考虑系统可用性、可靠性问题,防止出现系统停顿等问题造成信息系统的中断服务。通过结合大数据等新技术,可以更好地提高系统的可靠性和可用性。

4) 可管理性原则

选择基于开放的技术,采用标准化、规范化设计;同时采用先进的设备,易于日后扩展,便于向更新技术的升级与衔接,实现系统较长的生命力;保证后期在系统上进行有效的开发和使用,并为今后的发展提供一个良好的环境;

在设计、组建中心机房系统时,采用先进的、标准的设备;在选购服务器、存储和连接设备时,确保系统部件间的严密配合和无缝联接,并获得良好的售后服务和技术支持;整个系统建成后按照整理一套完整的文档资料,以便提高整个系统的可管理性与可维护性。

5) 安全性原则

严格按照XX关于信息安全的规定和要求,规划和部署中心机房的情报系统和备份系统;采用安全服务器、备份还原系统、来防止内外部的网络安全威协和数据丢失窃取威胁等;

第5 页

基于大数据的舆情分析系统解决方案

所有软硬件采用国产、自主研发的产品,从根本上保障系统的安全性。

1.4 大数据中心优势

通过建立大数据中心,通过服务的方式交付对物理硬件的需求,代替传统硬件设备跟随着应有系统的增加而增加的模式,对现有应用系统进行整合,实现IT服务的快速交付,节能响应国家号召,提升情报系统安全。

1) 国产硬件自主可控

数据存储硬件采用我国完全自主研发的存储服务器,硬件和软件设计完全自主可控。存储服务器采国产化架构的高可靠性硬件平台和国产睿思操作系统,从根本上保证数据的安全性。

2) 海量数据高效管理

随着地理信息处理情报的增多,存数据中心存储大量的数据,这就需要存储系统能够容纳海量的数据。同时,存储系统里面的文件数量也会快速增长,当文件数量增长到数千万以上时,文件的检索查找等操作将会给文件系统带来巨大的压力,特别是一个目录下面存放的文件超过一定数量甚至会造成文件查找效率急剧下降。

采用的分布式存储系统单卷可支持300PB以上的存储空间,高效的管理上千亿个文件,单目录可以高效支持千万级的文件数量。分布式存储系统拥有高效的多元数据服务器集群技术和高效的海量文件检索技术,在存放上千亿文件的同时保持极高的文件检索效率。统能够在单个目录下高效管理上千万个文件的存储系统,在单目录下存放上千万数量文件时,仍然能够提供每秒数万的文件检索效率。

3) 合理利用硬件资源,减少运行消耗

大数据平台可将服务器物理资源转换成池化的可动态分配的计算单元,从大数据中心具体需求出发,在资源池中划分出适合具体情报需要的服务计算单元,不再受限于物理上的界限,从而提高资源的利用率,简化系统管理,让信息化建设对情报产业的变化更具适应力,从而构建出信息系统平台的基础。

第6 页

基于大数据的舆情分析系统解决方案

数据平台建成后,可减少物理服务器数量至原有数量的一半以上,机房空间占用面积大大减少,机房相应配套设施建设也可能够相应减少,在实际工作中预计可节省能源达到70%以上,响应国家节能减排的要求。

4) 完善应急安全机制

大平台可以自动监控资源池中计算单元和应用单元的可用性,检测物理服务器故障,如果检测到故障,可重新在资源池中其他物理服务器上重新启动相关情报,整个过程无需人工干预。

通过大安全平台,可快速部署网络安全应用防火墙、IPS、WEB应用防火墙等。 5) 提供便捷的管理运维方式。

可以通过一个统一的管理平台,来进行对平台中运行的各项功能设立不同权限的管理账号,根据工作需要设置不同的管理权限,并可通过其管理日志追溯操作过程。

1.5 现状分析

目前情报信息数据和产业信息数据规模已经发展得非常庞大,信息化平台已日益变成情报运营与管理的重要支撑平台。在情报平台建设的过程中,各个应用系统的情报之间的联系非常紧密,流程自动化程度非常高。因此在信息化高速发展的形势下,急需形成统一完备的综合技术集成体系,能提供一体化的数据存储共享,应用集成和统一展现能力。随着信息化建设和应用工作的进一步深入,对信息网络传输能力,数据中心存储能力和处理能力提出了更高要求,为支撑流程集成和情报应用的深入融合,需要提供统一高效的流程处理能力,数据转换能力以及数据分析能力;需要建立和完善统一的综合技术平台体系,涵盖数据采集,存储,共享,交互和展现能力。

1.6 总体建设需求

(1)建立一个统一的超过300TB的数据存储系统,能够无缝兼容现有系统设备和大数据平台;

(2)建立统一的大数据平台系统,可以快速管理、扩展、配置情报系统的各种情报服务

第7 页

基于大数据的舆情分析系统解决方案

和数据存储服务,并能够提供相应服务冗余性;

(3)建立基于情报平台的大数据存储管理与分析系统,可以管理情报平台时实数据,并能根据数据情况和IP数据报文情况进行综合分析;

(4)建立基于情报系统的大数据情报管理与分析系统,可以方便的把全球的情报信息数据分析汇总,进行问题筛选评估,制定规范的情报产业制度;

(5)通过建立统一的情报分析管理系统,可以快速提高军方信息技术人员对所有情报资源的管理应用能力,保障情报实际的真实性、可靠性,同时也能够提高情报的分析能力。

第8 页

基于大数据的舆情分析系统解决方案

2 大数据中心总体规划设计

2.1 整体建设思想

大数据中心将利用大数据相关技术,结合绿色数据中心建设的目标和需求,以战略支持型信息化建设为导向,以支持保障信息化情报发展为建设思路,构造一个功能齐全、设备先进、运行高效、使用灵活、易于扩展、高安全可靠的全局性基于情报的数据资源中心。

2.2 整体系统结构

本次大数据中心解决方案将针对计算服务整体架构中的大数据服务区,通过对底层服务器硬件及存储资源实现虚拟化聚合部署,配合以大数据管理平台,实现大数据中基础架构即服务(IaaS)部分,同时该IaaS平台也为情报信息发布平台、大数据分析平台、web发布平台等(Paas)层提供更高层次的大数据服务,通过Paas层平台提供数据汇集管理、数据处理、数据服务、数据应用功能(Saas层),最终通过统一的系统门户向最终用户提供服务,总体逻辑架构如下:

图 1-1大数据中心总体逻辑架构

第9 页

基于大数据的舆情分析系统解决方案

大数据中心的各个关键组件及逻辑层次。

 大数据中心基础架构:提供了一个功能完整的、标准开放的方便集成的IaaS服

务层。这层提供的动态基础架构是整个大数据中心的核心支撑层,其最核心的部分包括采用了国产服务器、国产存储存储系统和虚拟化软件构建的大数据服务基础架构。该基础架构具备良好的性能、可用性和可靠性。通过部署虚拟化软件、服务器、存储设备、网络设备,内部搭建虚拟化环境,通过虚拟化技术构建新一代的数据中心,形成统一的大数据情报信息系统平台。在数据中心,这些资源根据需要进行动态扩展和配置,各单位最终信息系统情报按需使用资源。通过虚拟化技术,增强数据中心的可管理性,提高应用的兼容性和可用性,加速应用的部署,提升硬件资源的利用率,降低能源消耗。

 平台层:通过大数据分析平台、情报抓取系统、情报管理系统、情报分析系统、

web平台、用户管理系统等应用,平台为上层门户提供数据采集、数据处理等功能。

 大数据服务门户:为用户提供统一的服务门户,用以支撑整个大数据中心的日常

运营。包括用户登录、服务加载、下载、审批、叠加显示、拼接请求等功能。  大数据服务数据安全保护:通过部署大安全平台,可以帮助用户建立起一个既能

充分利用大数据优势,同时又不牺牲安全性、控制力和遵从性的环境,其为虚拟数据中心和大数据环境提供了支持虚拟化的保护,使用户可以加强应用程序和数据安全,提高可见性和控制力,以及加快整个大数据中心的遵从性举措。  大数据服务运维管理体系:为整个大数据中心平台搭建一套长期运维管理的体系,

为大数据平台的长期有效运行提供保障。大数据运维管理体系包括组织管理模式、制度规范体系、技术支撑体系等多个层面的内容,采用大数据技术手段和大数据管理制度结合的方式保障整个情报平台的平稳运行。

第10 页

基于大数据的舆情分析系统解决方案

 图 1-2 数据中心组件逻辑架构

3 计算资源和存储资源配置估算

计算资源和存储资源是大中心的两大类核心资源。对计算资源和存储资源的合理估算和配置,是建设先进、高效大平台的必要条件。

以下给出我们根据大数据数据中心现有情报应用和数据资源所作出的大中心计算资源、存储资源、基础网络和安全设施的初步估算。

经详细调研计算资源需要cpu计算单元320核内存5120G存储空间300TB。拟新增10台高性能服务器,供大数据、大存储使用,新增2台高性能服务器器供大安全平台使用。

3.1 大数据平台系统管理支撑系统

情报平台系统支撑系统是数据中心的核心系统,在此系统上可以快速配置和部署各种营运支持系统(情报管理系统、情报挖掘系统、情报内容系统、情报报告系统、大数据情报数据管理系统与分析系统)等;

XX情报系统面向大数据中心,提供从底层资源,到上层应用和数据管理的一体化管理平台,支持大基础架构以及各类物理资源、虚拟资源的管理,为网络应用提供安全、可靠的运行支撑环境,并面向大数据应用提供多源异构大数据的存储与处理。

第11 页

基于大数据的舆情分析系统解决方案

3.2 产品定位

 管资源:快速地构建起跨地域的大数据平台基础架构,对其中的物理资源和虚拟资源进行灵活的管理,对用户的IT需求实现快速的交付,并且支持资源弹性动态扩展。

 管应用:支撑情报应用的开发、测试、部署和维护等整个生命周期过程,并全方位监控应用的运行情况,及时对应用资源进行弹性伸缩,确保最大的应用稳定性和可靠性。

 管数据:对结构化、非结构化、半结构化数据提供统一存储,并且为应用提供相应的接口,并可以进行大数据分析和可视化展现。

 用数据:对情报系统的数据进行整合利用,形成信息资源中心,开放信息资源目录,支撑大数据应用开发。

 用软件:支持软件服务化接入,实现软件服务的上线、订购、开通、使用、下线等全生命周期管理。

3.3 XX情报大数据应用

 希望以大数据的模式对信息化平台进行管理和运营的军事、情报等单位  希望对数据中心进行大化并提供弹性大主机服务的服务商

 需要快速完成开发、测试和部署运行,简化应用开发和发布流程的软件企业  致力于行业软件开发,并希望搭建行业SaaS大服务平台的软件服务提供商  需要采集、存储、处理来自物联网、互联网的大数据并进行分析的企事业单位

第12 页

基于大数据的舆情分析系统解决方案

3.3.1 产品架构

 物理资源层。物理资源层包括支撑XX大数据系统自身运行和提供服务所需的物理基础设施,XX大系统可对分布在大数据中心的各类物理资源进行统一集中管理与运维,提供数据中心、物理资源两级资源管理,支持多数据中心管理。

 基础架构层。基础架构层是XX大系统的核心技术支撑层,由一个虚拟化管理平台、三大管理组件和四大核心引擎组成。该层的核心支撑是虚拟化管理平台,基于虚拟化管理平台,将支撑资源、数据和应用管理的核心技术封装为资源管理、大数据管理和运行平台管理三大管理组件,并将大管理平台的共性支撑技术封装为调度、服务、数据、监控四大引擎服务,为上层服务和应用提供基础支撑。

 服务层。服务层是XX大系统提供服务的核心支撑层,除资源、数据、应用三大核心服务组件外,服务层还兼容第三方服务。服务层还为支撑服务开发与管理提供了服务目录、服务封装、服务集成和服务质量组件,通过通用接口规范对外提供服务。

 应用层。应用层主要为应用开发与自动化部署提供技术支撑,包括开发、测试、生产环境的流程化定制与自动化部署,对应用运行环境的监控,对应用所需资源的弹性伸缩调度。通过应用层的技术支撑,用户可基于XX大系统平台快速开发并部署应用,同时可直接发布到XX大系统大平台提供大应用。

 门户层。门户层包括两部分:用户自服务门户和运营管理门户,用户自服务门户集成了用户所需的虚拟数据中心管理运维以及应用部署等功能;运营管理门户则集成了大平台运营所需的资源管理、服务管理以及计量计费等功能。

 平台管理体系。平台管理体系包括三部分:运维管理体系、安全体系和标准规范体系。运维管理体系针对XX大系统的资源管理架构规范了各种监控、报警、日志等日常运维管理机制;安全体系针对XX大系统提供的资源、数据和应用服务提供了一系列安全管理机制;标准规范体系则对XX大系统的资源管理、数据管理、服务管理提供了一系列开发与管理的技术规范和操作规程。

3.3.2 产品数据体系

XX情报系统是一套由多个软件构成的软件套装,有多个软件或者模块组成。XX大数据采用分布式部署方式,各个软件或模块之间采用松耦合的架构进行交互,易于扩展,易于根据需求进行定制和实施。产品架构图如下图所示。

第13 页

基于大数据的舆情分析系统解决方案

 核心架构平台。采用业内先进的大数据技术构建的自主可控的虚拟化、资源调度以及服务管理平台,支持KVM、Xen、VMware等主流虚拟化技术。

 运维管理系统。平台运维管理员使用该系统,对计算、存储、网络等各类大资源以及整个平台的基础架构进行管理,支持资源的全方位监控和应用集群的弹性伸缩。

 运营管理系统。平台运营管理员使用该系统,对平台服务进行发布、计费、受理等运营管理,对所有平台租户及其订单进行管理。

 服务管理系统。基于平台基础服务,形成整个平台的服务目录,并可按照一定的策略对服务进行组装和编排。另外对服务的使用情况进行计量;提供开放接口,支持服务集成。

 自服务系统。大数据平台租户使用该系统,申请大主机、大硬盘等各类虚拟资源,部署、运行并监控情报系统。

 大安全保障。身份认证、访问控制、容灾等,另外还包括从物理层、虚拟层到服务层、应用层的安全保障体系。

3.3.2.1 基于大数据的情报数据管理与分析系统

大数据经济情报综合分析平台和大数据交易数据管理与分析系统分别是两款大数据平台软件产品,都是集成海量数据的采集、过滤、转换、存储、检索、查询、统计、分析、可视化与安全管理等全生命周期管理的综合系统,但对数的关注点和管理方式有很大的不同。

系统不仅提供了常用的数据采集,检索,分析功能,而且还提供了基本的检索,分析功能单元,可以根据各种行业应用和最终用户的需求,进行不同的组合,适应用户的不同

第14 页

基于大数据的舆情分析系统解决方案

情报场景,完成大规模行业数据的挖掘分析和应用对接。

作为大数据分析平台,系统具有如下特点:  软硬件国产自主可控  多源异构数据接入  数据关联融合、统一访问  大规模、高性能、可扩展  高可靠、高可用

3.3.2.1.1 大数据平台功能框架

大数据平台必须是一个开放的体系,相关软件系统和硬件设备应是业界主流产品,遵循国家标准、行业标准,保证平台、设备、管理系统能够随时无障碍地进行更新和移植。大数据管理平台还应遵循统一的标准规范,充分考虑与外部系统(4A及其它网管系统、情报系统等)的接口。

支撑数据挖掘、数据实时存储和访问、ETL计算平台这三类情报应用。

3.3.2.1.2 分布式计算功能

MapReduce是一种简化并行计算的编程模型,名字源于该模型中的两项核心操作:Map和Reduce。Map将一个任务分解成为多个任务,Reduce将分解后多任务处理的结果汇总起来,得出最终的分析结果。

MapReduce适合于半结构化数据或非结构化数据的挖掘和分析。

3.3.2.1.3 NoSQL功能

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,其设计目标是用来解决关系型数据库在处理海量数据时的局限性。

HBase使用场景有如下几个特点:海量数据(TB或PB级别以上);需要很高的吞吐量;需要在海量数据中实现高效的随机读取;需要很好的伸缩能力;能够同时处理结构化和非

第15 页

基于大数据的舆情分析系统解决方案

结构化的数据;不需要完全拥有传统关系型数据库所具备的ACID特性。United Hadoop的HBase支持地理容灾、二级索引等高级特性,满足极高可靠性和开发易用性要求。

HBase适合于建立海量数据存储平台,用于数据的存储和实时访问,例如历史明细查询、详单查询等情报。

3.3.2.1.4 数据仓库功能

Hive是一个建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。

Hive主要特点如下:通过HQL语言非常容易的完成数据提取、转换和加载(ETL);通过HQL完成海量结构化数据分析;灵活的数据存储格式,支持JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFILE等存储格式,并支持自定义扩展;Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,United Hadoop的Hive具有如下特性:基于kerberos技术的安全认证机制;数据文件加密机制;双机热备;完善的权限管理。

Hive适合于结构化数据或半结构化数据的挖掘和分析。

3.3.2.1.5 分布式协调功能

ZooKeeper是一个分布式、高可用性的协调服务。在Hadoop系统中主要提供两个功能:一个功能是帮助系统避免单点故障,建立可靠的应用程序,另一个功能是提供分布式协作服务和维护配置信息。

ZooKeeper主要特点:

 顺序一致性:按照客户端发送请求的顺序更新数据。  原子性:更新要么成功,要么失败,不会出现部分更新。  单一性 :无论客户端连接哪个server,都会看到同一个视图。

第16 页

基于大数据的舆情分析系统解决方案

 可靠性:一旦数据更新成功,将一直保持,直到新的更新。  及时性:客户端会在一个确定的时间内得到最新的数据。

3.3.2.1.6 情报工作数据流管理功能

Oozie是一个用来管理Hadoop job任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。

Oozie主要特点:支持分发、聚合、选择等工作流流程模式;与Hadoop生态系统各组件紧密结合;流程变量支持参数化;支持流程定时触发;提供了HA机制;自带一个Web Console,提供了流程查看、流程监控、日志查看等功能。

3.3.2.1.7 维护管理功能

提供的维护管理功能是Hadoop平台的维护管理系统,是Hadoop系统操作和维护的统一入口,提供操作的定义和流程引导,并对于系统中的各项资源运行情况和操作进行监控记录,为系统的日常维护提供依据;

运维管理包括升级向导、日常向导、日志收集与分析、告警、监控、安装向导、配置管理、审计管理、用户管理等。

集群管理包括集群资源授权管理、数据服务封装接口、集群资源动态调度、并发控制、备份和容灾、用户和应用接入安全、集群组件HA和数据私密性。

集群管理系统负责整个系统的管理,包括北向接口、南向接口和本地管理GUI界面。北向接口包括OM类的Syslog、SNMP,以及安全管理对接接口LDAP。本地管理GUI界面提供系统中各类软硬件的图形化维护入口,包括日常维护,以及安装、升级和扩容向导等。

3.3.2.2 情报中心分析系统架构

第17 页

基于大数据的舆情分析系统解决方案

情报管理

设备管理软件管理报表统计

情报提取去重清洗内容提取内容分析情报挖掘情报汇总情报分类情报分析任务调度情报内容情报模型情报授权情报定义基本算法分类聚类情报图形情报审计报表统计情报数据标准化检索情报消息中心

情报数据基础情报用户权限情报入库管理分布式情报文件分布式情报库情报数据库WEB服务器采集大数据、情报分析情报对口管理图 3-1情报中心分析系统架构图

如上图所示,作为一款综合分析平台,平台可以分为四个大的子系统。包括:采集系统、情报分析系统、情报管理系统、情报抓取系统管理。

存储分析子系统又自下而上可以分三层,情报来源方式、数据类型存储方式、关联分析模型算法以及情报跟踪与各种类型报表。

3.3.2.2.1 非格式数据的分类存储

系统采用分布式文件、分布式数据库、分布式集群计算等多种分布式技术作为构建系统的基础平台,使得整个系统平台具有了高扩展、高容错、高性能、高可用的能力。

采集子系统提供多种接口,支持对不同数据源的采集,支持对多种数据类型的提取信息,同时对采集的数据进行分析提取,对数据内容进行匹配过滤,将各种类型的数据分门别类的存储到存储分析子系统中,供后者分析使用。子系统提供对多种文档类型的导入功能,包括word,ppt,execl,pdf,rtf,txt等多种文件类型;以及各种视频、图片格式的支持。

3.3.2.2.2 对格式化数据的全文检索合多线索加权检索

情报管理子系统管理客户的大数据分析情报,系统提供用户权限、情报管理、数据全

第18 页

基于大数据的舆情分析系统解决方案

文检索、情报定义等功能模块,满足客户情报分析的管理需求,通过全文检索和加权检索,可以把不同的情报内容针对一个时间、事件进行关联起来,并形成事件发展趋势的分析图表,用来提供领导层对情报项目的决策和分析。

3-3情报中心数据分析统计图

3.3.2.3 完善的情报中心分析报表系统

系统运维子系统管理整个系统的设备,软件,配置等,采用统计报表、状态显示等多种方式展示系统运行状态,维护整个系统稳定运行,实现系统的高可用性,高扩展性。

存储分析子系统是整个系统的核心部分。实现海量数据的存储、检索、分析等功能。实现对目标数据、图像信息、声音信息、视频等各种文件类型的海量存储,实现对这些类型的文件的关键字快速检索结果,并形成各种形式的情报报表系统。

3.3.2.3.1 情报形势分析

根据大数据中,爬虫爬到的全球情报数据和情报事件、情报轨迹、情报来源,分析每个地区的情报发展趋势;

3.3.2.3.1.1 按照世界地域分析各地方情报

根据情报名称可以方便把各个地方情报趋势图、情报热点分布图分析出来;

第19 页

基于大数据的舆情分析系统解决方案

3.3.2.3.1.2 按照大数据技术分析情报的趋向;

根据各个情报部门每天的公开的信息数据,可以分析各种活动的趋势图(技术分析);

3.3.2.3.1.3 可以定制所关心的数据统计图

根据存在的数据和定义的算法,可以定义自己关心的数据统计图;

3.3.2.3.2 情报数据存储管理分析系统架构

大数据数据中心通过运行在单独的服务器上的大操作系统对服务器、存储、网络等资源进行虚拟化管理,提供可以自定义的虚拟机,在虚拟机上安装Hadoop、hbase等Nosql分布式数据库集群,对现有的数据ETL采集、清洗、转换、汇总进来,使用海量数据分布存储技术,用spark、storm等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值。

还可以在虚拟机上运行情报应用系统,提供负载均衡和冗余备份,达到系统的稳定、高可用和方便的扩展性。主要用来储存情报数据的格式化数据系统,通过把大量的格式化情报数据,通过数据采集量、采集时间段、采集算法、采集方式、采集内容、采集性质、采集IP地址等关注的内容,用来分析世界情报、可疑情报等他们的趋势;数据按照情报分类存储

3.3.2.3.3 数据按照信息分类趋势分析

根据活动数据的大数据分析,系统能够快速的分析出每种情报领域的走势图,并根据技术分析,可以预测未来的发展趋向。

3.4 XX大数据统一平台

分布式数据总线是分析系统的数据通路,其基于分布式内存实现,可实现高速的数据交换、缓冲及转换、迁移等。各子系统之间和子系统内部的各个组件之间通过分布式数据总线互联,实现数据在组件间的交换及同步;外部数据源接入内部存储组件前也要先经过

第20 页

基于大数据的舆情分析系统解决方案

数据总线进行缓冲、交换等预处理操作;此外为支持一体机对异构数据的关联融合,提供对异构数据的关联加载,并可利用数据总线的高速缓冲区进行多集合数据的join统一格式转换等处理;此外数据总线还可完成对异构存储组件内数据联合的功能,可支持上层一次操作对异构数据集的联合查询。

P1Producer GroupAP2P3Message TopicA Message TopicB TopicCC1Consumer Group AC2C3TopicA Topic BBroker集群TopicBP1Producer GroupBP2P3C1Consumer GroupBC2C3 图 3-5:数据总线架构图

数据总线处于数据传输的关键路径上,因而对数据传输流起到控制作用,可完成对数据的分发和调度。同时还可根据上层存储访问的不同需求自动将数据分发到相应的存储组件,同时做到对上层透明。 提供如下关键特性:  各组件间数据融合、缓存、交换

提供异构数据接入、分发及数据关联操作的内存融合  数据流高速路由/分发 基于配置策略的数据分发  MQ/Buf/Mcache

同时提供分布式消息队列(MessageQueue)、数据缓冲、热点缓存功能  分布式内存管理

提供逻辑统一视图,同时支持高可靠  基于流池的动态均载

第21 页

基于大数据的舆情分析系统解决方案

基于流粒度的均载策略,保证流内一致性  可定制分发策略

动态可定制、基于数据特点、类型及标签的分发策略  内存互备/硬盘同步

支持节点间内存互备以及内存与硬盘的持久化  动态扩展

支持Broker节点的动态在线添加

3.4.1 数据采集

数据采集子系统的主要功能包括:

 实现多源数据的快速汇入、解析,分析,过滤等功能。  提供便捷的数据交换API,支持多种方式接入数据。

 多样化的协同代理,支持多种常用的数据获取形式,并能根据需求快速增加新类型协

同代理。

 支持多种常见的文档数据格式导入:包括图像数据、矢量实录、目标数据、声音数据、

视频数据等。

数据采集子系统分为多源数据接入模块、数据总线模块、分析过滤模块三部分。系统入口通过多个协同代理agent对接不同数据源,并在对数据进行格式统一转换,封装后以统一的格式发送到数据总线中。分析过滤模块通过统一数据获取接口从数据总线中订阅数据。

3.4.2 数据接入

数据预处理模块主要功能包括:

 实现多情报数据的分布式抽取,数据过滤,数据转换,数据加载等ETL操作。  对海量实时数据的规范化处理;

第22 页

基于大数据的舆情分析系统解决方案

数据接入模块提供对多种接入数据的处理。对海量流式数据可提供过滤、识别、检测、情报识别等预处理操作,同时可与后续流处理引擎对接;对web抓取数据可提供URL查重、实体抽取、数据格式封装、数据清洗等预处理功能,处理完的数据进入数据总线,由分析模块分析提取数据中的信息,为数据入库做好准备。

3.4.3 规则过滤

规则过滤模块用于实时过滤海量数据,从中选出重点情报数据。模块完成以下功能:  任务轮询模块

负责轮询任务并加载规则。如果任务符合重建条件,则加载所有任务的规则,并出发规则重建。  规则解析 解析规则内容。  规则过滤

获取实时流文档,并通过规则热切换获取最新的多模匹配状态机。  规则重建模块

根据任务轮询获取的任务列表,建立多模匹配状态机。 1. 任务轮询

不断查询数据库以获取更新的任务列表,实时过滤轮询定期轮询任务数据库,查看是否满足多模匹配状态机重建的条件,如果满足,则把需要重建的任务规则封装好并传给实时过滤模块。 2. 规则重建

主要是将任务轮询获取的所有有效任务进行规则解析,提取关键词,构建多模匹配状态机。 3. 规则过滤

主要是从缓冲队列中获取数据,通过建立好的多模匹配状态机和预处理过的规则,对文档进行实时过滤。

3.4.4 数据存储

数据存储层提供企业级大数据平台软件一体化解决方案;并支持特殊应用场景下的定制化硬件加速。面对结构复杂、需求多变的异构数据处理情报,数据存储层不仅提供统一、稳定、高效的存储子系统,还整合了先进的分布式集群资源管理和进程调度方案、高性能数据总线技术、全并行架构分布式关系数据库、分布式KV存数据库,以及面向上层情报

第23 页

基于大数据的舆情分析系统解决方案

的各类工具软件和库支持。

数据存储层采用了存储服务器集群和元数据服务器集群通过千兆以太网络/万兆以太网络构建,具备极高的扩展性和可靠性。消除集群内的单点故障,避免因为故障而导致服务中断或者数据丢失等影响,并且打破了传统存储系统架构上的。

分布式列数据库可支持大于几十个节点,PB存储规模的scale-out;性能上其针对具体大数据应用场景进行深度定制和调优,尤其对于高吞吐率入库和实时检索场景;功能上除了支持标准的K-V访问接口之外,还可较好的兼容SQL标准及JDBC接口,可以很好的与既有数据分析情报对接。尤其在索引性能优化及对后缀和全文索引的支持上都有显著优势。

在应用场景方面,分布式列数据库常被用作全量基础数据的组织和存储(包括结构化及半结构化数据),同时提供对此全量数据的实时查询;可兼容传统数据仓库OLAP 场景,对复杂SQL 分析可提供近实时的分析性能。从而可同时支持对大数据的实时查询和复杂离线分析。

3.4.4.1 功能

计算引擎是大数据综合分析平台中进行数据处理分析的基础。其主要包括分布式计算框架及数据分析算子两大部分。统一计算引擎系统满足如下功能需求:

 提供支持大数据分析的计算框架,包括MapReduce、内存计算等并行计算框架,具备

灵活定制型、弹性扩展等特性。

 提供面向大规模异构数据源的抽取功能和异构数据源统一组织模型,具备异构数据的

融合能力。

 基于分布式计算框架的机器学习与数据挖掘、文本检索、数值分析、地理位置计算、

检索统计等通用算子集;

 对海量实时数据的统计特征的快速提取(如max,min,average,sum等)。

第24 页

基于大数据的舆情分析系统解决方案

3.4.4.2 组成

机器学习聚类分类协同过滤音频计算图计算视频计算流计算统计类文本类SQL类地理位置类分布式计算框架

图 3-6:计算引擎结构图

如上图所示,计算引擎分两个层次:分布式计算框架和其上的各种基本计算模型。 分布式计算框架提供对主流计算框架的支持以及编程接口,包括MapReduce、主流内存计算框架等,分布式计算框架负责管理整个系统中的计算资源和数据资源,合理调度各个计算节点上的计算任务。 计算框架提供一下功能:

 计算情报资源管理。  计算情报任务拆分和分发。  计算情报任务跟踪。  计算情报任务容错处理  计算情报结果汇聚  计算数据节点负载监控

3.4.4.3 基本算子集

基本算子集提供了数据分析中所需要的通用和基本的算法和算子,覆盖了数据分析的

第25 页

基于大数据的舆情分析系统解决方案

各个方面。包括机器学习算子、数据统计算子、文本类算子、SQL类算子、地理位置类算子、图计算、流计算等。

1. 机器学习算子

机器学习算子提供的常用机器学习算法,包括分类、聚类、协同过滤等。同时提供机器学习的基本工具和基本库,使得机器学习模块有良好的扩展性和易用性。

分类算子的目的为把输入的对象分为预先定义好的类别标签中。分类算子为有监督学习,其过程可以描述为:给定有标签的训练数据集合,分类训练算法建立起分类器模型;当无标签的测试数据集合到来后,分类算法根据训练好的模型预测测试数据的标签。本模块实现了常用的分类算法有决策树算法ID3和C4.5。 ID3算法处理离散特征的数据集合,它从根节点根据最大熵原理决定树的每一个节点用哪一个特征进行决策,直到建立起叶子节点。C4.5扩展了ID3算法使得其能够处理连续值的特征。本模块实现的决策树算法能够同时处理离散特征和连续特征,并且可以并行的进行训练,模型训练速度快,预测精度高。

聚类算子是一种无监督的算法,它通过计算各个数据点之间的距离把高维空间中的数据自动聚成不同的类别。本系统实现常用的聚类算法有K-Means。K-Means通过不断的计算K各聚类中心和各个数据点与各个中心的归属关系,从而将数据聚集为不同的类别。本系统实现的K-Means算法可扩展可并行,对大数据环境有着很强的适应性。

2. 数据统计算子

数据统计提供的特征提取过程中所需要的基本和通用算子,以供具体的特征提取模块调用,具体算子包括max, average, sum, min, 以及其他统计算法。

3. 文本类算子

提供文本类数据的常用基本算法,包括文本检索,索引,关键字提取,拆分等。 4. SQL类算子

SQL类算子针对结构化数据的常用基本算法,支持常用SQL语句。 5. 地理位置类算子

地理位置类算子提供基于地理经纬度的检索和计算算法。

第26 页

基于大数据的舆情分析系统解决方案

6. 图计算

提供图计算的常用基本算法。支持有向多重图的计算,有向多重图是一个有向图,潜在的多重平行边(edge)共享相同的源和目的顶点(vertex)。提供图形的拆分并行计算。同时提供常用的图计算模型,包括:网页排名、联通计算、三角数计算等。

7. 流计算

流计算提供对实时数据流的可扩展的、高吞吐量的、流容错的基本计算模型。支持多种实时数据源,包括Kafka,flume,tcp等。支持对实时数据流的复杂算法操作,例如map,reduce,join等。

8. 视频图像计算

提供视频和图像处理的基本计算模型。支持图像的基本操作,包括:去噪、边缘检测、角点检测、采样与插值等,支持对视频图像的基本操作:画面捕捉,运动分析等。

3.4.4.4 情报处理

情报处理层负责完成用户提交的数据分析情报任务。它分为任务调度,情报分析任务,情报模型几个部分。

用户在情报管理子系统提交的各种情报分析要求,都会提交到情报处理层,形成对应的情报分析任务。

情报分析任务有任务调度模块调度执行,任务调度模块支持定时执行、循环执行、持续运行、事件触发等方式。

情报模型定义了数据分析的算法和执行流程。情报模型由底层的基本算法组成。系统提供常用的基本情报模型,同时也可以根据客户需要定制情报模型。

系统提供的基本情报模型包括:综合情报检索、通信关系、时空碰撞、实时监控、线索分析等。 1. 综合情报检索

提供度大数据检索功能,统一结构化数据和非结构化数据检索,提供统一的检索数据功能。提供对word,ppt,execl,pdf,rtf,txt等多种文档以及视频、图片格式的支持,

第27 页

基于大数据的舆情分析系统解决方案

数据的统一检索,可以按照不同的维度统一检索各种文档、视频、图片文件。 2. 通信关系

提供以特定目标为中心的通信关系图。通过对海量数据统计,提取特定目标的通信关系网。 3. 时空碰撞

以时间和空间为约束,发现目标的模型。 4. 实时监控

提供实时过滤入库数据的功能,可以根据用户设定的条件,实时分析入库数据,匹配的数据作为重点数据跟踪,同时可以提供告警功能。 5. 情报分析

根据用户设定的多种不同条件,在海量基础数据中检索符合情报条件的数据,并根据检索结果进行统计和匹配度计算,得到匹配度排序。可以有效地帮助用户减少搜索范围,快速锁定目标。

3.4.4.5 情报管理

情报管理为用户提供全面的情报管理功能。包括用户权限管理,情报管理,情报授权管理,审计,统计等功能。

3.4.4.6 用户权限管理

海量数据和关键情报往往是用户的核心资产,对这些数据的访问和操作必须有严格的控制。用户权限管理模块实现对用户访问权限的控制,控制用户只可以看到需要看的数据和情报。

用户权限管理通过为不同用户赋予不同的角色,赋予用户不同的操作权限,用户无法看到未授权的功能。

在通过角色用户的权限的同时,通过将用户划分为不同的情报组,分离不同情报组之间的情报数据。

第28 页

基于大数据的舆情分析系统解决方案

通过角色和情报组双维度控制数据和情报访问,有效防止信息泄露和数据滥用。

3.4.4.7 情报管理

情报管理为用户提供情报任务的管理工作,用户可以使用情报管理增加、删除情报任务,可以修改情报的属性。

情报管理提供了综合数据检索、时空碰撞、通信关系、实时监控、数据分析等常用的情报模型,用户可以直接使用这些模型,快速开展常见的情报。

综合数据检索功能提供全文检索。实现对目标信息、视频信息、图像信息、声音信息等各类文档综合检索,并提供直接链接,可以直接查看。如图所示。

图 3-7 综合检索界面

关联账号统计功能实现对检索到的数据的统计功能,统计和情报相关的账号出现次数,用于发现和情报高度相关的人员。如图所示:

第29 页

基于大数据的舆情分析系统解决方案

图 3-8 关联账号统计

账号通讯关系功能实现对情报相关的账号之间的通讯关系的分析,可以显示相关账号之间的通信关系。

图 3-9账号通讯关系

时序关系功能实现对情报相关数据的发生时间顺序,可以有效分析相关数据出现的时间密集区域,发送情报相关信息的发展趋势。如图所示。

第30 页

基于大数据的舆情分析系统解决方案

图 6-1 相关情报数据时序图

第31 页

基于大数据的舆情分析系统解决方案

3.4.5 大数据中心安全层规划设计 3.4.5.1 大数据平台安全建设需求

从“大数据”的概念提出以来。关于其数据安全性的质疑就一直不曾平息,这里的安全性主要包括两个方面:一是自己的信息不会被泄露,二是在需要时能够保证准确无误地获取这些信息。总结起来,用户在选择大数据服务时主要关注的安全风险有以下几方面:

 资源聚合技术的应用使得计算、存储、网络资源高度集中:用户数据存储、处理、

网络传输等都与数据中心密切相关如果发生故障造成的;后果较传统数据中心更为严重。

 虚拟化等技术的应用使得传统物理安全边界缺失:传统网络安全设施与防御机制

在防护能力、响应速度等方面越来越难以满足日益复杂的安全防护要求,用户信息安全、用户信息隔离问题在共享物理资源环境下的保护更为迫切。  数据传输安全:数据中心保存有大量的私密数据。在大数据模式下,面临着几个

方面的问题:一是如何确数据在网络传输过程中严格加密不被窃取;二是如何保证数据中心在得到数据时不将绝密数据泄露出去;三是在数据中心处存储时,如何保证访问用户经过严格的权限认证并且是合法的数据访问,并保证任何时候都可以安全访问到自身的数据;

 数据存储安全:数据存储是非常重要的环节,其中包括数据存储的软硬件配置、

数据的存储位置、数据的相互隔离、数据的恢复等。在大数据模式下,数据中心在高度整合的大容量存储空间上,拥有权限的数据提供给各权属单位使用。但相关单位并不清楚自己的数据被放置在哪台服务器上,甚至根本不了解这台服务器放置在哪个机柜;存储服务器软硬件均采用国产化服务器,从根本上保障了存储数据的安全性。

 数据审计安全:内部数据管理时,为了保证数据的准确性对数据审计对使用人员

进行认证。

第32 页

基于大数据的舆情分析系统解决方案

3.4.5.2 大数据平台安全建设思路

根据情报应用特点及平台架构层的特性,在采取传统安全防护基础上,进一步集成远程传输数据加密、身份认证、安全存储、虚拟化安全、安全防御设施和资源大化等综合安全技术手段,构建面向应用的纵深安全防御体系。主要体现如下的四个方面:

1. 底层结构安全,主要保障虚拟化、分布式计算等平台架构层面安全;

 分布式计算平台的服务器安全,主要参考传统安全防护体系进行保护,主要包括

操作系统安全、交换机VLAN划分、以及集群下存储安全及服务器双机热备,保障可靠性等;

 服务器虚拟化安全:虚拟机管理器安全:服务最小化原则、内核模块完整性、补

定管理机制等;虚拟机安全:虚拟机安全隔离、访问控制、恶意虚拟机防护( 防地址欺骗、 VM 端口扫描等)、虚拟机资源等;

 网络虚拟化安全:虚拟交换机:采用 VLAN 划分虚拟机组、对端口限速,禁止混

杂模式进行网络嗅探等;虚拟防火墙:设置安全访问控制策略,建立逻辑安全边界;

 存储安全:需要支持存储空间的负载均衡、冗余保护等;

 高可用性要求:支持虚拟机的 HA( 冷备 ) 、 FT (热备)、备份恢复等,实现

故障虚拟机的重新启用或快速切换,保障高可用性;

 虚拟化安全管理:支持宿主机资源监控、虚拟机资源监控、安全移及回退机制、

负载均衡、资源预留等;

2. 数据安全,尤其保障数据信息的CIA(可用性、保密性和完整性)  物理隔离:通过不同的情报访问规模部署两套套物理隔离的数据中心;  数据隔离:通过虚拟化层安全机制实现虚拟机间存储访问隔离;

 数据访问控制: 设置虚拟环境下的逻辑边界安全访问控制策略,实现虚拟机、

虚拟机组间的数据访问控制;

第33 页

基于大数据的舆情分析系统解决方案

 数据存储安全 :为用户可选提供加密存储服务;虚拟机服务则建议用户对重要的

数据信息在上传、存储前进行加密处理;

 剩余信息保护:存储资源重分配之前进行完整的数据擦除;数据删除后,对应的

存储区进行完整的数据擦除或标识为只写;数据备份与恢复:支持文件级完整和增量备份;映像级恢复和单个文件的恢复;

3. 运营管理安全,积极提高运营管理安全的水平和质量,实现集中地安全事件监控

和管理,完善安全审计追溯机制;  安全监控:通过部署集中的大数据

 管理平台,运用多种技术、手段,收集和分析各类安全事件,并运用实时关联分

析技术、智能推理技术和风险管理技术,实现对安全事件的深度挖掘,快速做出智能相应,实现安全风险台式的统一监控和预警处理;

 运营安全:制定安全运营策略及安全维护规章要求;制定数据中心运营维护 SLA

指标要求;制定数据中心安全事件应急响应机制及流程,包括安全事件的等级划分、处理流程、事件上报等规范要求。

 4A安全(帐号、认证、授权、审计):用户管理用户管理用户管理用户管理:对

用户帐号进行集中维护管理,为集中访问控制、集中授权、集中审计提供可靠的原始数据;访问认证:应建立统一、集中的认证和授权系统,以提高访问认证的安全性;安全审计:建立安全审计系统,进行统一、完整的审计分析,通过对操作、维护等各类日志的安全审计,提高对违规溯源的事后审查能力;采用“分区分域、重点保护”的建设原则,和“综合防御、积极防范”的建设思路,结合信息系统实际的网络环境,遵循方案的整体设计原则,为数据中心建设一个安全、稳定、可靠、实用高效的网络安全基础平台。

在充分的分析和理解了上述体系设计思路后,安全系统的建设方案中,按照“横向分域,纵向分类”的方式进行设计和建设,横向上采取分域的办法,并基于安全域详细分析各个区域的重要程度,采取不同级别的安全防护系统,满足信息系统的安全集成需求;纵向上按照不同类型的技术手段,针对信息系统的特点和需求,分别进行部署和策略的设计,

第34 页

基于大数据的舆情分析系统解决方案

提升系统的抗攻击能力,使系统能够更好地支撑上层各类应用,形成纵深防御系统。

3.4.5.2.1 服务器负载均衡

服务负载均衡可以有效地均衡IP应用的负载,优化网络性能,可以监视所有的用户请求并在可用的应用主机之间进行智能化的负载分配,从而可以提供应用系统极好的容错、冗余、优化和可扩展性能。

 提高应用系统的高可靠性。

通过专用的服务器负载均衡设备自动的网络应用可用性检查,保证网络应用的7x24 小时的持续性服务。能支持多种健康检查的方式,例如,三层的ICMP、四层的TCP/UDP端口、七层的URL和内容等,可以根据实际网络环境和应用的不同选择不同的健康检查方法。

 提高网络应用的高可用性:

摆脱单机服务器工作带来的压力影响,让所有的应用服务器全部参与到负载均衡群组中,达到100%的服务提供率,彻底消除因单台服务器带来的压力。并配合负载均衡技术来提高网络应用的性能。

 提高网络应用的高可管理性

负载均衡设备必须具有高管理性,可以很好的维护情报调度系统,能够根据实际的运行情况及时维护和适时调整系统。具有强力有效的管理手段,使系统保持良好的运行状态。

 情报系统具有高可扩展性:

负载均衡设备要求在情报处理能力,升级能力等方面具有较强的可扩展性,并具备在不改动系统结构的基础上满足情报不断发展的需要。

为了确保系统应用的可靠性,采用以下几种手段:

健康检查:可靠的健康状况检查可以保证用户获得最佳的服务。可以监视服务器在IP、TCP、UDP、应用和内容等所有协议层上的工作状态。如果发现故障,用户即被透明地重定向到正常工作的服务器上。这可以保证用户始终能够获得他们所期望的信息。

设备自身的冗余:提供设备间的完全容错,以确保网络最大的可用性。两个设备通过网络相互检查各自的工作状态,为其所管理的应用保障完全的网络可用性。它们可工作于

第35 页

基于大数据的舆情分析系统解决方案

“主用-备用”模式或“主用-主用”模式,在“主用-主用”模式下,因为两个设备都处于工作状态,从而最大限度地保护了投资。并且所有的信息都可在设备间进行镜像,从而提供透明的冗余和完全的容错,确保在任何时候用户都可以获得从点击到内容的最佳服务。

智能的服务器服务恢复:将重新启动的服务器应用到服务中时,避免新服务器因突然出现的流量冲击导致系统故障是非常重要的。所以,在将新服务器引入服务器组时,AD将逐渐地增加分配到该服务器的流量,直至达到其完全的处理能力。从而不仅保证用户在服务器退出服务时,同时还保证服务器在启动期间以及应用程序开始时,均能获得不间断服务。

通过负载均衡优化服务器资源:执行复杂的负载均衡算法,在多个本地和远程服务器间动态分配负载。这些算法包括循环、最少用户数、最小流量、Native Windows NT 以及定制代理支持。除了这些算法,还可以为每个服务器分配一个可以配置的性能加权,从而提高服务器组的性能。

大数据机存储平台满满足海量用户访问大数据应用服务器时的负载分担。

3.4.5.2.2 虚拟机VM之间访问安全

建设完成后的数据中心内运行着多个平台情报系统,平台情报系统之间我们通过虚拟防火墙或虚拟安全网关等技术,实现虚拟机间的安全隔离。

虚拟防火墙本身是一个虚拟机,结合虚拟化环境下虚拟交换机的使用,在一台或多台物理服务器下,形成了虚拟防火墙与虚拟交换机搭建的虚拟的三层网络结构,与传统的防火墙、交换机部署功能类似。一个虚拟防火墙可以管理一台或者多台虚拟机,为虚拟机提供安全防护和访问控制功能。通过部署虚拟防火墙,逻辑上数据中心的整体结构域传统模式没有变化,使得虚拟化部署不复杂化网络结构的同时,使安全管理更为简单明了。

第36 页

基于大数据的舆情分析系统解决方案

图 6-3 虚拟机VM之间访问安全

虚拟防火墙安全功能实现过程,如下图,当一个终端对大内VM进行访问的时候,数据包会经过虚拟防火墙进行安全检测,检测符合访问规则的数据将会转发至虚机上,非法访问的数据将被阻断。同样,虚机之间的访问,数据流也会通过虚拟防火墙进行过滤,符合策略的访问才能被运行。

第37 页

基于大数据的舆情分析系统解决方案

图 6-4 虚拟机VM之间访问安全

针对大数据中心,我们可以在各子大内以平台系统为单位或者是使用部门为单位进行安全域的划分,每个情报系统或者部门的虚拟机同处于一个虚拟防火墙之下的安全域,针对整体做安全策略。对数据的安全使用和访问建立一道屏障。

建议在部署大安全平台保护虚机的安全。

3.4.5.2.3 平台层安全

结合目前主流的大平台技术以及先进的下一代网络技术架构(NFV、SDN),我们为您提供了一套完整的、先进的、基于大平台的网络安全防护体系。

第38 页

基于大数据的舆情分析系统解决方案

图 6-5 大安全平台架构图

为用户提供定制化的网络安全大服务。针对安全需求,为其分配不同的计算资源,加载不同的安全策略,提供定制化的安全防护。对多种类型的网络攻击实现有效的检测和防护:包括端口扫描、口令破解、缓冲区溢出、木马病毒、假冒网站、网络嗅探、网络蠕虫、漏洞扫描、SQL注入攻击、拒绝服务等。此外,根据用户需要,还可提供上网监控、内容审计等功能。

采用大安全平台优势:  统一的硬件平台

本系统基于X86架构的通用服务器构建,而不是像传统的安全设备那样需要绑定在专有的硬件设备上。例如,传统的防火墙功能都是绑定在专门的硬件设备出售的。  统一的运维门户

本系统提供了统一的运维门户,对情报配置及审核提供了统一的管理平台,极大的简化了产品的运维难度及复杂度。

通过此统一门户,可以进行应用的一键自动化部署,极大的简化了情报上线的流程。 通过系统提供的自助门户,用户可以随时订购自己需要的网络安全应用,构建自己网络的防护方案,并可以随时对应用进行配置以及启停操作。  多租户隔离

第39 页

基于大数据的舆情分析系统解决方案

系统对不同的租户做了逻辑隔离,租户各自的操作互不影响,包括基础资源的使用以及应用软件的使用。  应用自动化部署

通过大平台以及虚拟化的网络安全应用模板,可以随时随地的进行网络安全应用的部署及应用。大平台可以根据需求随时部署应用软件,仅需一步配置,一个按钮,几十秒,即可部署一个安全设备,而不需再像传统安全设备的部署那样需要花费数天甚至数周的时间了。

 资源可弹性伸缩,灵活调度

基于大的特征,系统的计算处理等资源可以随时进行调整。

通过统一的运维管理及自助平台,可以随时对应用进行操作和配置,合理的分配系统的资源利用,构建自己的安全实施方案。

图 6-6 弹性模拟展示

 应用可扩展

系统基于目前最受欢迎的开源平台Openstack,对外提供了开放的北向API接口,可以随时扩展上层应用的情报能力及情报范围。

第40 页

基于大数据的舆情分析系统解决方案

同时,Openstack本身也是一个开源项目,可以兼容其它大平台和应用组件,极大的提高了系统的可持续发展能力。  虚拟网络安全功能

系统基于NFV的标准架构,提供了对网络功能虚拟化应用的支持,在此基础上,提供多种虚拟网络安全应用,通过不同服务的不同组合,可以为用户提供全方位的网络安全服务。构建属于用户自己的专有网络安全定制方案。

FW

FW(防火墙)是一种基于IP五元组的网络层(OSI模型中的第三层、第四层)安全防护设备,它可以通过对IP包进行基于给定规则的过滤,从而起到对网络的防护作用。通过对不同流向的规则配置,可以分别对不同方向的流量进行IP包过滤。

IPS

IPS(入侵防护系统)是一套包含被动防护和主动防御的网络安全防护系统,能够对网络进行实时监控,并及时阻断攻击,提供了深度的访问控制。

在ISO/OSI网络层次模型中,防火墙主要在第二到第四层起作用,而防病毒软件主要在第五到第七层起作用。IPS则基于不断更新的特征库以及多重检测机制,提供了针对L2至L7各层的攻击防护,例如:

协议异常/协议 SQL注入攻击 木马攻击 XSS跨站攻击 扫描攻击

DOS攻击 暴力破解攻击 web应用攻击 代码注入攻击 …等等

同时,IPS应用提供了精细化的攻击展示面板,通过IPS应用,您可以对所管控的网络遭受到的攻击情况进行度的查看与分析。通过可定制化的网络防护规则的设置,可以针对不同的网络用户实施差异化的网络安全防护。 可以通过图形化界面展示:

攻击归属地TOP图

该展示图将按照攻击的来源,以地域为区分维度进行攻击数据展示。 攻击类型TOP图。

第41 页

基于大数据的舆情分析系统解决方案

该展示图将以攻击的种类为区分维度进行攻击数据展示。 拦截攻击走势图。

该展示将以攻击数量随时间的推移而变化的方式展示攻击趋势。 安全网关攻击占比TOP图。

该展示将以不同网关分别受到攻击数量的维度展示攻击信息。 最近攻击列表。

该展示将呈现最近受到的攻击的信息。

除以上展示类别外,系统还可以进行二次分析展示,更进一步的帮助你了解网络攻击趋势。

WAF

WAF(Web应用防火墙)是通过执行一系列针对HTTP/HTTPS的安全策略来专门为Web应用提供保护的一套产品。

与传统防火墙不同,WAF工作在应用层,因此对Web应用防护具有先天的技术优势。基于对Web应用情报和逻辑的深刻理解,WAF对来自Web应用程序客户端的各类请求进行内容检测和验证,确保其安全性与合法性,对非法的请求予以实时阻断,从而对各类网站站点进行有效防护。

WAF的基本情报通过图形化界面展示:

加载全局规则和情报防护规则。

应用在启动时加载全局配置规则,根据实际配置加载情报防护规则。 解析HTTP请求。

根据协议配置模块对解析粒度的配置,应用对流经的HTTP消息进行解析。 匹配防护规则。

把解析后的内容基于防护规则进行匹配以及上下文分析,判定针对该数据包应该执行哪种类型的动作,是放其通过还是拦截,或者是不是需要进行主动防御。 执行匹配判定后的对应操作。

在得到对于该数据包应该执行哪种处理方式后,对数据包执行相应的处理。 通过WAF应用,可以有效的防御各种针对web服务的攻击,例如:

DDos攻击 SQL注入攻击 特洛伊木马 端口扫描 蠕虫病毒

第42 页

PPO3协议攻击 暴力破解 网页篡改 …等等

基于大数据的舆情分析系统解决方案

同时,通过WAF应用的部署,您将可以实时掌控网络状态、查看攻击详情、查看安全审计日志和管理以及自定义安全策略等等。

3.4.5.2.4 数据层安全

基于数据安全性方面的考虑,用户可以通过配置工具设置数据相应的安全等级,选择将数据和校验数据分别存放在不同的存储服务器上。分布式存储系统可以同时使用多条高速数据通道,可消除网络层的单点故障,进一步提高系统的高可用性。在这样的情况下,即使出现存储服务器宕机、网络中断、磁盘损坏时,仍然能够保障数据完整性和数据服务的持续运行。例如,在运行中存储服务器由于磁盘损坏而丢失了该磁盘上的部分数据,分布式集群存储系统将会立刻发现该异常并自发的启动数据恢复流程,利用存放于其它存储服务器中该部分数据的校验数据重新生成一份以保证数据仍有一定的冗余度。由于分布式的数据恢复是基于真实丢失的数据,并且数据恢复是通过整个存储集群同时并发进行,所以相对于传统的RAID技术具备更快的数据重建速度,这也能够有效提升数据的安全性。

通过将数据和校验数据存放在不同存储服务器的方法可以对一系列的软硬件故障(网络、主机、磁盘等)进行自动的隔离,消除了存储系统的任何单点故障,而且也无需配置任何复杂的配置。

➢ 用数据全局冗余技术取代Raid,提供了史无前例的可靠性;

➢ 可根据不同数据定制的数据安全性保证;

➢ 系统自动探测故障并恢复,实现最高的情报连续性保证;

3.4.6 逻辑架构

采用客户端、服务端、介质管理的三层架构设计,系统平台包括备份服务器、备份服务端软件、备份代理三个部分。备份代理与服务端之间数据采用轻量级代理+数据交互网络通信,管理服务端通过情报网络访问对服务器和备份代理进行统一的资源分配与管理控制,从而有效规避传统备份方案的瓶颈问题,实现备份性能的提升,并考虑未来方案的扩展,达到统一备份恢复管理的需求。方案逻辑架构如错误!未找到引用源。:

第43 页

基于大数据的舆情分析系统解决方案

图6-7 容灾备份逻辑架构

第44 页

因篇幅问题不能全部显示,请点此查看更多更全内容