一、项目背景
近年来,个人信息及相关证件被不法分子冒用的事件经常发生,给个人及企业带来了严重的危害。为杜绝该类事件的继续发生,迫切需要构建统一的个人信息证件挂失平台。
二、客户需求
(一)架构需求:
1、 平台架构需提供高可用;
2、 确保业务应用连续性,应用升级不影响现有业务;
3、 平台需提供自动修护功能,实时保证各服务组件的稳定运行;
4、 随着未来业务不断发展,在不影响现有业务情况下提供方便快捷的扩展性。
(二)性能需求:
1. 数据加载性能≥1300万条记录(含相片、指纹信息)/小时;
2. 系统有效工作时间≥99%;
3. 系统故障平均间隔时间≥90天;
4. 在线用户数≥50000;
5. 总并发数≥1000;
6. 按用户ID或姓名、性别、出生日期组合条件查询,响应时间≤1秒;
7. 身份核查响应时间≤0.5秒。
(三)数据库需求:
大数据分析系统,主要实现目的如下:
1. 分布式数据库需能够提供大规模并行处理能力;
2. 需提供PB级加载功能;
3. 需支持对任何数据表或分区按行或按列进行存储;
4. 需支持对任意位置数据的并行访问;
5. 提供数据库内压缩功能;
6. 需支持多级分区;
7. 需提供动态分区清除和查询内存优化功能。
(四)实施需求:
1. 提供详细设计方案、实施方案,需经过双方会议讨论确认方案细节;
2. 平台实施部署期间需严格按照实施方案进行,如中途有更改需提前告知甲方人员确认;
3. 完成平台搭建后需进行平台优化,并提供详细实施部署记录,以供后续查询及文档归档;
4. 为甲方人员进行日常运维培训,并做现场操作演示指导;
5. 需提供后续服务支持。
三、架构设计
(一)Greenplum架构设计
Greenplum分布式数据库架构设计(下图参考):
大数据平台GreenPlum数据库部署在12台PC服务器上。其中两台服务器作为管理节点服务器,剩余的10台服务器作为GP集群segment数据处理服务器。
每台segment服务器配合4个Primary计算实例,每个计算实例配置一个mirror实例。
集群内部采用万兆光纤,双链路互联,作为内部数据交互使用;每台服务器配置两个私网地址,一个管理网地址。管理网络采用千兆网络,实现网络上数据与管理分离,并且数据网采用多路复用,集群整体实现高可用,排除单点隐患。
大数据平台数据架构设计:
源数据从生产系统,通过ETL工具抽取载入Greenplum数据库。所有数据在Grenplum数据库进行历史沉淀。数据在Greenplum数据库中进行数据查询与复杂计算,完成需求任务。除了一般需求计算以外,Greenplum还将部分加工完成数据反馈到生产系统参与生产。
四、建设历程
该项目于2015年正式启动,由最初的Greenplum数据库测试环境开始,到正式环境的安装部署,以及Greenplum数据分析平台上线、更深层的运维支撑。除原厂培训外我们还针对客户特别人员进行单独操作指导,现场解答各种问题;文档方面,包括初期的《平台设计方案》、《实施方案》,并根据客户人员熟悉程度编写《平台操作手册》、《运维手册》,应对方领导要求出具硬件预案等相关文档,累计高达20多份;
平台方面,为保证环境稳定安全的进行,我们先后对Greenplum平台进行多次的运维巡检,并调整各项指标,始终保持平台处于最优状态;问题处理方面, GP数据库搭建运行起来后,期间遇到的各类问题我们第一时间安排人员到场处理,时刻保持高服务质量、高服务效率的态度保证平台的稳定性。
五、取得成果
自平台搭建完成之后,Greenplum数据库承担主要的数据统计与分析任务,进行历史数据沉淀、复杂关联计算、统计分析和数据挖掘,借助GP数据库,为信息变更统计、订单完成率分析、挂失业务、信息挖掘及报表数据提取提供巨大明显效益。
系统上线一年多以来,实现挂失系统、受理系统零宕机的佳绩。通过专业性能测试软件LoadRunner为期2个月的测试,同时在线数满足业务要求,延迟最低,实例之间提供负载均衡,有效缓解业务高峰时期的压力,其平台的稳定性、高效性得到客户的高度认可。
附件一:产品介绍
鉴于用户提出的架构需求、性能要求、功能要求等,由业界最成熟、最流行的Greenplum数据库技术搭建大数据平台,解决用户提出需求,以下是Greenplum产品的介绍与功能特性:
(一)产品简介
Greenplum为Pivotal公司的一个开源数据库解决方案。处于Gartner数据仓库魔法象限领导地位,连续三年被Gartner评为数据仓库领域最先进的软件产品。软件产品采用主流分布式无共享并行处理架构,遵循国际及国内相关技术标准和规范,在业界得到广泛使用。
(二)产品特性
GREENPLUM的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等。
SQL标准 ——通过SQL 2003 OLAP控制功能全面支持SQL-92和SQL-99。所有查询信息都并行地在整个系统上执行。
统一分析处理——可以在同一个并行数据流引擎上执行所有查询和分析(SQL、MapReduce等)操作,从而允许分析人员、开发人员和统计人员使用同一个基础构架进行数据分析。
可编程并行分析——为从事运算和统计工作的人员提供了更先进的并行分析功能,支持R、线性代数和机器学习功能。
数据库内压缩——采用了业内领先的压缩技术,提高性能的同时,显著地减少存储数据所需的空间。客户可以将所用空间减少3-10倍,并提高有效的I/O性能。并且Greenplum提供行列存储、多级压缩的混合模式。能够最有效的为用户节省空间的同时,提供最好的性能。
千万亿字节规模的数据加载操作——高性能的并行数据装载器可以在所有节点上同步执行操作,装载速度超过4.5TB/小时。
随地访问数据 ——不管数据的位置、格式或存储介质如何,都可以从数据库向外部数据源执行查询操作,并行向数据库返回数据。
动态扩展——帮助公司对数据仓库进行便捷的小规模或大规模扩展,同时避免高成本的设备或SMP服务器升级。
性能监控——通过图形化的性能监控功能,用户可以确定当前运行的情况和历史查询信息,并跟踪系统使用情况和资源信息。
支持索引——Greenplum支持二叉搜索树、哈希、位图、GiST和GIN,从而能够实现多种索引功能,提供给数据架构师实施优化设计所必需的工具。
工业标准接口——支持标准数据库接口(SQL、ODBC、JDBC、DBI),并且可以与市场上先进的商务智能和抽取/转换/加载(ETL)工具互相操作。