1994年,长沙经济技术开发区还是一片杂草丛生。14年后,这块土地上奇迹般地“长”出了集工程机械研发、制造、销售于一体,产品涵盖建筑机械、筑路机械、起重机械等25大类120多个品种,年营利收入逾25亿元的大型制造企业——三一重工股份有限公司。
在企业快速发展的过程中,三一重工产生了大量的数据,这就给公司的系统运营、信息管理提出了更高的要求。首先,数据中心必须具备更高水平的运营支撑能力和更强大的数据处理能力,既要确保企业关键业务数据的万无一失,同时还要支撑公司各种业务系统的连续可靠运行。其次,随着三一重工融入国际市场速度的加快,数据中心的建设标准和服务水平还应该做到与国际接轨,这样才能灵活地应对企业各种新的IT业务需求,确保能以最快的速度搭建新应用系统运行平台。
注重可用性与安全性
三一重工IT系统运营部部长何秋生认为,作为一家大型制造企业,确保整个系统的可用性与安全性无疑是至关重要的,这其中包括三个环节,即数据存储安全、系统平台以高可靠性连续运行、网络安全。
据何秋生介绍,目前三一重工系统运营部的服务器数量超过了150台,由于应用系统多、服务器数量多,三一重工也曾经出现过诸如系统数据备份时间过长、恢复时间过长、运行效率较低等问题。在早期,甚至还需要员工通过手工操作进行数据备份,这就使得风险很大,可靠性也不高。
针对这些问题,三一重工在数据存储和容灾备份方面做了很大的改进。现在,三一重工运用了全面的数据备份工具软件,充分利用共享光纤网络的磁盘阵列与存储带库的两级组合,实现了自动化的定时备份,这就减少了应用系统对硬盘阵列系统的需求和人工干预,加强了全系统的备份和恢复能力,同时也提高了备份效率和管理效率。
在使用了全面的数据备份工具软件后,三一重工对公司内的各种数据实施了每周一次的整体备份,并且每天进行增量备份。在此基础上,三一重工对被分到磁带库上的数据进行了两份备份,并把其中一份运送到异地的保险柜进行保存,从而实现了低成本的异地容灾备份。
事实上,三一重工的数据中心拥有两套网络存储磁盘阵列系统,因为他们非常重视通过磁盘阵列组合的方式进行数据集中存储,从而提升数据存储的安全性。比起分散在各个服务器或者子系统中的磁盘而言,网络磁盘阵列发生故障的概率要小很多。
不过,三一重工目前尚未对业务系统进行实时的连续备份。事实上,三一重工曾经计划对关键业务系统实现实时连续备份,但是遇到了系统性能方面的瓶颈。何秋生对此表示: “现在,如果我们对整个数据库进行实时的连续备份,就会明显影响到整个业务系统运行的速度,系统性能会下降到一个难易接受的程度。”当然,连续备份对提高业务连续性和数据可靠性的水平是很有帮助的,这也将被列入到三一重工未来的IT规划中。
的确,数据保护是企业关键业务系统正常运营的重中之重,对于公司的发展至关重要。那么,数据中心又是如何保障关键业务系统平台的高可靠性呢?
三一重工的核心业务系统都采用了IBM p系列的小型机系统,并以高可靠的集群方式运行。“由于多种原因,小型机在软硬件方面的可靠性总体上优于x86服务器系统,因此,在三一重工的数据中心中部署了不少小型机系统。”何秋生说。
SAP的ERP系统是三一重工的核心业务系统之一,其运行支撑平台是以p560小型机为基础的,并采用了基于动态负载均衡的IBM HA技术,用四台p560服务器做了一个高可用性的集群,通过集群实现了负载均衡。并且,系统使各节点的负载流量可以在服务器集群中尽可能平均合理地分摊处理。每个节点都可以处理一部分负载,在节点之间动态分配负载,以实现平衡,这不仅大大缩短了整个系统的部署实施时间,提高了工作效率,且改进和提高了计算机的处理能力,降低了因服务器维护造成业务中断的可能性,实现了更高的系统可用性。此外,公司产品研发运行的PCM系统也运行在类似的环境上,以确保研发数据和信息的可靠安全。
在公司的办公系统中,邮件服务器至关重要,由于其涉及从电子邮件、会议安排、团体日程管理、任务管理等多项关键业务,一旦出现故障,公司的日常业务交流将面临中断的可能。因此,三一重工在部署邮件服务器时选择用两台x86服务器做了群集,可以双机热备,一台服务器出现故障时不会中断邮件等服务。这样就确保了邮件服务器的安全,增强了可靠性,降低了关键业务的风险。
前面谈到的数据存储安全和服务器运行的高可靠性,是保证企业IT系统连续运行的左右手,当然,数据中心的网络安全也不容忽视。
在网络安全系统上,三一重工应用了IPS系统,通过应用层的攻击防护,预先对入侵活动和攻击性网络流量进行拦截,化被动为主动,以避免其造成的损失。目前,数据中心拥有三种防火墙,在日常的网络应用中,采用了Juniper和天融信的防火墙,不仅保护互联网协议安全、最大限度地消除单点故障,而且还通过严格的安全分区防止未经授权使用企业流量和资源,并将其与业务活动分隔开来。此外,在交换机上也集成了防火墙。
同时,三一重工还部署了上网行为管理系统。“采用这一上网行为管理系统,我们对员工的行为做了相应的管理规定,防止员工在工作时间滥用互联网,提高了员工的工作效率,节省了带宽,这不仅让组织的工作效率有所提升,还规避了不良行为带来的风险,更好地保护了网络的核心资源,保障了网络的安全和稳定。”何秋生介绍说。
随着系统和硬件的更新,三一重工的网络带宽有了很大的提高,网速进一步加快。据工作人员介绍,现在网卡均为千兆以上,同时通过多网卡的绑定实现了同步工作,并形成了冗余连接和分担负载,以分担服务器的访问流量,减少每块网卡的负载压力,提高网络连接的性能和可靠性,保证服务器访问的稳定可靠。如果服务器的一个网络端口出现连接故障,其他网络接口立刻接管负载,实现自动切换,服务不会中断,在提高网络带宽的同时还增加了可靠性。
|