You are on page 1of 12

HP 基于 IPF 的 Linux 集群解决方案及其应用

HP 解决方案体验中心

根 据 当 前 H P TC 技 术 发 展 趋 势 , H P 把 基 于
Itanium 处理器系列 (IPF) Linux 集群作为高端和
超级计算机系统主要发展方向,为用户提供
全面的 Linux 集群解决方案。用户可以选择在
HP 支持下自行组装系统,或者采用 HP 提供的
成套 Linux 集群产品,从而以最大灵活性满足
自己的应用需求、计划进度和经费预算。
图 1: HP 的四种 Linux 集群
解决方案 Customer Cuslomer selects sw to HP defined sw stack on
assembled manage HP cluster platform qualified platforms

Custer mgrnt sw Clustermamt,sw

Drivers, MPI,... Drivers, MPI,...


XC Cluster
File system/storage
File system/storage

HP support
Comprehensive HP
Interconnects
LC Cluster engineered and
supported solution

HP component support

HP support
Tested packages for
partner and
community solutions

Source: HP,2003

一、HP 基于 Itanium2 的 Linux • HP 集成和支持的集群解决方案:对希望得到完整解决


方案的客户,HP 提供 XC 集群系列的交钥匙系统。XC
集群解决方案概述 系统是完全集成的集群系统,它使用基于 Itanium 处理
HP 基于 Itanium2 Linux 集群解决方案的类型 器的 Integrity 服务器作为计算节点、采用基于 Linux 操
HP 开发了四种 Linux 集群解决方案(见图 1)。其中三种是 作系统的标准系统软件和 Lustre 集群文件系统(注:XC
客户可以在 HP 支持下自行配置的,一种是由 HP 在出厂 是 HP AlphaServer SC 的后续产品);
前预先配置、组装和测试的成套解决方案: • HP推荐的参考解决方案:对希望开发能够解决最大规模
• 客户组装系统:对希望自己组装集群的客户,HP 提供 问题的超级集群系统的客户,HP通过公司的专业服务部
支持 Linux 的系统部件(如服务器、机架、电缆等)、系 门提供基于已开发系统的参考模型、广泛的设计选择空
统软件和中间件帮助他们建立集群系统,实现最佳的 间作为客户开发定制集群系统的出发点(HP 为西北太平
价格/性能; 洋国立实验室提供的基于Linux集群体系结构的超级计算
• 客户在 HP 集群硬件平台上选择软件:对希望采用 HP 机已经进入TOP10行列,是参考解决方案之一)。
组装的集群硬件、自己选择软件的客户,HP 提供基于
机架安装 ProLiant 服务器的 LC 系列产品。LC 集群可以
扩展到 128 个处理器配置。HP 已经与多个 ISV 签订共
同开发和市场协议、提供 ProLiant 服务器供开发、移植
和测试它们的应用软件使用,最后由 HP 进行质量确认、
作为 HP 推荐的解决方案;

2
图 2: HP 基于 Linux 集群超
级计算机设计思想

HP 基于 Itanium2 Linux 集群产品的设计思想 供超级的性能和最高的性价比,实现了高性能、低成本、

HP 在发展基于 IPF Linux 集群过程中,在设计上充分吸收 高可伸缩性、高可用性、高可管理性完美的结合;

集群系统几十年的经验和教训、更加明确地遵循未来的 • 充分利用最新的商品化成果:HP 发展基于 IPF 高端和

发展趋势、更充分地利用 IPF 处理器优势和计算机系统及 超级计算机系统的基本思路是充分利用当代计算机技

网络通信技术的最新成果,为用户提供一系列先进特性 术最新的商品化成果和第三方软件产品,包括基于 IPF

和独特优点,成为推动 IPF 成为支持高端应用主流平台又 的 64 位低端服务器和工作站、强大的 Myrinet 和

一重大举措。图 2 描述 HP 各种基于 Linux 集群的高端和超 QsNet 互联网络、一系列先进的 Linux 集群软件以及管

级计算机系统解决方案的设计思想,形象地说明它们的 理工具和开发软件,避免重复开发、降低研发投入、

基本要点: 提高发展速度;

• 使用基于 IPF 处理器:EPIC 体系结构的 IPF 处理器与传 • 提供很高的通用性:HP 基于 Itanium 2 解决方案的硬软

统的 64 位 RISC 处理器比较,具有开放性、大批量和能 件设计和配置、使它们不仅是 HPTC 应用的利器,而且

够更充分利用现代半导体工艺发展成果快速提高性能 能够应用于市场容量最大的企业应用,满足企业电子

等一系列优点。IPF 处理器系列必将成为支持高端应用 商务、电子商务企业等现代应用的需要。

的主流平台,这是 HP 整个高端系统发展战略的基本点。 上述设计思想紧紧抓住了当代计算机技术发展的潮流,

HP 和 Intel 以及一大批其他厂商正在不遗余力地发展 IPF 使 HP 的基于 IPF 高端和超级计算机系统具有一系列领先


技术和推广应用。采用 IPF 处理器系列产品将为高端系 特性和极其广阔的发展前景。
统发展注入强大生命力;

• 基于 Linux 集群体系结构:HP 在发展其基于 IPF 高端和超

级计算机系统过程中,充分利用了 Linux 操作系统的开

放性和强大水平可伸缩性,通过高性能互联网络把大量

价廉物美低端服务器或工作站组成 Linux 集群系统,提

3
图 3: Beowulf 集群示意图

图 3 Beowulf 集群示意图

HP 基于 Itanium2 Linux 集群体系结构 二、HP 基于 IPF Linux 集群的


HP 用于构建超级计算机系统的 Linux 集群系统采用著名的
组成部件
Beowulf 体系结构。事实上,TOP500 中有 28 套以上的系
HP 基于 IPF 的 Linux 集群采用 Beowulf 体系结构,由集群节
统是基于 Myrinet 互联网络的 Beowulf 集群。Beowulf 集群
点、存储设备、互联网络、Linux 操作系统、集群系统软
不是一个具体的产品,而是一个用于利用可变数量、运
件、管理软件和开发工具等硬软件部件组成。
行 Linux 的低端计算机建立集群系统的设计思想。Beowulf

集群的目标是以比通常低得多的成本建立一个并行计算 集群节点

超级计算机环境。随着高端芯片逐步由 RISC 向 EPIC 体系 HP 的基于 IPF 的 Linux 集群主要使用装备 Itanium 2 的 HP

结构过渡以及互联网络和 Linux 操作系统软件技术的发 Integrity 系列入口级服务器(rx2600, rx5670)和工作站

展,基于 IPF 的 Beowulf 集群必将在高性能计算的顶端占 (zx2000,zx6000)作为集群节点。这些系统可以作为集

有越来越重要的地位、逐步发展成为建立超级计算机的 群的计算节点、也可以作为 Beowulf 集群的登录和管理节

重要途径之一。 点,提供作为高端系统基础节点所需的浮点和整数处理

能力、高速缓存容量、高速带宽、总内存容量、内存带

宽、系统互联网络通信吞吐能力及 IO 能力,实现最佳的
性价比。用户也可以根据需要采用企业级的 SuperDome

或中档的 rx7620 和 rx8620 服务器作为计算节点,提供

更高的性能。

存储设备

HP 领先的 StorageWorks 存储设备、NAS 和 SAN 体系结

构网络存储系统、为高端和超级计算机系统提供了强有

力的支持。

4
图 4: Myrinet 和 QsNet
互联网络

互联网络 Quadrics 公司著名的 QsNet 网络产品提供性能最高的超

互联设备是建立集群架构超级计算机的基础。HP 基于 级计算机系统内部互联网络。QsNet 的基础设备由安装

Itanium 2 的超级计算机解决方案采用多层胖树互联体系 在一个 QM-S16 16 端口独立机箱或一个 QM-S128 128

结构,利用当前当前最流行和领先的 Myricom 公司 端口可伸缩交换器机架中的网络交换器卡组成。网络交

Myrinet 和 Quadrics 公司 QsNet 作为内部互联网络、联接 换器卡使用交叉交换技术提供点到点的联接、可伸缩带

装备 IPF 的服务器或工作站,提供建立高性能超级计算机 宽和低延迟。QM-S128 128 端口交换器内部采用基于 8

系统所需的高带宽和低延迟。 端口交叉交换器的 3 层胖树体系结构。

Myrinet 是当前应用最广的集群系统和超级计算机内部互 集群的节点通过 Elan 适配器卡与互联设备联接。Elan 适

联网络。根据 2002 年 11 月公布的 TOP500 清单,世界 配器卡是一个基于 Quadrics Elan 通信设备的高性能网络

上最大的 500 台超级计算机中有 28%,即 140 台采用 接口卡。超级计算机系统中每个节点需要一个 Elan 适配

Myrinet 技术构成互联网络。Myrinet 互联网络的核心设备 器卡。该卡提供与系统高速网络交换器(16 端口交换器或

是 Myrinet-200 交换器产品系列,包括 8、16、32、64、 128 端口交换器)联接的高速接口。目前的型号是 Elan3,

128 -端口的交换器,双向带宽达到 10 GB 以上、延迟 以后将生产性能更高的 Elan 4。

不超过 300ns、功耗为 6-11w。Myrinet 交换器中使用分

块切入的分组路由。多端口交换器通过联线与其他交换

器或者任何网络中的单端口主机接口相连接。每个交换

器内部有流水线的交叉交换器,带有流控制和输入缓冲

区。Myrinet 分组是任意长的,它可以携带任何类型的分

组而不需要适配层。

5
Linux 操作系统 • ClusterWare-Platform Computing 公司的 ClusterWare

HP 提供预装针对 zx1 芯片组进行性能优化的 Linux 的服务 集群软件提供业界最强的工作负载平衡和系统管理功

器和工作站以及广泛范围优质的 Linux 支持服务。几乎所 能,同时使得用户能象单个服务器一样管理集群系统;

有主要的 Linux 操作系统都提供支持 Itanium2 的 64 位功 • ClusterWorX® -Linux NetworX 公司提供的 ClusterWorX

能(包括中国著名的红旗 Linux)。HP 的 Linux Itanium 产品 集群软件的主要特点是提供很强的系统状态监控功能、

把 Linux 的公开性、灵活性和低成本等优势与 Itanium 系统 事件管理功能、远程访问和管理功能以及集成的磁盘

的高性能优势结合在一起,为许多应用领域提供了最佳 克隆功能。ClusterWorX 提供非常便于使用的 GUI 接口、

选择。 供用户管理集群系统;

• MSC.Linux-MSC.Linux 集群软件是专门为高性能科学和
集群软件
技术计算设计的集群软件,提供很高的并行处理功能
HP 与 Linux 集群领域中领先的 ISV 合作,在提供丰富的集
和管理 Beowulf 集群所需的所有管理工具;
群软件、管理软件和开发工具,支持利用 Linux 下 Beowulf

的集群设计思想建立基于 IPF 的高端和超级计算机系统。

除了提供商品化系统外,HP 也提供全面的服务,支持用

户根据自己的实际需求和条件选择适当的硬软件产品,

建立自己的基于 IPF 高端或超级计算机系统。HP 在基于

IPF 的集群平台上提供如下 Linux 集群软件产品:

6
• Scali UniverseXE 和 ClusterEdge-Scali 为 HP 的 ProLiant
三、HP 基于 IPF 处理器 Linux
和 Itanium2 平台开发了独特的集群软件技术和产品,

提供容易使用、高安全性和高可伸缩性;
集群的应用
2002 年 5 月 IPF 第二代产品 Itanium2 问世后,基于 IPF 和
• Scyld Beowulf-Scyld Computing 公司是领先的 Beowulf
和高性能集群的开发厂商。该公司的 Scyld Beowulf 集 Linux 集群体系结构的高端系统和超级计算机应用日益广

群软件被称为第二代 Beowulf 集群软件。Scyld Beowulf 泛。随着 IPF 系列和 Linux 集群技术的发展,基于 IPF 的超
软件具有简化集群集成和设置、容易管理和管理工作 级计算机系统将在高性能技术计算最高端占据越来越重
量最小、高可靠性和无缝集群扩展等一系列特性。 要的地位,并进而向更加广泛的企业应用领域发展,推

动 Intel Itanium 处理器成为支持高端应用的主流平台。


系统管理软件

为了管理由大量节点组成的系统资源,HP 基于 Itanium2

超级计算机系统解决方案提供先进的作业管理、资源管

理和运行管理功能,提高系统资源使用效率、简化管理、

降低总拥有成本,包括:作业管理、系统状态管理、负

载平衡管理、配置管理等。

软件开发工具

HP 基于 Itanium2 高端和超级计算机系统解决方案提供齐

全和优质的软件开发工具,支持用户方便和高效地开发

和移植软件,包括:多种编译程序、子程序库、查错软

件、性能分析和优化软件、移植工具等。

7
表 1: 基于 IPF Linux 集群和超级计算机部分用户清单
用户名称 用户简介 系统配置 主要应用
清华大学 清华大学高性能计算中 120 台 rx2600 服务器 网格、高性能计算技术研究
心,该校是中国最著名 组成的 Linux 网格、集群
的综合性大学之一 系统
华中理工大学 国内著名理工大学 57 台 rx2600 服务器组成的 生命科学等领域
Linux 集群系统
中国科技大学 国内著名的理工大学 2 台基于 Itanium2 的 校内外高性能技术技术应
SuperDome 服务器 用,是国内教育界性能最高
32 台 rx2600 组成的 的超级计算机系统
Linux 集群系统
PNNL (西北太平洋 属于美国能源部一个专门 由 1540 个 Itanium2 组成的 是美国能源部科学网格的
国立实验室) 从事高级化学、分子物理 Linux 集群系统,完全建成 组成部分之一,支持广泛
研究的国立实验室 后速度达到 11 TFLOPS, 是 范围的科学计算
世界上最大的 Linux 集群系
统,在 TOP500 中位居第 8
Energy Company 美国大型能源公司 由 545 个 Itanium 组成的 地球物理研究
Linux 集群使用 GigE 作为互
联网络、rx5670 作为节点,
在 TOP500 中位居第 46
Ohio Supercomputer 美国 Ohio 州的一个为大学 由 zx6000 工作站、通过 计算化学、物理和机械工程、
Center 和私人公司提供计算服务 Myrinet 联接组成 Linux 全球天气预报等方面计算
的计算中心 集群系统,包含 256 个
Itanium2 处理器,在 TOP500
中居第 87 位
D-IMAG/INRIA 法国大型科研机构 由 rx2600 服务器、通过 基础研究
Rhone-Aples Myrinet 联接组成 Linux 集群
系统,包含 208 个 Itanium2
处理器,在 TOP500 中
居第 152 位

8
KTH-Royal Institute 瑞典皇家技术学院是瑞典 由 rx2600 服务器、通过 教学和基础科学研究
of Tech 著名的大学之一 Myrinet 联接组成 Linux 集群
系统,包含 180 个 Itanium2
处理器,在 TOP500 中居第
198 位
Rice University Texas 州一所大学,是美国 由 132 台 zx6000 工作站 高性能技术计算和高端的
最好的技术和研究大学之 和 4 台 rx5670 服务器,通 可视化应用
一;建立该州大学中第一 过 Myrinet 联接,组成 Linux
个速度高达 1 TFLOPS 的 的集群系统包含 174 个
超级计算机-RTC (Rice Itanium2 处理器,在 TOP500
Telescale Cluster) 中居第 199 位
University of Illinois 美国著名的大学之一 由 rx2600 服务器,通过 教学和基础科学研究
Myrinet 联接,组成 Linux
的集群系统,包含 128 个
Itanium2 处理器,居
TOP500 第 352 位
HP 公司 世界上最大的 IT 产品和 由 rx2600 服务器,通过 公司内部技术开发和性能
技术服务公司之一 Quadrics 联接,组成 Linux 基准测试
的集群系统,包含 118 个
Itanium2 处理器,居
TOP500 第 353 位
BP 世界上最大石油、天然气 15 套由 4 台 i2000 工作站 高性能技术计算
生产和零售商之一 组成的集群系统
California Institute 加州技术学院的高级计算 6 套 4 处理器的 rx4610 科学和工程计算机
of Technology 研究中心,支持学院和设 服务器与 HP SuperDome 模型研究
在该院的喷气发动机实验 和 V2500 等大型服务器
室的科研 联网

9
DOE Lab 美国能源部实验室 32 个 rx5670 组成的计算 高性能技术计算
集群系统
Ericsson Utvecklings AB 全球领先的移动和 使用基于 Itanium2 的工作 运行基于 TeIORB 软件支持
Internet 通信公司 站集群系统 电信和数据通信网络
An European government 欧洲一个大型政府机构 126 个基于 Itanium2 的服 用于国防和政府管理人工
organization 务器组成的集群 智能软件
(名字不详)
FHWA/NHTSA National 属于美国公路管理局和 Rx4610 和 rx5670 等 4 路 解决与研究车辆碰撞对车辆
CrashAnalysis Center 公路交通安全管理局的 服务器组成的 Linux 集群 影响有关的复杂计算机模拟
(全国碰撞分析中心) 全国汽车碰撞分析中心 系统 问题
Microsoft 世界上领先的软件厂商 80 套 4 路 rx4610 服务器 基于 Itanium 软件开发
包括各种集群系统
Queen' s University 英国北爱尔兰一家大学 23 个节点(50 个 Itanium2 高性能技术计算
Belfast CPU) HP-UX 集群系统 (以后
使用 Linux 操作系统)
Sencel Bioinformatics AS 挪威一家生物信息学公司, 多套 i2000 工作站组成的 与挪威 4 所大学的高性能
是挪威 Oslo 等四所大型高 集群系统 计算网格联网,使用其
性能计算网格的用户 HP Superdome 等服务器
University of Oslo 挪威的一所大学,与 利用基于 Itanium 工作站 生物信息学、天体物理、
Trosmo 大学等四个单位 的 Linux 集群系统与两台 地球物理、化学和金融
联合组成一个支持高性能 HP SuperDome 服务器 模拟等领域的计算
技术计算的网格 联接,组成网格系统
University of Tennessee 美国田纳西州的一所大学 使用由大量基于 Itanium2 支持该校的开放性校园间
大量从事网格计算研究 的集群系统组成网络 工程(SinRG)网格
, 支持网格计算
University of Tromso 挪威的一所大学,与 Oslo 利用基于 Itanium 工作站的 生物信息学、天体物理、
大学等四个单位联合组成 Linux 集群系统与两台 地球物理、化学和金融
一个支持高性能技术计算 HP SuperDome 服务器 模拟等领域的计算
的网格 联接,组成网络系统

10
下面我们进一步介绍其中两个典型系统。它们分别使用 网络通信、满足高性能计算的需要。该系统建成以后峰
Myrinet 和 QsNet 进行互联、提供超级的计算能力。 值计算能力将达到 11.52 TFLOPS, 一举成为国内高校中
迄今为止规模最大的高性能计算系统之一,有望跻身全
中国科技大学基于 IPF 的超级计算机系统
球 TOP100 行列。该系统将应用于满足本校生命科学、
在国内,随着许多大学和科研机构在基因、气象和材料
工程科学、化学和材料科学等专业的科研和教学需要,
科学等领域研究的深入,普通的计算机已无法满足用户
同时成为支持中国教育网的重要计算节点,满足全国高
的需求,普遍要求以尽可能低的投资建立能够满足各种
校的需要。
用户不同需求的超级计算中心。许多大学和科研领域用
户在考查所有著名计算机厂商后,选择了 HP。HP 与中国 HP 已经成为科教领域建立超级计算机系统的首选厂商,

科学技术大学合作建立世界领先的超级计算中心就是其 基于 Itanium2 的 Linux 集群架构超级计算机已经成为首选

中一例。 产品、为清华、华中理工大学等许多高校采用,市场需
求和用户数量正在不断扩大。
中国科技大学是国内著名的理工大学,在国际上也享有
很高的盛誉,是国家重点建设的高水平学府之一。HP 与
该校合作建立的超级计算机系统采用基于 Linux 系统的
Beowulf 集群体系结构。该系统使用 2 台 HP Integrity
Superdome, 每台的配置:64 个 1.5GHz Itanium2 (内部
代号 Madison)处理器、64G RAM。1TB storage; 32 台
Integrity rx2600 服务器,每台配置 2 个 1.5GHz Itanium2
处理器、2G RAM、1 个 36G 的磁盘 HDD。该系统使用
Myrinet 互联网络,提供节点间高带宽、低延迟、无阻塞

11
PNNL 基于 IPF 的超级计算机系统 该系统第二阶段建设的配置使用 764 个 2 处理器服务器

PNNL 是属于美国能源部一个专门从事高级化学、分子物 (1528 个 IPF 处理器系列第三代的 Madison 处理器)作为计

理研究的国立实验室。该实验室从 HP 购置了基于 IPF 的 算节点,四个服务器作为登录节点,2 个服务器作为系

Linux 集群超级计算机,是美国能源部科学网格的组成部 统管理节点(总共 1540 个处理器),Quadrics 公司新一代

分之一,用于支持广泛范围的科学计算。该系统的建设 的 Elan4 网络接口,提供 11 TFLOPS 浮点计算能力、超过

分为两个阶段,分别于 2002 年和 2003 年完成。该系统 3.8 TB 内存。该系统使用新一代的 2 GB 光纤 SAN 体系

采用 Quadrics 公司的 QsNet 作为互联网络、采用 结构的网络存储,提供 53TB 共享存储。PNNL 的超级计

MCS.Linux 公司的集群软件,利用 RMS 和 LSF 软件进行作 算机系统已经进入 TOP10 行列,成功地应用于满足生命

业管理和负载平衡。 科学、计算化学、分子化学、核物理、材料科学、气象
预报等广泛领域的需要,也是每个美国能源部高性能计
该系统第一阶段建设的配置使用 116 个 rx2600 服务器 算网格最重要的计算节点之一。该系统是 HP 基于 Linux
(232 个 Itanium2 处理器)作为计算节点,两个 rx2600 服务 集群体系结构超级计算机的参考解决方案,充分显示了IPF
器作为登录节点,2 个 rx2600 服务器作为系统管理节点, 处理器的高性能和HP系统设计技术的优势和强大生命力。
Quadrics 公司的 Elan3 网络接口,提供 1 TFLOPS 浮点计
算能力、超过 1 TB 内存、26 GB/s 的聚合 IO 带宽。该系
统使用新一代的 2 GB 光纤 SAN 体系结构的网络存储,提
供 26TB 共享存储。

12

You might also like