|
| Japan Worldwide |
アジア最速スパコン『TSUBAME』に肉迫!
松岡 聡 先生 クリックで拡大 まずは、松岡 聡先生に、東京工業大学のシンボルであるツバメの名を冠したスーパーコンピュータ、『TSUBAME』についてお話をお伺いしました。 ~以下、松岡先生談より~ TSUBAMEに至る歴史
校内に展示されたSun Fire X4600
クリックで拡大 1996年当時、SX-4(NEC社製)といった機種がスーパーコンピュータ(以下スパコン)の主流でしたが、その時期にSparcStationのクラスターを研究室で作ったのがTSUBAMEの原点です。その後、AMDのCPUを使ったPCクラスターを作成し、ランクは高くは無いけれどもトップ500にも入る性能を出しました。 2002年には、東京工業大学キャンパス・グリッドのプロジェクトをセンターとして開始しました。その当時はSX-5や学術国際情報センターに導入されていたOrigin 2000(SGI社製)などがスパコンの主流でしたが、研究の経験から、今後はクラスターやそれに続くグリッドのインフラにシフトしていくであろうと考え、800CPUから始め、後に1300CPUのPCクラスターとスパコンを組み合わせてキャンパス・グリッドを作りました。このキャンパス・グリッドの経験によりセンターでもスパコンの様にインフラの管理・運営が可能であるかを実験する役割もありました。 TSUBAMEの設計目標
東京工業大学の校章
TSUBAMEは東京工業大学のシンボルでもある訳ですが、今までクラスターやグリッドを実践してきて、非常に広いユーザにスパコンのテクノロジをグリッド経由で普及させると同時に、高いレベルのスケーラブルでハイエンドな能力を提供することが両立するアーキテクチャを作ることが本当に上手く行く様なスパコンが作れるかが大きなテーマでした。 驚異的なスピードで設置されたTSUBAME TSUBAMEの設置はハイスピードで実施されました。2005年10月31日に契約を締結し、SC 05カンファレンスでアナウンスしました。それまで運用していたOrigin 2000を2月28日に止めて、1ヶ月でTSUBAMEを設置・運用しました。かなり大きなシステムをたった1ヶ月で設置できたというのはスパコンを知っている人ほど驚愕するのですが、NECやサンが頑張ってくれたことや、クラスターという非常にモジュラーな設計なので、色々なことが並列でできたことが大きく影響しています。 冷房ユニットを32台入れる為の工事、1.5MWを建物に供給する為に電力を増設する工事、クラスター間を接続するケーブリング、全部で80トンにもなる重量を支える為に床補強や建物自体を補強する工事などが、2006年3月に並行して進んでいました。 アジア最高速のTSUBAMEのスペック TSUBAME全体としては、655ノード/10480COREで、メモリは21TBあります。Opetron CPUだけで50TFlopsで、ClearSpeedのアクセラレータが360ボードで35TFlopsで全体として85TFlopsのピーク性能があります。ストレージはSun Fire X4500で1PByte、NECのiStorageで0.1PByteあります。 最近、遠藤先生の頑張りのおかげで、ClearSpeedを使ったLinpack性能が計測できて、47.38TFlopsまで行ったのでTop500の5位に行くでしょう。それでも、Top10に日本のマシンが1台しかランクインできないのは日本のスパコンの凋落ぶりを示している様で残念ではあります。
TSUBAMEの設計の特徴 ~FATノードが有利~
バックの配線も美しくまさにアート?!
クリックで拡大 TSUBAMEのネットワークは、Infinibandで1310+50ポートで、エッジのバンド幅が1.4+1.4TBitです。全てのノードが一つのシングルネットワークで繋がっていて、MPIを含めて全てのトラフィックをIPベースで流しています。これにより非常にシンプルで、かつ高速でスケーラブルなネットワークを作り上げることに成功しています。スパコンを作るときはこのインターコネクトが重要なのですが、今までのスパコンの概念とは違う、クラスターやグリッドのインターネットの技術を新たに取り入れて設計しました。 スパコンから借りたアーキテクチャ上の設計としては、各ノードがFATノードであることです。普通のPCクラスターですと各ノードは2~4CPUで、ピーク性能やメモリが少ないのですが、スパコンというものは、(BlueGene(※)は例外ですが)ノード当りのCPU数が多くなっています。これはアプリケーション側としては、様々なプログラミング・モデルが利用できるので非常に有利になっています。設置や運用面でもノード数が少ないことにより信頼性が向上したり、インターコネクトが組み易くなるというという点でもFATノードが有利に働いています。
大規模なスパコンを稼働させるコツ
TSUBAME内に立つ松岡先生と遠藤先生
クリックで拡大 トップ500のランキングに使われているLinpackは、問題数が大きいと結構、実行時間がかかります。TSUBAMEは11時間稼働させることができました。他のトップ500のマシンは公開されていませんが、我々の計算では6~7時間程度しか動かしていないことが予想されます。これは、メモリを使い切ってしまい、それ以上大きいものを走らせる事ができなかった可能性がありますが、メモリ利用率が低いマシンの場合は動かせなかった可能性もあります。 TSUBAMEを11時間動かすと、10の18乗くらい浮動小数点演算を行う訳ですが、Linpackでは、この間一度でも間違いを起してしまうと計算エラーが発生して、残差計算でエラーが見つかり止まってしまいます。10の18乗回の浮動小数点演算を一回もミスすることなく動かせたのは、TSUBAMEだけということです。 消費電力は、1MWというとそれなりに大きい値に見えますが、マシン自体は800~900KW位です。消費電力当りのピークFlopsで見ると、1Wあたり、60~100MFlopsですから地球シミュレータの5MFlopsに比べるとかなり省電力となっています。 冷却に関しては、通常のデータセンターでは200W/平方フィートに制限されていますが、それでも、TSUBAMEでは、フロアスペースから逆算すると700W/平方フィート冷さないといけません。そこで、高密度にラックの後に熱交換器を設置し、熱い空気と冷い空気が交じらない様にエアーカーテンでも分離しています。床下冷却を採用せずに、上から圧搾空気を送っており、一帯がまるで暴風域の様になっていますが、空気を高速に循環させることによって実質的な体積を増して非常に効率の良い熱サイクルを実現しました。 パソコンでは不可能なアプリを、パソコン並みの使いやすさで!
ラック内マシン正面
クリックで拡大 ある大学の研究室のPCで3ヶ月かけて計算しても終らなかった計算課題を、TSUBAMEの1ノード16CPUを使って、99,000秒、1日と、数時間で計算できました。その時に必要となったディスクスペースが750GBで、メモリが12GBです。PCに比べ100倍くらいの速度を向上させることができた訳です。これは、ディスク上に保存した750GBのデータに対して、1GBのメモリのマシンでは400回のスキャンをこなす必要があるのですが、12GBのメモリが使えることで、スキャンの回数が12分の1の30数回に減り、更に16並列で実行できる為です。 PCはある意味キャッシュに依存していてCPUだけ早いなど、バランスが悪く、キャッシュにヒットしている間は性能が良いのですが、キャッシュの域を逸脱すると途端にガクッと性能が落ちます。TSUBAMEの並列システムでは、単体のノードでも1GB/秒とメモリに近いくらいの速度が出ますので、ディスクにキャッシュアウトしても、ランダムリードでは落ちますが、ストリームリードですとそれ程醜い事にはなりません。 TSUBAMEの様々な活用状況 ~8000CPUを11,000人で~ TSUBAMEは設置されてから順次、一般利用向けにノードを増して10月で8000CPUになりました。東京工業大学では、教員が1000人、学生が1万人おり、殆どが理工系の学生ですのでシミュレーションでの利用が多くなっています。 1万CPUあっても母数が多いのでたいした大きさではないのですが、それでも非常に大きい並列ジョブを流す人が多い様です。また、今までだと1個のジョブを投げてその結果を得てから次を投げて・・、という使い方から、化学や生物の実験の様に一気に大量のジョブを投げている人も多い様です。 アプリケーションも多種多様ですが、計算化学で使われる『Gaussian』(汎用量子化学計算プログラム)が非常によくジョブとして動いています。Gaussianを含め商用ソフトではあまり並列でスケールしないのですが、16CPUから32CPUまではスケーリングすることが可能です。一般利用者には、16CPUでなるべく使う様に指導しています。 商用ソフトやフリーソフトを利用する人達は、16個といった少ないCPUで目一杯利用しています。自分でコードを書く人は、コードを書いて並列化すること自身が研究になっていることもあって、1000CPUとか4000CPUといった規模で使用しています。 地球シミュレータのコードを移植している人も出てきました。地球シミュレータと言えども全部を一人が占有しているのではなく、共有して使用しています。以前は、大学の情報基盤センターで提供できる資源では動かせなかったのですが、TSUBAMEになってからは資源が潤沢に得られる様になりましたので、移植が可能となり、動かしている人が増えてきました。 変ったところでは、Webサーチ系のアプリケーションや音声認識や、グリッドのプログラミングシステムのスケーリングのテストで利用したりしています。Linuxマシンでx86のPCクラスターということで柔軟性が高いので、Javaが普通に動いています。 TSUBAMEの将来と目標 2008年ごろには、TSUBAMEの様なx86での巨大なクラスターが、色々な大学の基盤センターに導入される様になると思います。しかも、今のインターネットの様に、それらのクラスターからなるデータセンターが一杯繋がっている、グリッド・システムの様になるでしょう。 TSUBAMEはある意味、PCサーバのアーキテクチャを用いていますので、パソコン雑誌に書いてある様に、CPUをAMDのdual coreからquad coreに交換するだけで、250TFlopsまで速度を上げることができます。これは新しいスパコンを買うより遥かに安く可能になります。その先は、1PFlopsが目標になりますが、TSUBAMEは4年の寿命ですので、さすがに新しいマシンにしなくてはなりません。国の計画では、その頃には10PFlopsなどと言っていますので、それにもう少し近付けないかと画策しています。 新入生でも使える!『みんなのスパコン』をコンセプトに。 今までのスパコンというのは非常に敷居が高いものだったのを低くして、東工大の学生や教員の誰もが利用できる様、色々な取り組みを行っています。スパコンといっても、汎用アーキテクチャのCPUが一杯あるデータセンターの様な物ですので、ストレージサービスや、コースウェア、アプリケーションのWebポータルのホスティングなどを提供しています。教育で使える様に全員にアカウントを発行したりもしています。 アクセス方法についても、今は完全には出来ていませんが、login shellなども今後は使わくても済む様、なるべくポータルを経由して使ってもらえる為に、SSO(Single Sign On)も導入しています。計算化学で使われているGaussian向けにはWebMOというポータルがあります。WebMOをつかえば、login shellを使うことなく、Webブラウザから分子構造の描くだけで、計算ができ、その結果もWebブラウザで動画としてみることができます。現在のところ、Gaussianのみに対応していますが、様々な用途に向けてこの対話アプリケーションを増したり、『Mathematica』(技術演算システム)のポータルも検討しています。 OSは現在はLinuxを入れていますが、将来は、WindowsやSolarisといった他のOSを入れてバーチャルマシンでホスティングするなど、ユーザとの距離を少しでも近付けることを検討しています。
※著者のタイトル、所属等は、執筆当時のものであり、現在と異なる場合があります。
| Sun Fun Times
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||