|
メモリ容量1.7テラバイト ディスク容量145テラバイトの 最先端のシステムが 最先端のヒトゲノム研究を 支えています。 日本におけるヒトゲノム解析研究の中心機関は、8台のSun Fire[tm] 15Kと2台のSun Fire 6800を、スーパーコンピューティング・システムの中核に導入。 概要 人間の科学的な根幹として、生命情報の設計図として、ヒトゲノムの解明はますます注目を集めています。東京大学医科学研究所ヒトゲノム解析センター(HGC:Human Genome Center)は、文部科学省(旧文部省)のヒトゲノム解析計画を推進する拠点として、1991年に東京大学医科学研究所内に設置されました。 その主な活動は、1.世界レベルでの先端研究の推進、2.研究者の受け入れと教育、3.データべース/ソフトウェア・サービスの提供に大別されます。 1997年3月には、HGCの活動拠点となる「ヒトゲノム解析センター棟」(延べ床面積4,400m2)も完成。現在では8つの研究分野「ゲノム・データベース」「ゲノム構造解析」「DNA情報解析」「ゲノム・シークエンス解析」「シークエンス技術開発」「シークエンス・データ情報処理」「ゲノム機能解析」「機能分析インシリコ」に特化した各研究室と、スーパーコンピュータ室(スーパーコンピューティング・センター)が設置されています。 そして2003年1月1日、HGCの“スーパーコンピューティング・システム”として、Sun Fire 15KおよびSun Fire 6800を中核とする新システムが本格稼動を開始しました。 システム導入の背景
そもそも、人の遺伝子はデータとしては約30万の情報で形成される3GBほどのものです。しかし、人を解明するためには人に近い組成を持つマウスやラットを解明する必要があります。基本情報としての塩基配列をどのような視点で解明するか。加えて、インデックスをどう付与するか。さらに主流となる解析法がまだ定まっていない上に、すでにある解析法に縛られると研究の視点さえもが固定されてしまうことから、データベースに集積されるデータ量はぼう大なものになります。
HGCのコンピューティング・システムの使用目的は2つあります。「その1つは、ゲノム・データベースやソフトウェアの開発です。もう1つはHGCで開発、もしくは収集したデータベースやソフトウェアを外部の研究機関などに公開することです」と、東京大学教授の高木利久氏は語ります。従ってコンピュータ・システムには「各種の実験データのデータベース化」や「(DNAの)塩基配列とその断片のデータ検索」および「データ検索・分析用のソフトウェアの開発」そして「外部の研究機関に対するデータベースやソフトウェアの公開」などを迅速に処理することが求められます。 さらに、HGCではさまざまな塩基配列を決定プロジェクトの成果とともに、新しい知識を発見する研究が活発に行われています。こうした背景から、新システムにはデータベース・サーバやファイル・サーバとしての高い処理能力が求められました。加えて「データ解析用のソフトウェアを開発する際には、適切なアルゴリズムを見いだすまでに試行錯誤の繰り返しを余儀なくされます。その作業を進めるためには大きなメモリ領域とCPU性能がどうしても必要になります」と、HGUのゲノム・データベース分野を担当する中井謙太助教授は語っています。 システム選定の過程
このような理由から、HGCは、2002年の春に新たなサーバ・プラットフォームのメモリ容量を300GB以上に設定し、それを重要なシステム要件の1つに掲げ、新システムの検討を開始しました。さまざまな工程を経て選定されたのが、株式会社日立製作所、伊藤忠テクノサイエンス株式会社(CTC)、Sunの3社によるシステム提案でした。HGCのシステム要件(要求仕様)に基づき、このシステムのインテグレーションを担当したのは日立製作所です。また、その工程では、CTCも重要な役割を担い、Sun Fire 15K/Sun Fire 6800とその周辺装置の納入から設定、チューニングなどの作業を担当しました。つまり、この案件は、日立製作所、CTC、Sunの3社が一体となって進めたプロジェクトです。 新システムは、8台のSun Fire 15Kと2台のSun Fire 6800と日立製のディスク・アレイ装置(145TB)を中心に構成されています。このうち、Sunのサーバ・プラットフオームだけでもそのCPUの合計数は788個に達し、搭載メモリとハードディスクの総容量もそれぞれ約1.7TBおよび145TB以上に及んでいます。 また、コンピュータは、スイッチ・ボックスを通じてGigabit Ethernetで相互に接続されているほか、HGC内部の研究室からはLAN経由で、国内外の研究機関からはインターネット経由でのアクセスが可能となっています。 HGCは現在、これらのサーバを通じて、大きく2つの種類のデータベースを公開しています。1つは、基本データベースであり、これは、世界各国のゲノム研究機関で広く参照されているデータベース(「GenBank」)などの国際的なゲノム・データベースを組み合わせたものです。またもう1つは、HGCが独自に提供するデータベースであり、それには、HGCの研究者が開発に携わった「JSNP」(日本のSNPsデータベース)や、「HGREP」(ヒトゲノム再構築データベース)、「DBTSS」(人遺伝子の転写開始点/完全長cDHAデータベース)などが含まれています。 さらに、HGCは、外部の研究者が利用できるソフトウェアとして、各種のデータベース・ツールのほか、ホモロジー・サーチ(BLASTやFASTAなどを用いた検索)、マルチプル・アラインメント/モチーフ抽出、遺伝子発見、および、配列解析といった作業を支援するツールを用意しています。 シークエンス・データ情報処理分野を担当する矢田哲士助教授は語ります。「単にCPUのスピードが速いからとか、メモリがたくさん積めるとかではなく、トータルな処理能力、過去の研究データの継続性、そしてアフターケア。いわば総合性能として、2代目にあたるこのシステムでもSunが優れていたのです」。 今後の展開
先述の通り、本年1月1日より本格運用が開始された新システム。その手応えを、矢田氏は次のように語っています。「今回のシステムは、初代のスーパーコンピューティング・システムに比べて、個々のCPU性能もシステム全体の処理能力も大きく向上しています。特に、旧来のシステムは、メモリ・スペースが少なく、巨大なデータを一挙に処理することが困難でしたが、現在は、そうしたデータも高速に処理する高いパフォーマンスを発揮しています」。 今後、医学や産業の分野も含め、人類の進歩への大きな貢献が期待されるヒトゲノム解析。最先端のヒトゲノム研究の発展を、Sunの製品はその高い可用性、処理能力、そして信頼性で力強く支えています。 (無断転用禁止)
(C) 2003 Sun Microsystems K.K. All rights reserved. |
||||||||||||||||||||||||||||||||