共立出版 bit 1999年8月号

連載「ゲノムデータベース − 計算機に格納された生命の姿」

ゲノムネット

京都大学化学研究所  金久 實 

1. はじめに

 国際共同研究として始まったゲノムプロジェクトは、いまや国際戦争である。各国政府が投入する膨大なゲノム関連予算に対し、民間企業もさらに大規模な投資を行い、早く情報をおさえ知的所有権を獲得するために、ゲノムのシークエンシング(塩基配列決定)競争に駆り立てられている。しかしながら、その実体は必ずしもサイエンスとしての健全な競争ではなく、バブル期の競争的な投資に似ている。ゲノムには情報がある、その情報には価値がある、といった漠然とした思惑で、ともかく突っ走っている。また、科学者が使う言葉の意味を正確に伝えずに、ゲノムの情報を解読した、情報をデータベース化した、といった発表がなされ、マネーゲームが行われている。このような情報は information ではなく、disinformation である。
 そもそもゲノムプロジェクトとは、ヒトの全遺伝情報であるゲノムを構成する30億文字分のDNA塩基配列(A, C, G, T の並び)を決定するプロジェクトである。同時にバクテリアから高等動植物まで、様々な生物種でも全塩基配列の決定が行われている。当初は15年かけて2005年までにヒトゲノムを決定する予定であったが、その後プロジェクトの順調な進展により2年早められて2003年までに達成できるとされていた。ところが昨年春以来セレラ・ゲノミックス社(www.celera.com)の挑発的な言動により、2001年には、いや2000年春には、といった具合に達成時期がどんどん早まっている。セレラは日本が10年かけてやり遂げる予定であったイネゲノムを、6週間あれば終了できるとも宣言している。
 もっともこのような終了宣言は、何をもってシークエンシング完了と定義するかが曖昧なことを利用した、単なる言葉のあそびでしかない。ビットの読者なら自分でプログラムを書いた経験のある方は多いだろう。90%のコードを書いてプログラムを大ざっぱに仕上げるのは2〜3日でできても、バグをとって100%仕上げるためにはさらに1ヶ月かかるといったことは、ごくあたりまえの話である。ゲノムのシークエンシングにしても、90%読むのは6週間でできても、100%に到達するには何年もかかり得る。90%できあがったプログラムがほとんど役に立たないように、90%の精度でゲノムを読んでみても、有用な情報はあまり得られないと思われる。
 昨年12月に初の多細胞生物として線虫のゲノムが決定されたと発表された。ところがこの線虫ゲノムはまだ虫食いだらけで、本当の意味ではシークエンシングは終了していないのだが、当初からの公約で1998年中に終了宣言をすることが必要だったのだろう。まあ線虫の場合は遺伝子がほとんど分かっているので実質的に終了した(virtually complete)と言ってもいい。しかし、このような曖昧な言い方をアカデミック側がしているため、セレラの極端なやり方も非難できないわけである。
 もう1つの言葉のあそびに「解読」がある。ゲノムを解読したと言われれば、一般社会の常識として、そこに何が書いてあるかが分かったと思うだろう。しかしながら、生物学者が言うゲノムの解読とはあくまでもゲノムを A, C, G, T の文字列の並びとして読みとることである。英語を全く知らない人でも英語の文章を与えられると、その意味は分からなくても、26文字のアルファベットが機械的にどんな順番で並んでいるかは分かる。ゲノムの解読とは、とくにヒトゲノムの解読とは所詮そのようなもので、ゲノムに書かれた生物的な意味が分かることとは別問題である。現にこれまで全塩基配列が決定され公表された20種以上の生物種において、どんなはたらきをしているかまで理解できた遺伝子の数は平均すると半分以下しかない。ヒトゲノムにおいては個々の遺伝子がどこにあるかさえはっきり推定できない場合が多く、機能まで到達できる遺伝子の割合はもっと低くなるであろう。
 一方、実はここに情報科学としてのゲノムの面白さがある。真の意味でゲノムを解読することは、まだどの生物種においてもできていない。ゲノムの配列情報から生物的な意味を解釈することは、基本的に情報科学の問題である。そしてもしゲノムが生命の設計図なら、生命のシステムをコンピュータの中に再構築できるはずである。ゲノムプロジェクトがもたらす配列情報は、公共的なデータベースとしてインターネット上で公開されており、ゲノムの解読は専門の研究者だけでなく、誰でも同じ土俵の上で取り組むことができる。21世紀の生物学の大発見は、インターネットを使ってゲノムを解析した情報科学者がもたらすことも充分に考えられる。本稿ではそのような意欲のある人のために、我々が提供するゲノムネット [1][2] を中心に、ゲノム関連のインターネットリソースを紹介する。

2. ゲノムネットとは

 現在の生物学は学問の成熟度からすると、17世紀の物理学のようなものなのかもしれない。まだデータ観測に躍起となっている状況で、ケプラーの経験則もニュートンの原理もまだ分かっていない。もっとも、これは生物学がこれから一番面白い時代に入ることも意味している。いずれにせよ、現在の生物学は基本的にデータから出発する経験的な学問である。従って、データベースの重要性が非常に高い。ゲノム関連データベースの特徴の1つは種類が多様なことである。例えば遺伝子1つをとってみても、ゲノムマップ(染色体上の位置)、塩基配列、アミノ酸配列、立体構造、発現情報、変異と病気、その他、様々な情報が必要であり、これらは世界各地で作られる別々のデータベースに蓄積されている。もう1つの特徴はデータ量が膨大で、しかも増加のスピードが速いことである。これは実験技術の進歩によるところが大きく、塩基配列およびそれを翻訳したアミノ酸配列はシステマティックシークエンシング技術に、立体構造はX線結晶解析やNMRの技術に、さらに最近は発現情報と変異情報がDNAチップの技術に依存して急速に増加している。
 1991年9月、我々は生物学の新展開に対応するためには情報インフラストラクチャーの整備が不可欠であるとの認識から、京都大学化学研究所と東京大学医科学研究所ヒトゲノム解析センターを2つの拠点地とし、ゲノムネット(GenomeNet)と名づけた情報サービス網の整備を開始した(図1)。当時の我が国のインターネット環境は非常にお粗末な状況であった。当初ゲノムネットは国際理学ネットワーク(TISN)の一部として運用され、ワイド(WIDE)プロジェクトとも協力し、わが国のインターネット環境作りに貢献した。しかし、もちろんゲノムネットは単なるコンピュータネットワーク作りを目指したものではない。世界中に存在する生物学・医学関連の多様なデータベースを、各研究者のデスクトップで統合して利用できる環境を作り、世界に先駆けて次の新しいデータベースを構築することがゲノムネットの目的である。まず 1992年9月に後述する DBGET, BLAST, FASTA などのデータベース検索を電子メールで行うサービスを開始し、1994年7月には DBGET/LinkDB システムを基盤としたゲノムネット WWW サーバーの運用を開始した。 さらに、1995年12月にはあらゆる生物種のゲノム情報から生命システムの再構築を行う KEGG システムを公開した[3]

図1.ゲノムネットのホームページ
(www.genome.ad.jp)
図2.DBGET/LinkDB システム
(www.genome.ad.jp/dbget/dbget.links.html)

3. 統合データベース

 ゲノムネットは世界的に見ても主要なサーバー(表1参照)の1つである[4]。我々の DBGET/LinkDB システム、米国の Entrez システム、ヨーロッパの SRS システムは、いずれも様々なデータベースをリンクの概念で統合して検索できるシステムである。リンクによる統合とは、異なるデータベース間のエントリーが関連していることだけを表現し、その詳細についてまでは関与しないのである。これに対して、異なるデータベースを1つのリレーショナルデータベースにまとめて統合することも考えられるが、それぞれのデータベースは独自のフィロソフィーで作成され、また常時更新されていることから、このような強い統合化は現実的でない。リンクによる統合は弱い統合化であり、これは WWW のハイパーリンクの概念に類似している。実際、WWW の爆発的な普及により、表1のようなシステムを用いて生物学者でも容易にデータベース検索ができるようになった。

表1. 世界の主要なゲノム関連サーバー
機  関アドレス主要検索システム作成データベース
ゲノムネット
(京都大学化学研究所)
www.genome.ad.jp DBGET/LinkDBKEGG
NCBI
(米国バイオテクノロジー情報センター)
www.ncbi.nlm.nih.gov Entrez, BLASTMedline, GenBank
EBI
(欧州バイオインフォーマティクス研究所)
www.ebi.ac.uk SRSEMBL, SWISS-PROT
SIB
(スイスバイオインフォーマティクス研究所)
www.expasy.ch SRSSWISS-PROT

 WWW では世界中に存在するコンピュータ上の各ファイルをホスト名とマシン名のペアで指定する。例えば、KEGG のホームページは

    www.genome.ad.jp/kegg/kegg.html
であり、ここから筆者のホームページへリンクがつけられている。
    www.genome.ad.jp/kegg/kegg.html → kanehisa.kuicr.kyoto-u.ac.jp/index.html
同様に、DBGET/LinkDB などの統合システムでは世界中に存在するデータベース中の各エントリーをデータベース名とエントリー名のペアで指定する。例えば、米国 DNA データベース GenBank の乳がん遺伝子 BRCA1 の配列情報は
    GenBank:HSU14680
であり、これを発表した論文は、医学・生物学関連文献データベース Medline へのリンクとして表現されている。
    GenBank:HSU14680 → Medline:95025896
さらに、 KEGG ではヒトの遺伝子とマウスの遺伝子の類似性
    H.sapiens:BRCA1 → M.musculus:Brca1
あるいは乳がん遺伝子と別の遺伝子との関連
    H.sapiens:BRCA1 → H.sapiens:RAD51
といった生物学的な関係もリンクとして表現されている。

表2. ゲノムネット提供のデータベース一覧
データの内容 データベース名 メディア
塩基配列GenBank(DDBJ含む), EMBLテキスト
アミノ酸配列SWISS-PROT, PIR, PRF, PDBSTRテキスト
立体構造PBDテキスト、三次元グラフィックス
配列モチーフEPD, TRANSFAC, PROSITE
BLOCKS, ProDom, PRINTS, Pfam
テキスト、三次元グラフィックス
酵素LIGAND/ENZYMEテキスト
化合物LIGAND/COMPOUNDテキスト、イメージ、
二次元グラフィックス
化学反応LIGAND/REACTIONテキスト
分子間相互作用BRITEテキスト
パスウェイKEGG/PATHWAYテキスト、イメージ
遺伝子KEGG/GENESテキスト
ゲノムマップKEGG/GENOMEテキスト、イメージ、
Javaアプレット
発現マップKEGG/EXPRESSIONテキスト、イメージ、
Javaアプレット
遺伝病OMINテキスト
アミノ酸変異PMDテキスト
アミノ酸指標AAindexテキスト
文献Medline, LITDBテキスト
リンク情報LinkDBテキスト

 表2にゲノムネットの DBGET/LinkDB システムに組み込まれたデータベースの一覧を示した。ゲノム情報の最も基礎となるDNA塩基配列については、NCBI (National Center for Biotechnology Information) の GenBank データベース、EBI (European Bioinformatics Institute) の EMBL データベース、それに国立遺伝学研究所の DDBJ データベースが、国際協力の下にデータベース化を行っている。塩基配列以外の情報については、米国では NCBI が 文献情報データベース Medline (PubMed) を自由にアクセスできるようにし、各出版社にある論文の全テキスト情報とリンクを張りめぐらせて、膨大な情報ネットワークを作りつつある。また、NCBI は GenBank を PubMed だけでなく、アミノ酸配列、立体構造、ゲノムマップなどの情報と統合した Entrez システムを提供している。ヨーロッパでは EBI と SIB (Swiss Institute of Bioinformatics) が共同で SWISS-PROT アミノ酸配列データベースの構築を行っている。ヨーロッパには Entrez のような一極化したサービスはないが、EBI が開発した SRS システムが各地に配布され、分散サービス体制となっている。
 ゲノムネットの最大の売り物はリンクの概念を生物的なつながりに拡張した KEGG システムである。そもそも生物の機能とは単独の遺伝子や単独のタンパク質に帰属できるものではなく、多数の遺伝子および分子の相互作用により実現されている。KEGG では生物機能を遺伝子または分子のネットワークとして表現した PATHWAY データベースと、各生物種のゲノムプロジェクトから決定される遺伝子カタログを集積した GENES データベースを中心に、生命システムの配線図を明らかにする研究が進められている。KEGG については次回に詳しい解説があるので、詳細はここでは省略する。
 ゲノムネットのもう1つの特徴はリンク情報をダイナミックに扱っている点である。いわゆる三段論法とは、2つのリンク A → B と B → C から新しいリンク A → C を導くことに相当する。このように複数のリンクを組み合わせて新しいリンクを導き出す機能、すなわち二項関係から演繹する機能があることから、DBGET/LinkDB システムや KEGG システムは簡単な演繹データベースシステムでもある。図2に DBGET データベースのリンク図が示されている。これは各データベースをノード、リンク情報が存在するデータベース間のつながりをエッジとしたグラフである。この場合の演繹機能とは、エッジが存在しないデータベース間でも、他のエッジをたどることによりリンクをつける機能である。グラフで推移閉包を求めることに相当する。DBGET/LinkDB システムでは重要な経路についてはあらかじめ計算してあるが、ダイナミックに計算する機能もあり、例えばユーザー独自のデータベースが SWISS-PROT だけにリンクされていれば、ゲノムネットデータベースのすべてに対してのリンクを求めることができる。

4. 配列解釈ツール

 現状では、ゲノムの配列情報から生物的な意味を完全に解釈する方法論は存在しない。配列を何らかの意味で計算して、生物的機能についての手がかりを与えること、そして究極的には生命システムを再構築することが、今後の大きな目標である。そもそも生物学における計算とは、物理学や化学のように原理に基づく計算ではなく、実際のデータや経験的な知識と比較することが中心である。表3に配列解釈に関する生物科学の問題と計算機科学の方法をまとめた [5][6]。類似性検索とは過去のデータ1つ1つと比較するタイプの計算、構造・機能予測(表3のアブイニシオ的な構造予測は除く)とは過去のデータを知識の形に集約して用いる計算である。いわゆるホモロジー検索は前者、モチーフ検索は後者のタイプに属する。ホモロジー検索では問い合わせ配列(新たに決定された機能未知配列)をデータベース中の配列1つ1つと比較し、もし類似な配列があれば機能も類似しているだろうと推定する。モチーフ検索では過去の配列の中から特定の機能グループを特徴づける配列モチーフ(局所的な保存配列パターン)のライブラリーを作っておき、それに対して検索を行う。生のデータではなく集約された知識に対して比較を行っていることになる。大雑把な言い方をすると、類似性検索は計算機科学の最適化問題に、構造・機能予測はパターン認識や学習の問題になり、それぞれ様々なアルゴリズムを適用することができる。

表3. 配列解釈に関する生物科学の問題と計算機科学の方法
生物科学の問題 計算機科学の方法
類似性検索 ペアワイズアライメント
ホモロジーサーチ
マルチプルアライメント
系統樹解析
立体構造アライメント
最適化アルゴリズム
・ダイナミックプログラミング(DP)
・シミュレーテッドアニーリング(SA)
・遺伝的アルゴリズム(GA)
・ホップフィールドネットワーク
構造・機能予測 アブイニシオ法 RNA二次構造予測
RNA立体構造モデリング
タンパク質立体構造予測
知識ベース法配列モチーフ抽出
機能部位予測
細胞内局在部位予測
遺伝子コード領域予測
膜貫通領域予測
タンパク質二次構造予測
タンパク質立体構造予測
パターン認識・学習アルゴリズム
・判別分析
・ニューラルネットワーク(ANN)
・隠れマルコフモデル(HMM)
・形式文法
分類スーパーファミリー分類
フォールド分類
オーソログ・パラログ遺伝子分類
クラスタリングアルゴリズム
・階層的クラスター解析
・コホーネンネットワーク

表4. ゲノムネット提供の配列解釈ツール
内容 プログラム名 アドレス
ホモロジー検索 BLAST
FASTA
www.blast.genome.ad.jp
www.fasta.genome.ad.jp
モチーフ検索 MOTIF
TFSEARCH
www.motif.genome.ad.jp
www.cbrc.jp/research/db/TFSEARCH.html
マルチブルアライメント CLUSTALW www.clustalw.genome.ad.jp
細胞内局在部位予測 PSORT psort.nibb.ac.jp
膜貫通領域予測 SOSUI www.tuat.ac.jp/~mitaku/adv_sosui/
膜タンパク質予測 TSEG www.genome.ad.jp/SIT/tseg.html
遺伝子領域予測 GRAIL grail.genome.ad.jp
立体構造可視化 PACKADE pacade.genome.ad.jp/pdb_highligt.html
ネットワーク予測 KEGG www.genome.ad.jp/kegg/kegg3.html

 ゲノムネットでは表4に示した配列解釈ツールが利用可能である。世界中で標準的に使われているホモロジー検索システムである BLAST と FASTA、我々が開発したモチーフ検索システム MOTIF、マルチプルアライメントで標準的な CLUSTALW、そして TFSEARCH、PSORT、SOSUI をはじめ我が国の研究者が開発したユニークなツール群へはリンクとして、サービスが提供されている。BLAST、FASTA、MOTIF などの検索結果は DBGET/LinkDB システムに組み込まれ、関連する情報を様々なデータベースから取得することができる。実際、ホモロジー検索またはモチーフ検索の結果は、問い合わせ配列と関連した配列(近傍配列と呼ぶことがある)へのリンクの集まりであるとみなすことができ、ゲノムネットのリンク計算に組み込むことができる。

5. データマイニング

 表4に示した配列解釈ツールは、生物科学の問題としても計算機科学の方法としても、表3のごく一部しかカバーしていない。とくに、構造・機能予測に関する問題はまだ未開拓の部分が大きく、標準的なツールが少ない。表4のモチーフ検索や機能予測ツールでは、すでに存在する知識を利用していかに未知配列の機能解釈を行うかに焦点がある。一方、情報科学としてより興味深い問題は、大量のデータの中から知識あるいは経験則を見いだすプロセスである。その一般的なやり方は、機能的に関連する配列データのグループを手作業で作成し、CLUSTALW などでマルチプルアライメントを作って保存領域を同定し、モチーフを定義する。さらに予測の精度をあげるため、保存領域の配列を学習データセットとして、例えば隠れマルコフモデルを HMMER (hmmer.wustl.edu) プログラムで作ってみると有効である。しかしながら、このやり方のネックは最初に配列データのグループを手作業で作る部分で、システマティックな解析には適さない。そこで、大量データのグルーピングとグループを特徴づけるパターンの抽出を同時に行うことが考えられる。これはデータマイニングの技術と深く関連しており、新しい発見につながる可能性が高いと思われる。
 ゲノムネットには日本国内のゲノム関連データベースへのリンクや、ゲノムプロジェクトの紹介その他の記事がある。また、多くのデータベースやデータベース解析ツールのリンク集もあるので、そこから興味のあるサーバーを探していただきたい。もっともゲノムのデータだけを取得するのであれば、表1のサーバーだけでほとんど足りるだろう。バイオインフォマティックス(計算生物学)の分野はまだ歴史が浅いこともあり、ケモインフォマティックス(計算化学)の分野と比較して、驚くほど多くのデータがパブリックドメインに存在している。それはデータに何が書かれているかよく分からないことも、原因になっているのだろう。読者も宝探しに参加してみたらいかがだろうか。


参考文献

[1] 高木利久、金久 實 編: ゲノムネットのデータベース利用法 [第2版], 共立出版, 1998.
[2] M. Kanehisa: Linking databases and organisms: GenomeNet resources in Japan. Trends Biochem Sci. 22, 442-444, 1997.
[3] M. Kanehisa: A database for post-genome analysis. Trends Genet. 13, 375-376, 1997.
[4] S. Brenner and F. Lewitter 編: Trends Guide to Bioinformatics, Elsevier, 1998.
[5] 金久 實 著: ゲノム情報への招待, 共立出版, 1996.
[6] M. Kanehisa 著: Post-genome Informatics, Oxford University Press, 1999.