科学技術振興事業機構バイオインフォマティクス推進事業

BRITE − 2項関係に基づくゲノムと生命システムの機能解読


研究開発代表者

 金久 實(京都大学化学研究所バイオインフォマティクスセンター東京大学医科学研究所ヒトゲノム解析センター

基本構想

 ヒトからバクテリアまで数多くの生物種において全ゲノム配列が決定され、21世紀の生命科学ではこのゲノムの情報を基盤に、細胞、個体、生態系といった異なるレベルでの生命現象の理解が進み、同時にゲノムから有用性を見いだし産業化を行う応用研究が活発化すると考えられる。これまでに決定されたゲノムの配列情報は国際DNAデータベースDDBJ/EMBL/GenBankに登録され、誰でも自由に利用できる形になっている。しかしそれだけでは不十分であり、ゲノムに書かれた生命のはたらや有用性を見いだすことを可能にするデータベースがなければならない。ゲノム情報科学におけるデータベース高度化の一貫として、本計画では新しいタイプの機能情報データベースBRITEを構築する。
 機能情報のデータベース化については、様々なやり方がある。1つは配列データベースのアノテーションのように、言葉として記述することである。機能情報はただ利用者が読んで理解できればよいとするのなら別であるが、一般には生物種間の比較をしたり、誰がアノテートしても、また誰が読んでも同じ意味をもたせるために、語彙の標準化を行わなければならない。これは狭い意味でのオントロジーの問題である。たとえば、ショウジョウバエ、マウス、酵母のゲノムを中心としたGene Ontologyのグループでは、知識の共有のために語彙の階層的な定義を行っている。
 2つ目は我々がKEGG (Kyoto Encyclopedia of Genes and Genomes) において提唱し実践しているやり方で、細胞レベルの生命システムの「はたらき」を分子間相互作用ネットワークの「かたち」として表現する。ゲノムの遺伝子の並びからタンパク質同士のつながり方(かたち)を予測し、そこから例えばリジンを合成するはたらきがある、浸透圧変化に応答するシグナル伝達のはたらきがあると判定する。主観的な機能情報を客観的な形の情報に置き換えているところがKEGGの特色である。これは逆の言い方をすると、KEGGのネットワーク表現ができる機能情報とは、分子間ネットワークが解明されたものに限られるわけで、例えばこの遺伝子は細胞周期に関与しているらしいといった手がかり程度では、KEGGでは表現ができない。
 本来、機能とは曖昧なものであり、大雑把な手がかりであっても有用性はあり得る。そこで本計画のBRITE (Biomolecular Relations in Information Transmission and Expression) では、第3の機能表現として2項関係を用いる。2項関係とは2つのオブジェクト間の関係情報であり、ここでは配列と機能との関係、立体構造と機能との関係、ネットワークと機能との関係、分子機能と細胞機能との関係、といったあらゆる機能を含めて考える。機能情報はオントロジーで規定された語彙で表現するが、1番目のやり方ように機能を配列の属性とみなすのではなく、2項関係を構成するオブジェクトとみなす点が新しい。また、オントロジーにある階層関係も2項関係の集合とみなすことができる。この表現法により、関係の集合からコンピュータ処理で演繹することが可能となる。
 ゲノムの全塩基配列が決定された結果として、世界中で各生物種での個別研究が進み、多くの遺伝子の機能が続々と解明されている。しかし、継続的な遺伝子機能アノテーションを誰が行うかは、実は大きな問題となっている。GenBank等に登録されたデータは配列決定をした著者しか変更できないため、研究コミュニティでデータベースを維持している酵母等を除き、ほとんどの生物種では、新しい機能情報はPubMedの中に埋もれるだけで、共有できる知識としてのコンピュータ化は全くなされていない。本計画では、このような現状に対処し、ゲノムの機能情報を提供する国際的な基盤データベースを確立し、機能情報における我が国の知的所有権と、それに基づく機能解読技術力の優位性を確保することを目的とする。

研究開発の内容

(1) 2項関係データベースBRITEの構築

(1-1) オントロジー
 BRITEでは、2項関係を構成する要素は遺伝子や分子といった物質情報に限らず、分子レベル、細胞レベル、個体レベルの機能情報でもよい形に拡張されている。これは、KEGGが遺伝子間または分子間の2項関係に限定し、その集合としてのグラフ(ネットワーク)を取り扱うのと対比して考えることができる。従って、BRITEでの機能情報を表現する語彙の体系化を行う必要がある。本研究開発プロジェクトでは、とくに国際的にもオントロジーが未発達の領域を考慮し、LIGANDデータベースに蓄積されている化合物および化学反応の知識と、ヒトの病気に関する知識の体系化を行う。

(1-2) 分子関係データベース
 細胞を構成する分子として、ゲノム情報を担うDNA、RNA、タンパク質だけでなく、糖鎖や脂質といった他の生体高分子、また代謝物質をはじめとした低分子化合物も、生体内反応経路を通してゲノム情報と深く関連している。本研究ではこれら分子間の相互作用、類似関係、その他の関係を2項関係として集約する。そのデータベース化は本研究開発グループ(BRITE分子グループ)で行うが、国内外の様々な研究コミュニティと連携し、コミュニティ全体の知識を集約する形で行う。

(2-3) 疾患関係データベース
 本研究ではゲノムの情報と、高次生命システムの機能情報との関係を明らかにするためのデータベース構築を目指している。その最も重要な応用として、ヒトの病気に関するデータや知識を本研究開発グループ(BRITE疾患グループ)でデータベース化する。すなわち、ヒトの遺伝子と遺伝子産物について、上記オントロジーに基づき、細胞レベルおよび個体レベルでの機能、ならびに病気との関連を、様々なオブジェクト間の2項関係として表現する。

(2) システム開発

(2-1) アノテーションシステム
 2項関係データベースBRITEはリレーショナルデータベースとして管理するが、Webのインターフェースを通じてデータベースへの登録や変更ができるシステムが、アノテーションシステムである。これを特定の研究コミュニティのために開発し、連携して運用することにより、コミュニティ全体の知識を集約することができる。すでに国内および国際的ならん藻研究コミュニティに対して、らん藻の遺伝子アノテーションデータベース(CYORF)、我が国の枯草菌研究コミュニティに対して、枯草菌の遺伝子アノテーションデータベース(BSORF)と転写制御関係データベース(BSTF)を開発し運用している。これらのデータベースシステムは権限の階層を設け、管理者レベル、コミュニティ内部(専門家グループ)のアノテーターレベル、外部の一般ユーザーレベルの区別ができるようにしている。前述の通り、ゲノムが決定された生物種に対して最新の機能情報を提供できるデータベースは世界中にほとんど存在しないことから、このように専門家の知識を集約するシステムの意義は非常に大きいと考えられる。今後も様々な研究コミュニティのためのアノテーションシステムと知識を集約したデータベースを開発していく。

(2-2) 階層テキスト処理システム
 オントロジーは階層的なテキスト情報として蓄積される。これを表示したり検索したりするにはKEGGの階層テキスト(htext)ブラウザを利用すればよいが、データの入力・編集機能は備わっていない。そこで本研究では、階層テキストの入力・編集・検索を統合的に行うことができるシステムを開発する。BRITEは知識のレファレンスとなる質の高い情報を提供することを目的としているので、情報は最終的には人手で登録するが、このシステムには文献情報の自動処理の部分も含める。

(2-3) データベース利用システム
 BRITEの利用システムは、基本的に2項関係からの演繹システムである。BRITEはデータの内容としては、KEGGやDBGETのLinkDBの2項関係をも包含する、最も一般的なデータベースであるが、システム要素技術ではKEGGやLinkDBと共通点が多い。2項関係の集合は数学的にはグラフ、すなわちノード(頂点)とエッジ(辺)の集合である。与えられた頂点から到達できる他の頂点を探すことで、例えば、ある遺伝子の機能や、関連した病気の機能メカニズムを探索することができる。このようなパス計算の方法論はすでにKEGGやLinkDBで開発されているので、これを本データベースの利用システムに実装する。また、グラフの比較やグラフの特徴抽出のため、隣接行列表示を用いた方法がKEGGで開発されているので、これも本データベースの利用システムに実装する。


Created on May 19, 2001
Updated on September 19, 2005


[ バイオインフォマティクスプロジェクト ]