マルチプルアライメント

 機能的あるいは立体構造的に何らかの関連があると思われる多数の配列を並べて同時に比較してみると、しばしばペアワイズの比較では見つからない特徴を発見することが出来る。マルチプルアライメントは特定の配列グループの機能的に重要な部位を同定したり、配列相互の進化的関連を明らかにしたりするための方法である。その際の評価関数は、グループ内のすべてのペアでの評価値の総和(sum of pairs)として定義されることが多い。前述の通り、概念的には n 本の配列のマルチプルアライメントは n 次元でのダイナミックプログラミングを行えばよいが、実際上はこれは簡単に計算できない。ただ、ダイアゴナルの考え方を多次元空間に拡張して探索の範囲を限定することにより、アミノ酸配列であれば7〜8本のマルチプルアライメントは可能である。

 マルチプルアライメントの一般的な解法についてはヒューリスティックスを用いた近似法がいろいろ提唱されており、ここではグローバルなマルチプルアライメントをペアワイズアライメントの組合せとして近似した方法を紹介する。まず最も単純な考えは、配列ごとのペアワイズアライメントを組合せてマルチプルアライメントを作ることであろう。3本の配列A、B、Cがあったときに、ABのアライメントとBCのアライメントを組合せた結果は、一般にはギャップの入り方が異なるのでACのアライメントと一致しない。これを無視して最初の2つのペアだけとることにすると、当然ながら選んだ配列の順番に依存した結果となる。そこで、普通は比較する複数配列の中で類似度の高い(ギャップの少ない)ペアから順番に組合せていくことが行われる。ただし、このような単純組合せではあまりよいアライメントは得られない。


ツリーベース法によるマルチプルアライメント
(a)デンドログラム (b)グループ間アライメント


 次にツリーベース法と呼ばれる方法では、まずグループ内の配列のすべてのペアについて類似度(距離)を調べ、これをもとにクラスター分析(cluster analysis)を行う。クラスター分析は多変量解析(multivariate analysis)の1つで、類似のデータをグループにまとめて分類を行う方法である。2つのグループ間の距離として、最も近いデータ間の距離、最も遠いデータ間の距離、平均の距離など、いくつかのとり方がある。クラスター分析の結果は図(a)に模式的に示したように、ツリー状の階層関係をデンドログラム(dendrogram)として表現することが多い。このツリーに基づく順番で配列と配列、配列とグループ、またはグループとグループのペアワイズアライメントを行っていくのがツリーベース法である。グループ間のアライメントとは図(b)のように、横方向に複数の配列を縦方向にも複数の配列を並べてマトリックスを作ることに相当し、それぞれのグループ内の並べ方は固定して、グループ間の並べ方を最適にアライメントするのである。ここで評価関数はグループ間でのすべての配列ペアの類似度の総和で定義する。  ペアワイズアライメントを配列のペアだけでなく配列グループのペアに拡張することは、マルチプルアライメントの実用的な解法として重要なテクニックである。ただ、ツリーベース法でも単純組合せ法と同様に、一度できたアライメントは最後まで残り、後で修正することができない。この欠点に対処したのが反復改善法である。複数配列をランダムに2つのグループに分け、グループ間アライメントを行い、グループを再結合してまた新たなランダム分割を行う手続きを、評価関数の値が一定値に収束するまで何度も繰り返すのである。実用的な観点から、反復改善法によるマルチプルアライメントが最も最適な解を与えることが多い。