ビッグデータ時代のゲノム解析に役立つmdx
mdx利用事例 CASE 6

ビッグデータ時代のゲノム解析に役立つmdx

疾患リスク予測の新手法を開発
特定の疾患に罹患するリスクを、個人のゲノム情報の違いから高精度に予測できれば、疾患の早期発見や個別化治療が可能になると期待されています。
東京大学大学院新領域創成科学研究科の森下真一 教授らは、mdxを活用して、疾患リスク予測の新手法「GenoBoost」の開発に成功しました。GenoBoostは、既存の手法を上回る予測性能を示すことが確認されています。
GenoBoost開発の経緯とmdx導入の理由について、森下研究室の市川和樹 助教と太田力文 特任助教に伺いました。
市川 和樹 氏 市川 和樹
ICHIKAWA Kazuki
東京大学 大学院新領域創成科学研究科
メディカル情報生命専攻 助教

専門はゲノム解析。博士(科学)。東京大学大学院新領域創成科学研究科情報生命科学専攻博士課程中途退学。2015年より現職。
太田 力文 氏 太田 力文
OHTA Rikifumi
東京大学 大学院新領域創成科学研究科
メディカル情報生命専攻 特任助教

専門は統計遺伝学。博士(科学)。東京大学大学院新領域創成科学研究科メディカルゲノム専攻博士課程修了。2024年より現職。

顕性・潜性の影響を疾患リスク予測に初めて取り入れる


── GenoBoost開発に至る背景や動機について教えてください。

太田:ゲノム情報は、DNA上のATGCという4種類の塩基の配列として書かれています。両親から受け継いだ2セットのゲノムのうち、ある箇所の一塩基が100人中99人はA/Aというタイプなのに対し、1人だけA/Gというタイプであるケースがあります。このような塩基配列のタイプの違いを「バリアント」と呼びます。

バリアントが特定の疾患に罹患するリスクを高める場合があります。ただし、関節リウマチや糖尿病など、発症例が多いありふれた疾患の場合には、一つのバリアントが与える影響はわずかで、多くはせいぜいリスクが1.2倍に増加する程度です。

こうした疾患には多数の遺伝子が関わっていることが多いです。そこで、多数のバリアントの効果を集積して疾患リスクを予測する手法の開発が行われており、これを「ポリジェニックスコア(PGS)」と呼びます。

疾患リスクには、顕性(優性)と潜性(劣性)の遺伝が関係する場合があります。血液型の場合、A型とA型、あるいはA型とO型の両親から生まれた子どもは、いずれもA型になります。A型の遺伝子タイプを一つ持っていても二つ持っていても、結果は変わらずA型になります。

同様に、ある疾患のリスクを1.2倍高めるバリアントを一つ持っていても二つ持っていても、どちらもリスクは1.2倍にしかならない場合があります。ところが従来の手法では、一つだけ持つ場合よりも二つ持つ場合の方がリスクが高まる、と計算されていました。顕性・潜性の影響を考慮していないためです。

私たちは、疾患リスク予測に顕性・潜性の影響を初めて取り入れた新手法「GenoBoost」を開発しました。個人のゲノム全域にわたる約100万カ所のバリアントのタイプと、それぞれの人がどの疾患に罹患したのかという情報を含むUKバイオバンクの約33万人分のデータをもとに、多数のバリアントから疾患リスクを予測するPGS関数をつくったのです図1
図1 GenoBoostの開発
図1 GenoBoostの開発
顕性・潜性を考慮しない相加的モデルや、考慮する非相加的モデルにより、ゲノム全域にわたる約100万カ所のバリアントの中から、特定の疾患に罹患するリスクについて最も予測能力の高いバリアントを選択する。そのバリアントを組み込んでPGS関数を更新する。次に、それまでに組み込んだバリアントでは説明できない罹患リスク効果を最も多く持つバリアントを選択し、PGS関数に追加して更新する。予測精度が頭打ちになるまで、この計算を繰り返して最終的なPGS関数を出力する。
── GenoBoostによって疾患リスクの予測精度は向上したのでしょうか。

太田:UKバイオバンクのデータを用いて、GenoBoostと既存の七つの手法で12種類の疾患リスクの予測精度を比較しました図2。その結果、GenoBoostは、関節リウマチなど四つの疾患で最も高い予測精度を示し、アルツハイマー病など三つの疾患では2番目に高い予測精度を示しました。私たちは、顕性・潜性の影響を取り入れることで、疾患リスクの予測精度が向上するケースがあることを実証したのです。
図2 UKバイオバンクを対象にした手法ごとの予測精度の比較
図2 UKバイオバンクを対象にした手法ごとの予測精度の比較
縦軸の上方にある手法ほど予測精度が高いことを示す。既存の七つの手法と比較すると、GenoBoost(各グラフの左端のオレンジ色)は、4疾患(関節リウマチ、乾癬、痛風、炎症性腸疾患)で最も予測精度が高く、3疾患(喘息、認知症、アルツハイマー病)で2番目に予測精度が高かった。
── GenoBoostの開発において、mdxをどのように活用したのですか。

太田:データの品質管理、例えば頻度の低過ぎるバリアントの除去から、予測精度の比較結果を示す図の作成まで、mdxを活用することで新手法の開発を実現しました。特にPGS関数を出力する計算には、大量のCPUコアやメモリが必要だったため、mdxが非常に役立ちました。
mdxを使って計算式の試行錯誤を重ねることで疾患リスクを高精度で予測できる新手法の開発に成功しました。
── 太田力文 氏
太田力文 氏

ゲノム解析は、大量のCPUコアやメモリを必要とする


── 森下研究室がmdxを導入した理由をお教えください。

市川:私たちの研究室では従来、東京大学情報基盤センターにあるスパコンOakbridge-CXを利用していました。ところがスパコンシステムがWisteria/BDEC-01に更新後、ノード専有利用がGPUのみとなり、CPUノードの専有利用ができなくなりました。GenoBoostの開発に限らず、ゲノム解析には、大量のCPUコア、メモリ、ハードディスクが必要です。ゲノム解析にはCPUが適しているため、CPUノードの専有が可能なmdxを導入することにしました。

── 民間クラウドの利用も検討したのですか。

市川:具体的には検討しませんでした。ゲノムというセンシティブなデータを扱うため、森下教授から、セキュリティーを最優先にした計算環境を整えるように指示がありました。そのため、民間クラウドの選択は難しかったのです。

私たちは、mdxの中でもセキュリティーが強化された「ノード専有プロジェクト」を選択しました。現在、3ノードを専有し、三つの仮想マシンを利用しています。ノード専有プロジェクトは通常プロジェクトに比べて利用料金が高くなりますが、それでも民間クラウドに比べれば格安です ※1 ※1 mdxの利用料金については以下をご参照ください。
https://mdx.jp/guide/charge
。 私たちの研究室では、多くの計算方法のアイデアを試しながら、新しいゲノム解析手法の開発に日々取り組んでいます。従量課金の計算環境では料金が高額となってしまい、このようなトライアルアンドエラーが難しくなりますね。

待ち時間なく利用しやすいノード専有プロジェクト


── mdxのノード専有プロジェクトの実際の使用感はいかがでしょうか。

太田:マニュアルが充実しているので、非常に使いやすいですね。ほかの計算環境では、ジョブを投入してから計算が始まるまで何時間も待たされることがありますが、mdxのノード専有プロジェクトでは、ジョブを投入するとすぐに計算が始まるので、待ち時間のストレスがなく、スムーズに研究を進められます。

市川:これまで使っていたソフトウエアも導入でき、自分たちの計算環境をmdxの仮想マシンに移行しやすいです。研究室にある物理マシンと同じような感覚でmdxの仮想マシンを使うことができます。

太田:改善していただきたい点としては、1CPUノード当たりのメモリ(主記憶容量)が256GiBになっていることです。256GiBだと、ゲノム解析では動かない計算があるので、512GiBあると使いやすくなります。

mdxを利用して疾患リスクの予測精度をさらに向上させていく


── 今後、GenoBoostをどのように発展させ、予測精度の向上を図っていこうとお考えですか。

太田:GenoBoostの開発で扱ったのは、100人に1人ほどの割合で一塩基のタイプが異なるバリアント(一塩基多型:SNP)です。しかし、1000人に1人以下の低頻度のバリアントには、疾患リスクが数倍高くなるものがあります。また、バリアントには数塩基が欠けている欠失や増えている挿入など、さまざまな種類があります。今後は、mdxを活用してこれら多様なバリアントを疾患リスク予測に取り込む計算手法を開発し、予測精度をさらに向上させていきたいと考えています。

市川:私が注目している研究テーマの一つは、繰り返し配列です。例えば、ほとんどの人ではRFC1遺伝子のイントロン領域にAAAAGという配列が11個連続して並んでいますが、神経変性疾患CANVASの患者では繰り返される配列がAAGGGに変化し、繰り返しの長さも数千塩基に伸びていることが報告されています。ほかにも繰り返し回数が極端に増加する変異が、アルツハイマー病など約60種類の疾患リスクを高めることが知られています。

繰り返し配列はヒトゲノムの中で解読困難な“暗黒領域”と呼ばれるものの一つです。DNAシーケンサーという装置では、DNAを断片に分けて、その塩基配列を読み取っていきます。その断片をコンピュータ上でつなぎ合わせて長い塩基配列を完成させるのは、ジグソーパズルのピースを埋めていく作業に似ています。特徴的な絵柄や形のピースを埋めていくのは容易ですが、特徴のないピースはどこに入れるのか分かりにくいですよね。同様に、単純な塩基配列の繰り返し部分をつなげることは難しいのです。mdxを活用しながらこの暗黒領域の解読を進め、いずれは疾患リスク予測などにも役立てていきたいと考えています。

ビッグデータを扱うゲノム解析分野では、mdxは有力なツール


── 最後に、mdxの利用を検討している読者にアドバイスをお願いします。

市川:塩基配列を高速で読み取る次世代シーケンサーが普及し、ゲノムデータが爆発的に増え続けています。その膨大なデータを解析することで初めて解明できるものが多くあります。ゲノムのビッグデータ解析により生命現象を理解し、医療に役立てることを目指す研究分野においては、mdxは非常に適した計算環境だと思います。

ゲノムのビッグデータの解析に大量のCPUやストレージを安価で利用できるmdxは、強力なツールになります。
── 市川和樹 氏
市川和樹 氏
取材協力:鈴木裕太/東京大学 大学院新領域創成科学研究科
メディカル情報生命専攻 特任講師
取材・構成:立山 晃/フォトンクリエイト
撮影:石渡菜々子/STUDIO CAC
※1mdxの利用料金については以下をご参照ください。
https://mdx.jp/guide/charge