研究の概要

生命現象の多くはタンパク質というヒモ状の分子が担っています。タンパク質は数十億年におよぶ進化の過程でデザインされた神秘的なふるまいを持つ一方で、多くの病気にも関与している重要な研究対象です。 タンパク質はとても複雑であり、数千から数十万個の原子からできています。このように複雑なものをどのようにして調べることができるでしょうか? 私たちはこの問題に対し情報工学からアプローチしています。コンピュータの仮想空間の中でタンパク質を構築し、自然法則を真似て詳しく観察する手法(シミュレーション)を開発し応用する。 そしてそこから得られたビッグデータもコンピュータに理解させ(データサイエンス)、次の仮説を作り出しシミュレーションを行う。 このサイクルを迅速・自動的にまわすフレームワークとソフトウェアを開発することでタンパク質のふるまいを理解し制御する、具体的にはタンパク質機能を改善する合理的デザインや薬剤設計へ貢献することを目標としています。

研究戦略の概念図

研究テーマ

1. シミュレーション手法

シミュレーションでタンパク質の構造を短時間で探索できるようになれば、創薬や新規分子の設計など様々な応用が期待できます。 それを実現するための手法開発と応用に取り組んでいます。

2. 機械学習の応用

構造データベースやシミュレーションデータの統計解析や機械学習を行うことで、人間には理解不能な複雑な現象を簡単化できます。 簡単化した情報を元に、優れた予測モデルを作ったり、シミュレーションへフィードバックする研究に取り組んでいます。

3. 実験データの統合

シミュレーションのモデルは常に正しいとは限らないので、実験データの情報を組み合わせるモデリングが有効となります。 そこで、機械学習やベイズ推定を用いて、実験データを統合する手法の開発と応用に取り組んでいます。


研究テーマの詳しい説明

1. シミュレーション手法

分子シミュレーションは計算顕微鏡(computational microscope)とも呼ばれているように、 ミクロな世界のふるまいを観察する有力な手法のひとつです。 その意味で、分子シミュレーションの理論やアルゴリズムを開発することは、 顕微鏡の開発と同じく工学的な課題のひとつと言えます。

我々が取り組んでいるシミュレーション法のひとつである分子動力学法(molecular dynamics simulation)は、 中学校で習うニュートンの運動方程式(F=ma)を数値的に解く手法です。これは非常にシンプルで、 原子間距離を計算してそこから各原子に働く力を計算し、F=maに従って原子の座標を少し動かす、 それを何回も繰り返して原子・分子の運動を見る、ということをやっています。 たったこれだけことですが、そこからタンパク質がどうふるまうのかを詳しく調べることができます。 具体的には、どのような構造をとりえるのか?構造が変化しやすいか?どうやって構造変化するか? 薬剤がどれくらい結合しやすいか?薬剤結合エネルギーと構造との関係は?他のタンパク質と結合しやすいか? といった多くの性質を調べることができます。

しかしながら分子動力学法には「遅い」という欠点があります。 たとえば、タンパク質が構造を変えて機能する時間スケールはおよそミリ秒($10^{-3}$秒)ですが、 分子動力学シミュレーションの1ステップはフェムト秒($10^{-15}$秒)です。 ミリ秒に到達するためには、$10^{12}$回のアップデート計算が必要ですが、 スーパーコンピュータを用いたとしてもむずかしいのが現状です。 また、薬剤が結合しやすいかを評価するのも、計算するのに1薬剤あたりおよそ1日かかってしまいます。 これでは数万個の薬剤候補を網羅的に評価することはむずかしいです。

我々はこの「遅い」という欠点を克服しようと研究しています。 計算を速くする方法のひとつは、シミュレーションのプログラムを並列化することです。 例えば、各原子を近いもの同士でグループに分けて、それぞれ別のコンピュータに保有させて 力の計算(原子間距離の計算)を行うことは有効な並列化のひとつです (原子が動くとグループ間の移動が必要なので一概に有効とは言えませんが)。 うまく並列化するとスーパーコンピュータ等の並列計算環境を活かして高速に計算することができるようになります。 このレベルの並列化には歴史があり、何年にも渡って開発・実装されてきているのが 共同研究先の理化学研究所のGENESIS、 ヨーロッパのGROMACS、 米国のAMBERNAMD といった分子動力学法ソフトウェアです。

別の視点で、我々が最近特に取り組んでいることは、ひとつメタなレベルでの並列化です。 単純に言うと、一つのシミュレーションを長時間はしらせる代わりに、多数のシミュレーションを連携して流すことで 目的の計算(たとえばどのようなタンパク質構造が安定か、薬剤が結合しやすいかといった統計量)を短時間で計算できないか、 ということを研究しています。 例えば、構造の異なる独立なシミュレーションを並列にたくさんはしらせて、 マルコフ性の近似のもとで、機械学習を使ってデータを統合するといったアプローチがあります。 他には、ニュートンの運動方程式(F=ma)を時間方向に「並列化」して、 多数のシミュレーションを使って方程式の解を効率よく探索するというアプローチがあります(ストリング法と呼ばれます)。 我々は少し前にこのストリング法を駆使して、京コンピュータ上で薬剤耐性の原因となる巨大タンパク質の薬剤輸送過程をシミュレートしました (下の動画、詳しくはこちら)。 このメタなレベルの並列化は、シミュレーションデータの機械学習と組み合わせることでまだまだ効率化することができると考えています。 例えば、シミュレーションの途中で機械学習を行って、まだサンプリングが足りていない構造領域を推定し、 次のシミュレーションではその付近に集中的にシミュレーションをばらまく、 そしてそれを繰り返す、といったベイズ最適化などのアプローチが考えられます。 それを実現させるためのデータ解析法にも取り組んでいます(次へ続く)。

参考文献

2. 機械学習の応用

上で分子シミュレーションは「遅い」ことが欠点であると言いましたが、それでも計算機やアルゴリズムの進歩とともに、この30年で$10^{5}$倍もの速度向上が実現されてきました。 生物物理という研究分野では、「タンパク質のフォールディング」という問題があります。 タンパク質はランダムな構造から自発的に決まった構造へ折れたたむ(フォールディング)することが知られていますが、 なぜ短時間のうちに他の無数にとりうる構造の中から唯一の構造を探すことができるのだろう?という問題です。 これを調べるには、タンパク質がフォールディングする過程をシミュレーションしてみるのがひとつの手段ですが、 一昔前はシミュレーションでタンパク質をフォールディングさせることは夢物語でした。

しかし、ここ数年ではスパコンや専用計算機・GPUを使えば、 小さなタンパク質をフォールディングさせることは当たり前になってきています。 例えば、下の動画は villin headpiece というタンパク質のフォールディングシミュレーションです。 正解構造である赤の実験データを重ねて描いていますが、それをシミュレーションだけでよく再現できていることがわかります。 一方でこの動画を見ると、こんな小さなタンパク質でもフォールディングする過程は非常に複雑で、もはや人間がこの動画からメカニズムを解釈することは不可能に思えます。 つまりシミュレーションはできるようになったけれど、その結果が複雑すぎて解釈できないという事態が生じています。 事実、最近の分子シミュレーション研究の分野では、 データ解析が得意な研究グループが、早い計算機を持つ研究グループが行った長時間のシミュレーションデータを提供してもらい、 データ解析だけ行ってその結果を報告する研究スタイルが確立しています。 シミュレーションの高速化に伴って、段々とシミュレーションからデータサイエンスのほうへ比重がシフトしつつあるのです。

データ解析を行ってどのような情報を抽出できればよいでしょうか? シミュレーションデータは、全ての原子についてのたくさんのXYZ座標が時間順に並んでいるデータ(多変量時系列データ)です。 大雑把にはこれを人間が理解したり少数の重要なアミノ酸を捉えることができるくらい低次元に縮約することが目標となります。 先ほどのタンパク質フォールディングの問題だと、 ランダムな構造から安定構造への進捗をよく記述できる低次元座標を探すことが目標となります。 これは例えば、途中で失敗せずにうまくフォールドしたデータと、 失敗してランダム構造へ戻ってしまったデータとを抜き出して、 それらを使って回帰や判別分析などを行うアプローチが考えられます。 しかし座標の組み合わせは無数にあるので低次元に縮約するのはチャレンジングな問題です。 現在我々はスパースモデリングを使う解析法に取り組んでいます。 下の動画は教員が昔にタンパク質の粗視化モデルのシミュレーションデータに対して素朴な主成分解析を行ってみた例です。

分子モーターやトランスポーター、一部の酵素では、 構造が大きく変化して移動・輸送やフィードバック制御といった「仕事」をします。 これは空間的に離れたアミノ酸が連携して動いたり、ローカルなイベントがグローバルな動きと 連携することで実現されており、総称してアロステリック制御と呼ばれています。 こうしたタンパク質のシミュレーションデータを解析する場合は、 相関を持って動いているアミノ酸を解析してアロステリック制御に関わるグループを特定した上で、 なぜ相関を持って動けるのかをエネルギーやネットワークの観点から解析するのが有効と考えられています。

また、ベーシックですが最重要な解析として、 シミュレーションで得られた各構造の熱力学的安定性・不安定性を 限られたデータ数から推定できるかという問題があります(自由エネルギー推定と呼ばれます)。 これは実験で観測される安定構造との対応をとるために不可欠であるばかりでなく、 構造がそれぞれ何%の割合で存在するのか?構造間のエネルギーバリアはどれくらい高くてその間の移動は起こり得るか?といった推定や、 薬剤やタンパク質間の結合しやすさを評価する上で大切です。 また、データ数が少ないことによる推定のエラーも同時に評価することで、 次のシミュレーションはどこを重点的に行なったらよいかの指針にもなります。 これに関して、現在我々はガウス過程を使う解析法に取り組んでいます。

最後に、シミュレーションデータからデータ解析によって、タンパク質の機能を改変する、 例えば熱力学的安定性を向上させるアミノ酸変異を提案できるかという課題があります。 これを行うにはデータベースに登録されている変異実験データと「統合」して推定するのが有効だと考えられます。 例えば、ProThermというデータベースには、 あるタンパク質のどのアミノ酸残基を変異させたらどれくらい安定・不安定になったか、というデータが登録されています。 これとシミュレーションデータから得られた安定構造やアミノ酸残基間の相互作用データを統合することになります。 こうした異なる種類のデータを統合してモデリングを行い、より正確な推定を行うための研究も行っています(次へ続く)。

参考文献

3. 実験データの統合

作成中

参考文献