AIシステムで構造設計目標を満たす新規タンパク質を生成可能

MITの研究者は、人工知能を使って、自然界に存在しない新しいタンパク質を設計しています。

 

研究チームは、特定の構造的特徴を持つタンパク質を生成できる機械学習アルゴリズムを開発し、これを用いて、剛性や弾性といった特定の機械的特性を持つ材料を作ることができるようになりました。このような生物学的な発想の材料は、石油やセラミックスから作られる材料に取って代わる可能性があり、しかも二酸化炭素排出量がはるかに少なくて済む。

 

MIT、MIT-IBM Watson AI Lab、タフツ大学の研究者は、「DALL-E 2」などのAIシステムで使われている機械学習モデルのアーキテクチャと同じ種類の生成モデルを採用しました。しかし、「DALL-E 2」のように自然言語の指示からリアルな画像を生成するのではなく、特定の構造目的を達成するタンパク質のアミノ酸配列を予測できるようにモデルアーキテクチャを改良したのです。

 

研究者らは、Chem誌に掲載予定の論文で、これらのモデルが現実的でありながら新規のタンパク質を生成できることを実証しています。ジェリー・マカフィー工学部教授で、土木環境工学および機械工学の教授である筆頭著者マーカス・ビューラー氏は、「タンパク質がどのように形成されるかを制御する生化学的関係を学習するこのモデルは、独自の応用を可能にする新しいタンパク質を生み出すことができます」と述べています。

 

例えば、このツールを使って、タンパク質にヒントを得た食品コーティング剤を開発すれば、人間が食べても安全な状態で、食品の鮮度を長く保つことができます。また、このモデルは数日で数百万個のタンパク質を生成することができるため、科学者はすぐに新しいアイデアのポートフォリオを手に入れることができるのです、と博士は付け加えている。

 

「自然がまだ発見していないタンパク質をデザインすることを考えると、鉛筆と紙だけでは整理できないほど、巨大なデザイン空間が広がっています。アミノ酸がDNAによってコード化され、それが集まってタンパク質の構造を形成するという、生命の言語を解明しなければならないのです。ディープラーニングができる前は、本当にこんなことはできませんでした」と、MIT-IBM Watson AI Labのメンバーでもあるビューラーは言います。

 

この論文には、ビューラーの原子分子力学研究室のポスドクである主執筆者のボー・ニーと、タフツ大学のスターン・ファミリー工学教授で生物工学の教授であるデビッド・カプランが参加しています。

 

新しいツールをタスクに適応させる

 

タンパク質は、アミノ酸の鎖が立体的に折り重なることで形成されています。アミノ酸の配列によって、タンパク質の力学的特性が決定されます。科学者たちは、進化によって生まれた何千ものタンパク質を同定していますが、膨大な数のアミノ酸配列が未発見であると推定しています。

 

タンパク質の発見を効率化するために、研究者は最近、アミノ酸配列のセットに対してタンパク質の立体構造を予測できるディープラーニングモデルを開発しました。しかし、その逆問題--設計目標を満たすアミノ酸構造の配列を予測すること--は、さらに困難であることが判明しています。

 

この難題を解決するために、ビューラーらは機械学習の新たな潮流である「注意力拡散モデル」を開発した。

 

注意力ベースのモデルは、非常に長い距離の関係を学習することができます。これは、長いアミノ酸配列の1つの変異がデザイン全体を左右する可能性があるため、タンパク質の開発において重要なポイントになります、とビューラー氏は言います。拡散モデルは、学習データにノイズを加え、そのノイズを取り除くことでデータを復元するプロセスを通じて、新しいデータを生成することを学習する。拡散モデルは、他のモデルよりも高品質で現実的なデータを生成するのに有効であることが多く、設計上の要求を満たすために一連の目標目標を満たすように条件付けすることができる。

 

研究チームは、このアーキテクチャを用いて、構造設計目標を満たすタンパク質を形成する様々な新しいアミノ酸配列を予測できる2つの機械学習モデルを構築しました。

 

「バイオメディカル業界では、全く未知のタンパク質は、その特性がわからないため、好ましくないかもしれません。しかし、用途によっては、自然界に存在するタンパク質と似ているけれども、何か違うことをする、まったく新しいタンパク質が必要な場合もあります。ビューラーは、「このモデルを使ってスペクトルを生成し、特定のノブを調整することでスペクトルを制御することができます」と言います。

 

二次構造として知られるアミノ酸の一般的な折り畳みパターンは、異なる力学的特性を生み出す。例えば、αヘリックス構造を持つタンパク質は伸縮性のある材料になり、βシート構造を持つタンパク質は硬い材料になります。αヘリックスとβシートを組み合わせることで、シルクのような伸縮性と強度を併せ持つ素材を作ることができます。

 

研究チームは、タンパク質の全体的な構造特性で動作するモデルと、アミノ酸レベルで動作するモデルの2つを開発しました。どちらのモデルも、これらのアミノ酸構造を組み合わせてタンパク質を生成する仕組みになっています。全体的な構造特性を扱うモデルでは、ユーザーが異なる構造の割合を希望する(例えば、アルファヘリックス40%、ベータシート60%など)ことを入力する。すると、アミノ酸配列が生成されます。

 

https://phys.org/news/2023-04-ai-generate-proteins.html

 

 

Widget is loading comments...
page top