【速報】オープンソースで商用利用可能なLLMの新基準「MPT-7B」をリリース

MosaicML Foundationシリーズの最新作、MPT-7B

MosaicML Foundationシリーズの最新作、MPT-7Bを紹介します。MPT-7Bは、1Tトークンのテキストとコードに対してゼロから学習させた変換器です。オープンソースで、商用利用も可能で、LLaMA-7Bの品質と同じです。MPT-7BはMosaicMLプラットフォームで9.5日、人間の介入はゼロ、コストは20万ドル程度で学習されました。今日から、チェックポイントから始めるか、ゼロからトレーニングするか、自分だけのMPTモデルをトレーニング、微調整、デプロイすることができます。MPT-7B-Instruct、MPT-7B-Chat、MPT-7B-StoryWriter-65k+の3つのモデルをリリースします（最後のモデルは65kトークンのコンテキスト長を使用します）！

https://www.mosaicml.com/blog/mpt-7b

名無しの外国人１

LLaMAは、エンドユーザーにとっても使いにくいものでした。これは、高速な推論と巨大なコンテキストの長さによって、Lllamaを利用するのに適した基礎モデルであるという点で非常に重要です。

名無しの外国人２

65,000コンテクストモデルでは、A100 GPUを32個搭載する必要があります。コンシューマー機器向けの小型で優れたモデルのアクセシビリティやユーザビリティを大きく前進させるものではなさそうだが、この快挙は画期的な成果であることに変わりはない。

名無しの外国人３

Chat GPTのような大規模言語モデル（LLM）の文脈では、「トークン」と「コンテキストの長さ」はモデルの入出力に関わる重要な概念です。

トークン：トークンは、言語モデルが処理するテキストの最小単位です。英語では、トークンは1文字程度の短いものから、句読点や特殊文字を含む1単語程度の長いものまであります。例えば、"ChatGPT is great!"という文章は、["Chat", "G", "PT", " is", " great", "!"] というようにトークン化されます。正確なトークン化は、モデルで使用される特定のトークナイザーに依存します。GPTベースのモデルの場合、Byte-Pair Encoding (BPE)と呼ばれるサブワード・トークナイザーが一般的に使用され、テキストをより小さく、頻繁に出現するチャンクに分割する。トークン化はLLMにとって非常に重要であり、一貫した効率的な方法でテキストを分析・生成できるようになります。

コンテキストの長さ：コンテキスト長とは、モデルが1回のパスで処理できるトークンの最大数のことです。GPT-3 では、コンテキスト長は 2048 トークンです。この制限は、モデルが応答を生成する際に「記憶」または考慮できるテキストの量を制限するものです。会話履歴を含む入力テキストがこの制限を超える場合、切り捨てたり、省略したり、その他の方法で凝縮する必要があり、モデルが正確で首尾一貫した応答を生成する能力に影響を与える可能性があります。チャットGPTの場合、コンテキストの長さは、ユーザーのプロンプトを理解し応答するために、会話からどれだけの情報を使用できるかを決定するため、重要である。

トークンはChat GPTのような言語モデルが処理するテキストの最小単位であり、文脈長はモデルが応答を生成する際に考慮できるトークンの最大数を指します。これらの概念は、大規模な言語モデルの機能と限界の基礎となるものです。

名無しの外国人４

Nvidiaは、AI向けにハードウェアの進化をかなり強く押し出しています。H100の前身であるA100sよりもGPT-3を4倍速くトレーニングできると主張しています。

https://www.nvidia.com/en-us/data-center/h100/

つまり、GPT-3を1750億パラメータでトレーニングするのと同じ時間で、7000億パラメータのモデルをトレーニングすることができるのです。これは、トレーニングのスピードアップや品質の向上を実現するようなソフトウェアの大きな進歩がないことを前提としています。

過去の情報を利用する場合は、ハードウェアの高速化やソフトウェアの進化など、進歩を加速させるようなことを考える必要があります。

Widget is loading comments...