Meta AIがメガバイトアーキテクチャをリリース、1M以上のトークンLLMを可能に

Meta AIがメガバイトアーキテクチャをリリース、1M以上のトークンLLMを可能に。OpenAIでも採用の可能性あり。詳細な内訳はこちら。

OpenAIやGoogleが研究論文の量を減らしている一方で、Metaのチームはかなり活発な活動を続けています。私の目を引いた最新のもの：「Megabyte」と呼ばれる斬新なAIアーキテクチャは、既存のトランスフォーマーモデル（GPT-4がベースになっている）の限界に代わる強力なものです。

なぜ注目する必要があるのか？
AIモデルは、より高い性能を得るにはどうすればいいかという議論の真っ只中にあり、"大きなモデルを作ればいい "ということではない、という意見も多い。これは、iPhoneのチップがもはや生半可なパワーではなく、MacBookの新チップがIntelのCPUと比較して高効率でありながら、全く違う働きをしているのと似ています。

OpenAIでさえ、より大きなモデルのトレーニングに関する最適化に注力していると言っており、これまで具体的なことは言っていませんでしたが、この特定の論文は実際にOpenAIの主任研究者の目に留まりました。彼はこれを「有望」と呼び、"誰もがLLMのトークン化を捨てられることを望むべきだ "と言っています。

最近の戦いの多くは、パラメータ数（AIモデルが学習段階で「学習」する値）をめぐるものでした--たとえば、GPT-3.5は175Bパラメータ、GPT-4は1兆（！）パラメータと噂されています。これは、もうすぐ時代遅れの言葉になるかもしれません。

研究者は120万個のトークンでテストした。比較のため、GPT-4は32kトークン、AnthropicのClaudeは75kトークンでトップアウトしています。

マジックはどのように起こっているのでしょうか？

研究者は、個々のトークンを使う代わりに、シーケンスを "パッチ "に分割しています。パッチのサイズはさまざまだが、1つのパッチに多くのトークンに相当するものが含まれることがある。現在、トークンごとの処理に重点を置いているが、配列の長さが長くなるにつれ、膨大なコストがかかる。従来のアプローチは、1000ピースのパズルを組み立てるのと、10ピースのパズルを組み立てるのと同じだと考えてください。研究者たちは今、1000ピースのパズルを10ピースのミニパズルに再び分割しようとしています。

そして、パッチは小さなモデルによって個別に処理され、大きなグローバルモデルがすべてのパッチの全体的な出力を調整する。これは、より効率的で高速な方法です。

これにより、（従来のTransformerのシリアル化に対して）並列処理が可能になり、さらなるスピードアップを図ることができます。

これは、Transformerモデルが持つ2次関数的なスケーリングの自己注意の課題を解決するものです：現在のTransformerが生成するシーケンス内のすべての単語は、他のすべての単語に「注意を払う」必要があります。つまり、シーケンスが長ければ長いほど、計算量が多くなるのです。

これは、Transformerモデルが抱えるフィードフォワードの問題にも対処するもので、トークン（またはポジション）ごとに数学的に複雑なフィードフォワード計算のセットを実行します。

将来はどうなるのでしょうか？
コンテキスト・ウィンドウと可能な総出力に対する制限は、現在のLLMにおける最大の制限の1つです。ある会社は、より多くのトークンを使えるようにするために、より多くのリソースを投入しています。しかし、いずれはアーキテクチャそのものを解決する必要があります。

研究者たちは、Transformerのアーキテクチャも同様に改善できることを認めており、その領域で、Megabyteアーキテクチャを使用しなければならない場合と比較して、可能な多くの効率化を呼びかけている。

Altmanは、効率化こそが未来であると確信している：「これは、1990年代から2000年代にかけてのチップにおけるギガヘルツ競争のようなもので、誰もが大きな数字を示そうとした。「私たちは、パラメータ数について自嘲するためにここにいるのではありません」と彼は言った。(そう、彼はインタビューで「自慰行為」と言ったのだ)

Andrej Karpathy氏（元TeslaのAI責任者、現OpenAI）は、Megabyteを "有望 "とした。"TLDR誰もがトークン化が捨てられることを望むべきだ。"と彼は言った。

名無しの外国人１

好きか嫌いかは別として、メタは実はかなり賢い動きをしている。

名無しの外国人２

なぜmetaは最近このようなものをリリースしているのか、誰か教えてください。マルチモーダルモデルからデータセット、新しいアーキテクチャまで、なぜこれだけのものを提供するのでしょうか？誤解を恐れずに言えば、私は彼らがそうであることを嬉しく思うし、そうし続けることを望んでいるのですが、なぜでしょうか？長い目で見て、このことが会社にどのような利益をもたらすのか？

名無しの外国人３

Metaは、AIの分野で意図的にオープンソースコミュニティと連携している。Google + OpenAIがクローズドモデル（PaLM 2やGPT-4など）を追求しているのに対し、MetaはAIのマーケットシェアを獲得するためにオープンソースコミュニティを意図的に利用しています。オープンソースのLLMのほとんどは、Meta社の基礎的なLLaMAモデルに基づいており、研究者は無料で利用でき、最終的にはより広いコミュニティに流出した。

Widget is loading comments...