生成AI(Generative AI)とAIの違いとディープラーニングとトランスフォーマーの関係は! 

最近、生成AI(Generative AI)という言葉をよく

耳にしますが、実際に、AIと生成AIの違いはなにか、

またその過程で現れてた、DeepLearningとTransformer

とはなにか調べてみました。

生成AIとAIとの関係

広い意味でのAI技術として、データの特徴を学習して

データの予測や分類などの特定のタスクを行う機械学習が生まれ、

その中でデータの特徴をマシン自体が特定するディープラーニング技術が

登場しました。

生成AIはこのディープラーニング技術の発展の延長上にある技術だと

言えます。

ディープラーニングとは

ディープラーニングは、2022年に生成AIがブームになるまで、

人間と同等以上の成果を出せる領域としては認識や識別がメインでした。

ラベル付き画像データベース「Imagenet」の登場がしたことによって

「モデル」と「計算機」が揃った2006年のタイミングから3年後の

2009年、スタンフォード大学のAI研究者らが、コンピュータ

ビジョンアルゴリズムの学習に使用されるラベル付き画像の

「データベース」であるImagenetを発表されました。

「モデル」「データ」「計算機」が揃いディープラーニングは

円熟の時期を迎えました。

2012年の「ILSVRC」(画像認識の精度を競うAIの競技会)で、

初出場したジェフリー・ヒントン教授のチームが他を圧倒して優勝しました。

当時画像認識AIの精度は75%程度で1年に1%改善するのが精一杯だった

ところから他のAIに比べて10%以上も高い驚異の精度を叩き出し、

ここから一気にディープラーニングブームが始まりました。

NvidiaがGPUを汎用スーパーコンピューターとして利用可能に

それを変えたのが、2006年にNvidiaが発表したプログラミング言語の

「CUDA」です。これにより、GPUを汎用スーパーコンピュータと

して利用できるようになりました。

機械学習における「三位一体」とは

入力されたデータから望ましい出力に導くための「モデル」

学習のための「データ」

演算を支えるための「計算機」

この3つがセットになります。

ディープラーニングから生成AIへの過程は

画像認識においては人間を上回る精度を出せるようになったが、

自然言語処理(NLP)、つまりマシンに人間の言葉を理解させ、

動作させるには大きな壁がありました。

最近まで、データを時間的に処理し分析するために、

リカレントニューラルネットワーク(RNN)や長期短期記憶(LSTM)

のようなモデルを主に使っていました。

しかし、これらのモデルは、短いフレーズから話し言葉のような

短いセンテンスを認識するのには効果的だったが、長い文や段落を

扱うのは苦手で、SiriやAlexaのようなシンプルな音声アシスタント

には向いていたが、それ以上のことをやろうとすると精度が全く足りないのが

実態だった。

こうして生成AIブレークスルー前夜の状況を整理すると、

インターネット上のテキストデータをラベル付けを必要とせず学習でき、

RNNやLSTMのようなセンテンスレベルではなくもっと高度

な処理ができるモデルが欠けていた。

つまり、自然言語AIは、すでに存在する「計算機」と「データ」を活用できる

「新しいモデル」がMissing Pieceだった。

トランスフォーマーがすべてを変える

トランスフォーマーは、以下の3つの点で多くの言語問題を

解決するのにピッタリのモデルでした。

ある順序の記号列(トークン)を取り込んで別の順序の記号列を吐き出す

複雑なラベル付けが必要がなくなったのです。

並列処理を行えるモデルなのでGPUでの処理と相性が良い

つまり1の特徴を次の項目で紹介するような使い方をすることで

様々な文章生成に使え、手動でラベル付けしてのデータセット

構築が不要になり、GPUという計算機を用いることができるようになった

のです。

そうした状況に風穴を空けるモデルがGoogleの言語翻訳研究チームから生まれ

ました。それが「Attention Is All You Need」という有名な論文で

発表された「Transformer」です。

これが生成AIにおける大きなブレークスルーになりました。

なぜGoogleの翻訳研究チームから生まれたかというと、翻訳という語順が

重要な自然言語の問題に取り組んでいたからです。

Googleの中から生まれた論文によってブレークスルーを迎えた生成AIを

使ったChatGPTやBingAIなどが大きな脅威となってGoogleが社内に

非常事態宣言を出すに至っています。

生成AIの過程は

OpenAIによるGPT2のリリース(2019)

OpenAIはTransformerを活用した大規模言語モデル「GPT2」を開発。

ChatGPTにも用いられている「GPT」とは

「Generative Pre-trained Transformer」の略で

「生成に使える事前学習されたTransformer」という意味です。

そしてGPT2は、それまでの基準からすると驚くほどリアルで人間のような

テキストをセンテンスレベルではなく段落レベルで生成可能になりました。

GPT3への進化(2020)

真に生成AIのブレークスルーが起きたのはGPT2からGPT3に

進化したタイミングだ。

GPT2のパラメータが約15億個だったのに対して、GPT3はその100倍で

約1750億のパラメータ数になりました。

モデルを大きくすることで、単にテキストを生成する能力が向上するだけではなく、

リクエストを入力するだけでパラグラフを要約したり、文章を特定の

スタイルに書き換えることができるようになった。

GPT3は単一目的の言語ツールを超えて、様々な用途に使えるツールになりました。

参照:https://note.com/kajiken0630/n/n8a1c33271280

まとめ

この生成AIまでの過程をまとめると

DeepLearningとTransformerが生成AIのブレークスルーを生んだ

と言っていいと思います。まとめると、画像を含めて様々なメディアの

「言語」を学習するディープラーニングと、そうした言語間の「翻訳」を

可能にしたTransformerの2つが組み合わさることで今日の生成AIに

おけるブレークスルーが生まれました。

 

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

コメントをどうぞ

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です