【深層学習】GPT – 伝説の始まり。事前学習とファインチューニングによるパラダイムシフト【ディープラーニングの世界vol.31】#109 #VRアカデミア #DeepLearning
AI 技術の魅力について語る際、事前学習とファインチューニングのパラダイムを決定づけた研究は必ず触れなければなりません。その中でも、GPT シリーズは特に注目される価値があります。
GPT(Generative Pre-trained Transformer)シリーズは、自然言語処理やテキスト生成において画期的な成果を上げています。その中でも、GPT-2 と GPT-3 は特に顕著な進化を遂げました。これらのモデルは大規模なデータセットで事前学習され、その後、さまざまなタスクに対してファインチューニングが行われます。
このアプローチにより、GPT シリーズは驚異的な言語理解能力を持ち、人間にも引けを取らない文章生成や応答生成が可能となりました。例えば、文章のコヒーレンスや意味の推測といった高度なタスクにおいても高い精度を達成しています。
さらに、GPT シリーズはオープンソースで提供されており、多くの研究者や開発者がこれらのモデルを活用して新しいアプリケーションやサービスを生み出しています。そのため、AI 技術の普及と発展に大きく貢献しています。
また、GPT シリーズは常識問題や自然言語処理の基本的な理解能力も備えており、日常会話から専門的な知識まで幅広い分野で活用されています。これにより、人間とのコミュニケーションや情報検索といった様々な用途で役立つ存在として定着しつつあります。
最新技術である GPT シリーズは今後も進化し続けることが期待されており、その可能性は未知数です。AI 技術の未来を切り拓く一端を担う重要な存在と言えるでしょう。是非一度体験してみてください!
transformerの次のブレイクスルーとして注目されている技術ってどんなものがあるのですか??
際限なく精度が向上するのは、residual connectionとAttentionによるものでしょうか?
「データ増・モデル大で際限なく精度が向上しているように見える。」といった説明で、何故そうなるのか気になりました。
恒等写像+どの情報に注目すればいいかを制御しているからなのかな?と漠然と考えていましたが
原論文にこの辺りの記載あるでしょうか?
大変勉強になります。一点お伺いしたいのですが、「TransformerのDecoderの改変」というのは、Encoderがない、という意味も含まれますでしょうか?Multi-Head Attentionも一回になっていますし、これでなぜ改善しているのか不思議に思ったのですが、大量学習の差が本質なのでしょうか?
全然本質と関係ないんですけど、「この動画生成時点では」でちょっと笑いました。
1年半以上前にGPTに注目してるのすごいですね
diffusionモデルやloraの仕組みなども解説してほしいです
Detroitかターミネーターのような感じになるのかな。
アトムやドラえもんにはならなさそう。
AIに勝てなくなって、しばらくの間人間には虚無感が広がり、その後、人間自体をアップデートしていく電脳化のような世界になるんでしょうね
今話題のchatGPTの元か
改めて拝聴させて頂きました。いつもながらわかりやすい解説をありがたく思っています。chatGPTに「オイラー公式 exp(ix)=cos(x) + i sin(x)を用いて加法定理を証明して」とお願いすると、sin(x+y) →①expへの変換→②expでの整理→③sin cosへの逆変換という式展開の正解を得ました。①は順方向ですが③は逆方向。そのため②は③を予感しながらの整理となります。それでbidirectional(BERT)を思い出し、再拝聴しましたが、GPTはbidirectionalではなさそうです。とても不思議です。原論文も読まずに恐縮なのですが、、
つまり人間も義務教育がかなり大切だって事を言ってるような気がする。ホリエモンとかが言ってる事と逆だけど・・・ 笑
いつも勉強させていただいております
ありがとうございます
これからも沢山論文紹介動画挙げて頂きたいです!!!🙇♂️
いつも、わかりやすい動画
ありがとうございます
ファインチューニングして○○作っちゃった!てきな動画も見てみたいです
大変勉強になりました✌('ω'✌ )三( ✌'ω')✌難しい問題(特殊なケース)ばかりを学習させると、基礎を無視した過学習(基礎を無視したチート的な別解)に頼るようになるけど、PT後だと基礎に基づいた解になり過学習を抑制出来るようなイメージでしょうか。
未来をmaskするようにしているので「Transformerのdecoderの改変」という説明がありましたが、Transformerのdecoderでも未来をmaskしている(英語から日本語に翻訳する場合に日本語を生成する時は未来をmaskしている)ので、改変ではなく同じではないでしょうか。
今回の動画も乙。自然言語処理系はあんま学んでいないから、わかりやすい解説は嬉しい。
深層学習シリーズ、いつも分かりやすいです!
強々データサイエンティスト採用した方が、チョットデキル人よりも仕事をすぐ覚えられるみたいな感じかな🤔
次単語予測は、日本語でもパフォーマンスでるのでしょうか
GPT GPT-2 GPT-3 T5ってMHP MHP2nd MHP3rdみたいで楽しい。
DALL·EがあるからGPT-4とかは言語モデルとかじゃなくもっとマルチモーダルになるのかな
いやあ濃い中身なのにわかりやすく、とてもありがたいです!
Fine tuningのかわりにTransfer learning という表現をしても問題ないのでしょうか?