最近は何かと話題になる生成AIですが、実際にどういうものなのかはあまり知られていないようにも思われます。この記事では生成AIについてまとめてみました。
生成AIの概要
生成AI(Generative AI)とは、テキスト、画像、音声、その複合したものなど、様々なコンテンツを生成できる人工知能技術の一種です。近年は生成されるコンテンツの高速に、高品質なものが作成できるようになり、誰もが使えるようになってきたことで注目されているのでしょう。
生成AIの技術そのものは古くからあり、最初はチャットボットとして使われていました。生成AIが実用性の可能性を開くレベルの生成コンテンツが作れるようになったのは、2014年に機械学習アルゴリズムによるGenerative Adversarial Network(GAN)が登場してからです。
生成AIの誕生によって様々な利用方法や新しいコンテンツ作成などの可能性が期待されましたが、一方でディープフェイクや、なりすましによる詐欺、サイバーセキュリティ攻撃などが懸念されています。
初期の機械学習の一種であるトランスフォーマーは、ラベルの付いていないデータでも大規模なモデルを訓練させることを可能にしました。これによって大量のテキストを使用した学習モデルが作られるようになり、回答される文章はより洗練されました。
トランスフォーマーはまたアテンションという概念を生み出し、アテンションによってモデルは個々の文だけではなく文章全体の繋がりを文脈として解釈し、出力ができます。このトランスフォーマーのネットワーク接続の理解能力はタンパク質や化学物質、DNAなどの分析に利用されています。
こうしたトランスフォーマーの2つの画期的な技術的進展が、近年の生成AIの飛躍につながりました。いわゆる大規模言語モデル(LLM)と言われる大量のパラメータを持つ生成AIは、人間らしい文章や写実的な画像の生成を可能にしました。
2017年グーグルによって報告された新しいタイプのニューラルネットワーク・アーキテクチャはアテンションという概念に基づくトランスフォーマーであり、自然言語処理などに大幅な精度の向上をもたらしました。
アテンションは物事がどのように関係し、補完しあい、修正し合うかを数学的に記述したものです。トランスフォーマー・ニューラルネットワークは画期的な速度で翻訳ができることを示しました。
またこの技術はデータの中に埋もれている事柄の関係性や秩序を発見することができ、その後の多くの発展に寄与しました。
またマルチモーダルAIは複数のメディアを使用したコンテンツ生成を可能にしたもので、これによってテキストの説明から画像を自動的に生成したり、画像からテキストの説明を生成するツールの基礎となっています。
このように内部的な技術的な進展はありましたが、生成AIの利用はまだ初期段階と言えます。回答や生成コンテンツの内容にもまだ誤りや不整合があります。
しかしそれでも生成AIはこれからの進展により、社会に多大な影響を与えることは間違いありません。今後は、プログラミングのコード、新薬の設計、製品開発、ビジネスプロセスの再設計、サプライチェーンの改革などを支援してゆくテクノロジーとして社会に受け入れられてゆくでしょう。
生成AIのしくみ
初期の生成AIではAPI経由でデータを送信したり、特製のツールの複雑な操作を必要としました。また使用者はPythonなどのプログラム言語によって指示を書かねばなりませんでした。
現在の生成AIでは、AIへの指示を簡単な言葉で行えるようになりつつあります。会話形式で何度か試行を繰り返すことにより生成コンテンツへの修正や改善ができるようになっています。
こうした指示の入力はプロンプトと言われる、テキスト、動画、画像、楽譜などの様々な入力形式に対よって行われます。プロンプトにAIのアルゴリズムが応答して新しいコンテンツを出力するのです。
生成AIモデルは、様々なAIアルゴリズムを組み合わせて処理を行います。テキストの学習では様々な自然言語処理技術で文章を、文、単語、品詞などに変換し、それを複数の符号化技術によってベクトルとして表現します。
ニューラルネットワークにはGANやVAEなどがあり、プロンプトをデコードし、コンテンツを生成するエンコーダーを備えたものです。
GoogleのBERT、OpenAIのGPTといった最近の生成AIではニューラルネットワークによって、文章、画像、タンパク質などを生成していますし、新しいコンテンツを生成できるニューラルネットワークも生まれています。
今日のAIや機械学習ソフトウェアの基礎をなしているニューラルネットワークは、人間の脳の働きを模倣するように設計されており、データセットからパターンを見つけてルールを学習します。2000年代のビッグデータの登場とコンピュータの処理能力が上がったことによりニューラルネットワークのコンテンツ生成の実用性が増しました。
またゲームのレンダリングに使われていたGPUを使用してニューラルネットワークを並列実行する方法が開発されたこともあって、生成AIの開発速度は加速しています。
主要な生成AI
ここで一般に公開されて人気のある生成AIについて見てゆきましょう。
Dall-E
Dall-Eは2021年にOpenAIのGPT実装によって公開され、2022年にはDall-E2になりました。ユーザーのプロンプトから複数のスタイルを適用した画像を生成することができます。
Dall-Eは画像とそれに紐付けられたテキストによる説明からなる大規模なデータセットを使用して訓練されました。マルチモーダルAIにより言葉の意味と視覚的要素を結びつけ、画像とテキストの関連性を識別、追跡することができます。
ChatGPT
OpenAIのGPT-3.5実装により2022年11月にAIチャットボットとして公開され、またたく間に人気の生成AIとなりました。2023年3月にはGPT-4が公開されています。
ChatGPTはユーザーとの会話履歴を出力結果に組み入れ、現実の会話をシミュレートしています。
会話形式のインターフェイスによりインタラクティブなフィードバックが得られ、対話を通じてテキストの応答を調整することができるようになっています。
またマイクロソフトはOpenAIのGPTを検索エンジンのBingに統合しています。
Bard
マイクロソフトがGPTをBingに実装することを決定したことを受けて、グーグルはBardの市場投入を急ぐことになりました。
Bardは大規模言語モデルのLaMDAシリーズの軽量版を使用した一般向けのチャットボットです。この言語モデルが誤った発言を連発したため、グーグルの株価が下がるということがありました。またマイクロソフトのBingもChatGPTの不安定さから同じような状況になっています。
グーグルはその後、先進的なLLMであるPaLM2をベースにしたBardの新バージョンを発表しています。
用途別の生成AI
- テキスト生成 GPT、Jasper、AI-Writer、Lex 等
- 画像生成 Dall-E2、Midjourney、Stable Diffusion 等
- 音楽生成 Amper、Dadabots、MuseNet 等
- コード生成 CodeStarter、Codex、GitHub Copilot、Tabnine 等
- 音声合成 Desscript、Listnr、Podcast.ai 等
生成AIの活用例
生成AIは事実上あらゆる種類のコンテンツの生成ができるので、活用法も多岐にわたるでしょう。生成AIはGPTのような技術によってユーザーにとって身近で使いやすいものになりつつあります。
- カスタマーサービスやサポートのためのチャットボット
- 人物を模倣するディープフェイク技術
- 映画や教育用コンテンツでの言語の吹き替え
- メールの自動返信、プロフィールや履歴書、議事録などの作成
- スタイルを選択した写実的なアートの作成
- 製品紹介ビデオの改善
- 新しい医薬用化合物の開発
- 製品や建築での設計
- 半導体チップの設計や最適化
- スタイルを選択した作曲や作詞
生成AIを利用するメリット
生成AIはビジネスにおいても幅広く利用されるでしょう。現在AI開発の現場ではワークフローを改善するための方法が模索されており、ワークフローを生成AI向けに適応させることも選択肢になっています。
- 手作業で行っていた作業を自動化する
- コミュニケーションコストを減らし、労力を削減する
- カスタマーサポートを自動化する
- 風景、物体、人物などの表現の精細化
- 複雑な情報やデータから明快な仮説や結論を取り出す
- スタイルを選択したコンテンツ作成を容易にする
また生成AIは多くの産業に影響を与えることが予想されており、汎用技術になってゆくでしょう。ワークフローの一部だけではなく産業自体のあり方を変え、いずれワークフローの組織化を組み替えることになるでしょうが、それにはまだ時間がかかるでしょう。
- 金融業界は顧客の利用履歴から取引の監視を行い、優れた不正検知システムの構築
- 法律事務所は、契約の構成や生成、証拠の分析、議論の提案
- 製造業は、カメラやX線画像から製品の正確な検品
- 映画会社などのメディア企業は、経済的なコンテンツ制作
- 医療業界では、新薬候補を効率的な発見
- 建築会社は、建物の迅速な設計
- ゲーム会社は、経済的なゲームコンテンツやストーリー、デザインなどの制作
などが考えられ、産業全体に与える影響は大きなものになってゆくでしょう。
生成AIの限界
生成AIの限界は様々な要素や結果において課題になっています。基本的には生成の過程において元のデータから切り捨てられる情報へのアプローチや検証が難しいことにあります。
- 生成されたコンテンツの出所の特定が困難である
- 元になるデータや情報のバイアスが評価できない
- リアルに表現されたコンテンツは誤りの情報を特定しにくい
- 新しい状況に対応させるための調整が難しい
- 偏見や悪意などを覆い隠してしまう可能性がある
生成AIに向けられる懸念
生成AIの台頭は様々な懸念にも拍車をかけており、生成結果の質への懸念、誤用や悪用の可能性などが指摘されています。
- 誤った情報や誤解を招く情報を出力する可能性がある
- 元になった情報の特定や出所が不明になり、信用が失われる
- オリジナルのコンテンツの権利を侵害や、盗用を促進する可能性がある
- 現在の経済に適応した既存のビジネスモデルを崩壊させる可能性がある
- フェイクニュースの作成を容易にする
- 不正行為の言い訳にフェイクだという主張が使われる
- なりすましによるソーシャル技術へのサイバー攻撃を可能にする
正確性や信頼性に欠ける情報の出力や、盗用などの問題は以前から懸念されてはいましたが、最近では生成コンテンツが人間の創作物との区別が難しくなりつつあることが新たな懸念となっています。
また生成AIのリアルな生成物は情報の真偽について混乱を引き起こす可能性があります。これは生成物の利用に際して大きな問題になってくるでしょう。生成AIには透明性が十分に確保されているとは言えず、生成物が著作権を侵害しているのか、もしくはソースに問題があるのかの判断は困難です。
生成AIの使用上の注意
生成AIに向けられる懸念に対処するために、ユーザーはどのようなことに注意したら良いでしょうか。
生成AIの使用にあたっては、正確性や透明性が欠けている可能性について十分に考慮しておくことが必要になるでしょう。また全ての生成物には生成AIコンテンツであることのラベルを付けましょう。
一次ソースが利用できるのであれば生成されたコンテンツの正確性や権利の正当性について検証する。また生成物にどのようなバイアスがかかっているかを考慮しておく。他のツールを使用して生成物の品質評価をダブルチェックする。などの対策が考えられます。
生成AIによって限界やエラーの傾向は異なるので、一般的な失敗の類型を知っておくようにしましょう。
生成AIのこれから
生成AIの急速な普及の反面、その安全性や責任の所在などの問題も懸念されることになりました。こうした問題に対処するため、すでに生成AIが生成したコンテンツを検出する技術の研究がはじまっています。おそらくこれより信頼できるAIを作るために元情報の追跡が可能になるツールが出現するでしょう。
生成AIはこれからも進化を続け、翻訳、創薬、異常検知、動画、ファッションなど新しいコンテンツの生成を可能にしてゆくでしょう。将来的にはこうした生成AIが既存の道具や機械に直接使われるようにもなるでしょう。
もちろん生成AIの将来的な影響がすべて予測可能であるわけではありません。人間の仕事を自動化し、補佐する道具を使うにつれ、人間の専門知識の性質や価値を再評価することになってゆくでしょう。
コメント