COLUMN

2024.12.25 ｜ Writer：NTT東日本　荒井

AWS re:Invent 2024で発表されたAmazon Nova CanvasとAmazon Nova Reelの紹介

	こんにちは、荒井です。

毎年ラスベガスで行われている学習型カンファレンスである「AWS re:Invent 2024」が開催され、NTT東日本として参加してきました。今回は、AWS re:Invent 2024において発表された新しい基盤モデルであるAmazon Novaの中から、Nova CanvasとNova Reelについて紹介したいと思います。

※このコラムはAWS re:Invent 2024「AIM385:Unleash your creativity with Amazon Nova video and image generation」「AIM398:Practical generative AI using Amazon Nova」「AIM389:Creative content generation with Amazon Nova Reel & Amazon Nova Canvas」を基に作成しています。

NTT東日本では、AWSなどクラウドに関するお役立ち情報をメールマガジンにて発信していますので、ぜひこちらからご登録ください。

Amazon Novaについて
Amazon Novaの特徴
Amazon Novaの利用シーン: 広告バナー; 連続ドラマの総集編作成; 映像広告（CM）作成
Amazon Nova Canvasの概要
Amazon Nova Reelの概要
Amazon Novaを利用するための初期設定について
Nova Canvasの具体的な利用方法について: 自動編集：インペインティング; 自動編集：アウトペインティング; 画像バリエーション; 画像条件付け; 背景除去
Nova Reelの具体的な利用方法について: テキストから映像作成; テキストと画像から映像作成
まとめ

Amazon Novaについて

Amazon Novaは8つのタイプが発表されています。

Amazon Nova Micro
テキスト専用のモデルです。非常に低コストで高速であることが特徴です。
Amazon Nova Lite
テキストだけでなく、画像や映像も含めたさまざまなデータを組み合わせたタスクに対応する（マルチモーダルな）非常に高速で最も低コストなモデルです。
Amazon Nova Pro
Liteよりも高速であり、精度とコストのバランスが最も優れたマルチモーダルなモデルです。
Amazon Nova Premier
最も高性能なモデルです。現在は公開されておらず、来年公開される予定です。
Amazon Nova Canvas
テキストおよび画像をインプットとして、新たな画像を生成するモデルです。
Amazon Nova Reel
テキストおよび画像をインプットとして、新たな映像を生成するモデルです。現在は6秒の動画のみ作成可能ですが、数か月以内に最大2分の映像を生成できるようにアップグレードされる予定です。
Amazon Nova Speech-to-Speech
音声をインプットとして、新たな音声を生成するモデルです。現在はまだ公開されておらず、来年に公開される予定です。
Amazon Nova Any-to-Any
テキスト、画像、映像、音声をインプットとして、新たなテキスト、画像、映像、音声を生成するモデルです。現在はまだ公開されておらず、来年に公開される予定です。

前半の4つが「Understanding models」、後半の4つが「Creative content generation models」と区分されています。

このコラムでは、現在利用可能な「Creative content generation models」であるAmazon Nova CanvasとAmazon Nova Reelについて紹介します。

NTT東日本では、AWSなどクラウドに関するお役立ち情報をメールマガジンにて発信していますので、ぜひこちらからご登録ください。

Amazon Novaの特徴

Amazon Novaの特徴として挙げられるのは以下です。

コスト効率が75%向上
Bedrockで利用できる他モデルと比べて最速のモデル
精度向上のためのファインチューニングをサポート
高い精度と高速性を維持しつつ、効率的で低コストな小型モデルをトレーニングするための蒸留機能
自社データに基づいた応答を提供するため、Bedrock Knowledge BasesによるRAGに統合
APIを通じてシステムやツールと連携する必要があるエージェント型アプリケーション向けに最適化

要するに「早い、安い、高性能」といったところでしょうか。

こちらはBreakout Sessionにおいて説明があった価格の比較ですが、確かに他のモデルと比べて圧倒的に安いことがわかります。Bedrockでよく使われているClaudeと比べても、その安さがわかると思います。

Amazon Novaの利用シーン

Amazon Nova CanvasとAmazon Nova Reelについて具体的に紹介する前に、LiteやProなども含めたAmazon Novaの利用シーンについて紹介したいと思います。これらはAWS re:Invent 2024のBreakout Sessionにおいて紹介されていたものです。

広告バナー

こちらは実際に日本で使用された例ですが、ゴルフダイジェスト・オンラインという会社におけるブラックフライデーのWebバナー（動画）がAmazon Nova Reelによって作成されました。

Amazon Nova Reelによって作成コストをかけず簡単に映像広告を（しかも複数種類）作成することができ、かつバナーを通常の静止画から動く映像にしたことでコンバージョン率が劇的に向上したとのことです。まさに費用対効果が高い、非常に有効な活用例だと思われます。

連続ドラマの総集編作成

Amazon Prime Videoのオリジナルシリーズである「Bosch Legacy」において、第2シーズンの総集編がAmazon Novaを使用して作成されました。

約7時間ある映像を基にAmazon Novaがテキスト要約を作成し、それに対して音声のナレーションと音楽を作成し、ナレーションに合ったシーンをつないで約2分の動画を作成したとのことです。Amazon Novaは上記で記載した通り映像も含めたマルチモーダルに対応したモデルであるため、こうしたことが実現可能です。

人間が行うとなると、まず10時間の映像を観て、ストーリーを考えて、映像をつなぎ合わせて・・・とかなりの時間がかかりますが、こうした作業をAIを使うことで短時間で作成きます。

映像広告（CM）作成

あくまでフィクションですが、Amazon AdsというAmazonが行っている広告ビジネスの領域において、Amazon Nova Reelを使用して作成されたCMが公開されています。

このCMで流れている会社および商品は実際には存在しないですが、AIを使って動画広告を簡単に作ることができるというイメージは沸きますね。実際にCMがAIによって作成される時代が来るかもしれません。

Amazon Nova Canvasの概要

では、「Creative content generation models」について具体的な紹介を進めていきたいと思います。

まずはAmazon Nova Canvasについてですが、こちらは画像を生成するモデルです。

テキストで指定した画像を生成することはもちろんのこと、既にある画像を基に新たな画像を生成することも可能です。

例えば、テキストで「A cat sitting in a tea cup」と指定すると以下のような画像が生成されます。

猫の体がどう収まっているのかはわかりませんが、カップに入ったかわいらしい猫の画像が生成されました。

この例ではテキストを基に画像を生成しましたが、それ以外にも以下のように利用することができます。

自動編集：インペインティング

画像の指定した部分を任意の画像に置換します。

自動編集：アウトペインティング

画像の指定した以外の部分を任意の画像に置換します。

画像の外側を生成して画像全体を広げることも可能です。

画像バリエーション

既存の画像を基に、指定したバリエーションの画像を生成します。

画像条件付け

既存の画像を基に、指定した条件を基に新たな画像を生成します。

背景除去

既存の画像における背景を削除します。

詳しい使い方は後述します。

NTT東日本では、AWSなどクラウドに関するお役立ち情報をメールマガジンにて発信していますので、ぜひこちらからご登録ください。

Amazon Nova Reelの概要

Amazon Nova Reelは映像を生成するモデルです。

Canvasと同じように、テキストで指定した映像を生成することができ、基になる画像を指定することで、画像を基にした新たな映像を生成することができます。

かなり使いやすく、誰でも簡単に映像を作成できるため広告やプレゼンテーションとしての利用が期待できます。

例えば、以下のイラストに対して「dolly in over a gentle river」といった指示を与えると映像が作成されます。ちなみに、このイラストはAmazon Nova Canvasで生成しました。

基となるイラスト

作成された映像

この例ではイラストを動かしましたが、例えば自分が過去に旅行で行った先の風景なども映像として動かすといったことも可能です。

Amazon Novaを利用するための初期設定について

Amazon Novaを利用するためには、Amazon Bedrockにおいてモデルアクセスを有効化する必要があります。他のモデルを使用する際と同じ手順で有効化可能です。

既に知っている人、既に有効化している人は読み飛ばしていただければと思います。

①AWSコンソールにログインし、リージョンを「us-east-1（バージニア北部）」に変更します。「Amazon Bedrock」ページに移動し、左メニューから「モデルアクセス」を選択し、「特定のモデルを有効化する」を選択します。

②「Nova Lite」や「Nova Canvas」などが表示されていますので、有効化したいものにチェックを入れて「次へ」を選択します。

③確認画面が表示されますので、「送信」を選択します。

④選択したモデルが有効化されていることを確認します。

⑤有効化された後は、「プレイグラウンド」で簡単に使用することが可能です。例えばNova Canvas、Nova Reelを試す場合は「Image/Video」を選択し、「モデルを選択」を選択します。

⑥利用するモデルを選択し、「適用」を選択します。

※Nova Reelを初めて使用する場合、アウトレットとなる映像を格納するためのS3バケットを作成するかどうか求められます。その場合は新たにS3バケットを作成するか、任意のS3バケットを指定してください。

⑦プレイグラウンドのページが開きます。基本的なことであればこのページでGUIを使ってAmazon Novaを試すことが可能です。

Nova Canvasの具体的な利用方法について

Nova Canvasはテキストから画像を生成する以外にもさまざまな使い方ができることは前述した通りです。ここではその方法について具体的に紹介します。

自動編集：インペインティング

指定した箇所を任意の画像に置換することが可能です。

例えば、以下の画像ではTシャツに猫が描かれていますが、これを犬に変えたいとします。

その場合、例えばマスクプロンプトで”cat image”と指定したうえで、テキストプロンプトで”a white t-shirt with dog graphic”といった指示を与えます。

そうすると、以下のように猫の部分が犬に変わります。

このインペインティングについて、プレイグラウンドで試すことができます。

プレイグラウンドで行う場合は、基となる画像をアップロードし、「Action」で「オブジェクトを置換」と選択し、「Mask Tools」で吹き出しマークを選択したうえでマスクプロンプトを記入、テキストプロンプトに任意の指示を記載して「実行」を選択すれば行うことができます。

※もし思い通りにいかない場合は、シードの値を変更して再度実行してみてください。

また、プレイグラウンドのGUI上で行うだけでなく、ローカルや統合開発環境においてコードとして実行することも可能です。

サンプルコードは以下のAWSドキュメントで公開されていますのでご参照ください。

Code examples

自動編集：アウトペインティング

先ほどは”イン”ペインティングを紹介しましたが、次に紹介するのは”アウト”ペインティングです。これは先ほどとは逆の発想で、指定した箇所以外を置換します。

例えば、先ほど生成した犬が描かれたTシャツの画像について、背景を森に変えたいとします。

その場合、例えばマスクプロンプトで”shirt”と指定したうえで、テキストプロンプトで”a man stands on a forest wearing a t-shirt”といった指示を与えます。

そうすると、以下のように背景が森に変わります。

森の中でこのTシャツ着ている人に遭遇したら少し怖い気もしますが・・・。

このアウトペインティングについても、プレイグラウンドで試すことができます。

プレイグラウンドで行う場合は、基となる画像をアップロードし、「Action」で「背景を置換」と選択し、「Mask Tools」で吹き出しマークを選択したうえでマスクプロンプトを記入、テキストプロンプトに任意の指示を記載して「実行」を選択すれば行うことができます。

※もし思い通りにいかない場合は、シードの値を変更して再度実行してみてください。

また、インペインティングと同じく、プレイグラウンドのGUI上で行うだけでなく、ローカルや統合開発環境においてコードとして実行することも可能です。

サンプルコードは以下のAWSドキュメントで公開されていますのでご参照ください。

Code examples

また、画像の見えていない部分を生成して画像を拡張することもできます。

例えば先ほど生成した以下の画像は「1280×720」なのですが、これに対して「2288×1824」とサイズを指定し、基の画像をどの位置に置くか（左、右、中央など）を指定します。そのうえでテキストプロンプトで”a man stands on a forest wearing a t-shirt”と指定します。

そうすると、以下のような画像が生成されました。

こんな人だったんですね・・・。

なお、この画像拡張についてはプレイグラウンドで実施するのが難しいため、コードを用いて実施する必要があります。

画像バリエーション

画像のバリエーションを生成します。

例えば以下の画像は黒いスーツを着たマネキンが映っていますが、黒ではなく黄色いスーツのバージョンを生成したいと思います。

その場合、この画像を指定したうえでテキストプロンプトで「a yellow suits」と指示します。

そうすると、以下のように黄色いスーツを着たバージョンが生成されました。

もし、基の画像を指定せずに単純に「a yellow suits」とテキストだけ指定すると以下の画像が生成されます。

マネキンではなく人だったり、3人いたり、背景が異なっていたりと全然違う画像になりますので、上の画像ではしっかり基の画像が参照されていたことがわかります。

このバリエーション生成についても、プレイグラウンドで試すことができます。

プレイグラウンドで行う場合は、基となる画像をアップロードし、「Action」で「バリエーションを生成」と選択しテキストプロンプトに任意の指示を記載して「実行」を選択すれば行うことができます。

※もし思い通りにいかない場合は、シードの値を変更して再度実行してみてください。

また、今まで紹介しものと同じく、プレイグラウンドのGUI上で行うだけでなく、ローカルや統合開発環境においてコードとして実行することも可能です。

サンプルコードは以下のAWSドキュメントで公開されていますのでご参照ください。

Code examples

画像条件付け

画像条件付けについては2つのモードがあります。

Canny Edge
参照画像から主要な輪郭を抽出し、それを基に画像生成を行います。
Segmentation
参照画像ないの特定の領域やオブジェクトを定義し、その領域に合わせて画像を生成します。

今回はこのうちSegmentationについて紹介します。

例えば以下のようなイラストを写真にしたいと思います。その場合、以下の画像を指定したうえで、テキストプロンプトに「a photo of men wearing yellow suits, background is dance floor」と指示します。

そうすると、以下のような画像が生成されます。イラストが見事に写真になりました。

イラストに映っている人のポーズもほとんど同じです。

このようにイラストが写真になるのは面白いですね。まるでマンガが実写化したかのようです。

この画像条件付けはプレイグラウンドで実施することは難しいため、コードを用いて実施する方が望ましいです。

コードのサンプルについては以下のURLで公開されています。

このうち「Image conditioning」がここで紹介している「画像条件付け」です。

このサンプルコードでは「"controlMode": "CANNY_EDGE”」と上記で記載した「Canny Edge」が設定されているため、必要に応じて「SEGMENTATION」に変更してください。

今後、本コラムにおいて実用的なコードの中身についても具体的に紹介できればと思います。

Code examples

背景除去

その名の通り、背景を削除することができます。

例えば、先ほど生成した以下の画像について背景を除去したいと思います。

背景除去についてはテキストプロンプトは必要ありません。

背景が除去されました。

背景除去についてはプレイグラウンドで簡単に実行することができます。

コードを使って実行することもできますが、プレイグラウンドで実行する方が早いように思います。

Nova Reelの具体的な利用方法について

Nova Reelではテキストや画像から映像を生成するということは前述した通りです。ここではその方法について具体的に紹介します。

テキストから映像作成

テキストを基に映像を作成します。

例えば、「bonfire in the night」と指示すると以下のような映像が作成されます。

現在は6秒の動画しか作成できませんが、例えばプレゼンテーション資料に入れたり、簡単な広告として利用できるように思えます。

テキストと画像から映像作成

画像を指定し、それに対してテキストで指示することで映像が作成されます。

テキストはカメラワークも指定することができます。

カメラワークについては例えば「dolly in」や「pan left」といったものですが、この具体的なカメラコントロールの内容についてはAWSの公式ドキュメントで公開されていますのでご参照ください。

Camera controls

例えば、私がハワイに新婚旅行に行った際の写真がこちらなのですが、これに対して「dolly in」と指定して映像を作成してみようと思います。

基となる画像

作成された映像

ドローン撮影のようにカメラが前へ進んでいく映像になりました。旅行の思い出がよみがえります。

歴史的な画像などもAmazon Reelを使用して動かしてみるのも面白そうです。

まとめ

新しく提供開始となったAmazon Novaですが、その活用方法は無限大であると感じます。

来年に提供開始予定の新しいモデルもあり、凄まじいスピードで進化しているAIですが、そのようにAIが進化して便利になるにつれて「それはどうやったら使えるのか」「どのように活用するのがいいのか」といったことも同じくらい早いスピードで考えなくてはならない時代であると感じます。本コラムがそうしたAI活用の検討における一助になれば幸いです。また、今回紹介した以外の部分についても別途執筆できればと思います。

NTT東日本では、AWSなどクラウドに関するお役立ち情報をメールマガジンにて発信していますので、ぜひこちらからご登録ください。