「AI最新ニュースまとめ」写真が話し始める時代へ。AlibabaのEMO AIが開く新しい映像の世界

AIによって自分の声がリアルに再現される?オリジナルゲームを作ってもらえる?便利に感じる反面、急速な進化についていけない不安もありませんか? 今週は、AIの可能性と課題の両面がわかる注目のニュースをご紹介します。

Tanaka Haruki
March 4, 2024

Alibabaが写真から話せる動画に変えるAI「EMO」を発表

Alibabaが新しいAIフレームワーク「EMO(Emote Portrait Alive)」を発表しました。この技術は、与えられた音声に合わせて、口の動きだけでなく、表情や頭の動き、まぶたの動きまでリアルに再現できます。自撮り写真から有名人や漫画のキャラクターまで、どんな画像も動くビデオに変えることができます。

特に注目すべきは、OpenAIが「Sora」動画で使用した「東京を歩く女性」のサンプルと同じものが含まれていることです。サングラスや大きなイヤリング、赤いシャツ、コートなど、細部にわたって一致しています。

Alibabaは以前、「Animate Anyone」モデルも発表し、写真からフルモーションの動画を生成する技術で高い評価を受けました。この技術は、既存の動画から人間の動きを抽出し、拡散モデル(Diffusion Model)を使って写真を動画に変えるものです。

EMOもまた、拡散モデル(Diffusion Model)を使用しており、映画やテレビ番組、公演などからなるデータセットで訓練され、50時間以上の映像と1億5000万枚以上の画像で学習しています。

EMOのアーキテクチャ

AlibabaのEMO AIによるリップシンク技術の新進化

Alibabaの「EMO」は、以下のような特徴を持つ、従来のリップシンク技術から一歩進んだ技術です。

  1. 直接オーディオからビデオへの変換:3D顔モデルに依存することなく、オーディオ波形を直接ビデオフレームに変換します。これにより、話し言葉に伴う細かな顔の動きや個性を捉えることができます。
  2. リアリズムの追求:人間の表情の幅広いスペクトルと個々の顔の特徴を捉え、よりリアルで表現力豊かなビデオを生成します。
  3. 拡張機能への焦点:EMOは、既存の画像やビデオを補完するためのツールとして開発されました。これにより、音声に合わせた口の動きを追加し、視覚的な体験を向上させます。

この技術は、映像制作の可能性を広げ、クリエイターに新たな道を開きます。EMO AIによって、今までにないほどリアルで生き生きとした動画コンテンツを作成できるようになります。

このモデルはGitHubで公開されています。

映像制作が変わる!Pika LabsによるAIリップシンク技術

Pika LabsがAI生成キャラクターに革新的なリップシンク機能を導入しました。映画やアニメのキャラクターが話しているシーンをよりリアルに再現することが、これまでの技術では難しい課題でした。しかし、Pika Labsの新しい機能によって、キャラクターの口の動きを実際の話し言葉にリアルタイムで合わせることができるようになり、映像作品に新しい表現を加えることができます。

この機能は、AIオーディオプラットフォームのElevenLabsとの協力により開発されました。クリエイターは、キャラクターに望む発言をさせることで、口の動きを自然に同期させたビデオを簡単に作成できるようになります。これはAIビデオ技術における重要な進展であり、キャラクター間の対話をより自然に表現することができるようになります。完璧ではありませんが、映像制作における新しい可能性を開くものです。

Pika Labsのリップシンク機能の特徴

  • リアルタイム同期:キャラクターの口の動きを、実際の発言にリアルタイムで合わせることができます。
  • 映像制作の新たな可能性:キャラクター間の対話をより自然に表現することが可能になります。

Pika Labsのこの技術は、映画やアニメなどの映像作品をよりリアルで表現力豊かにするための大きな一歩です。クリエイターにとっては、キャラクターに命を吹き込む新たなツールとなり、視聴者にとってはより没入感のある体験を提供します。今後もPika Labsの革新が映像制作の世界にどのような変化をもたらすか、大いに期待されます。

出典:Pika Labs

ゲームまで生成する「Genie」

Google DeepMindが開発した生成型AI Genieは、AI技術の新しい地平を開いています。この生成型インタラクティブ環境は、AIの創造性の限界を押し広げ、ユーザーに未知の世界を探索させる可能性を秘めています。

生成型AI: 「Genie」とは?

  • 生成型インタラクティブ環境:生成型AI Genieは、インターネット上のラベルのない動画から教師なし学習を行い、様々なアクションが可能な仮想世界を生成するモデルです。
  • 基盤となるワールドモデル:110億のパラメータを持つこのモデルは、インタラクティブな環境を創出する強力な基盤を提供します。

生成型AI Genieの特徴

  • テキストからビデオへ:任意のテキストプロンプトを動的な2Dワールドに変換し、画像を活動的にし、ユーザーが直接対話できるようにします。
  • 画像とスケッチの生成:テキストだけでなく、合成画像やスケッチからも環境を生み出すことができます。

既存のAIとの違い

  • 教師なしトレーニング:生成型AI 「Genie」は、既存の多くのAIモデルが依存する教師あり学習ではなく、ラベルのない動画から学習します。
  • 潜在的アクションスペース:未知のビデオから学習することで、エージェントが振る舞いを模倣し、より汎用的な能力を身につけることを可能にします。

生成型AI 「Genie」は、ゲーム開発者、アーティスト、研究者にとって、ダイナミックな仮想環境を創造する新たな可能性を提供します。この技術により、想像力と現実の間のギャップを埋め、インタラクティブな創造性の新しい領域が開かれます。

生成型AI 「Genie」の魅力とその無限の可能性について理解を深めてたい方は、この記事をご覧ください。⏩ 画像一枚でゲーム世界を創造!Google のGenieが開く未来

Adobeの新しい音楽制作ツールについて

音楽を作ることは、表現の一つの形です。そして今、Adobeが「Project Music GenAI Control」という新しいツールで、その表現の仕方を変えようとしています。このツールは、あなたの言葉で説明した音楽を作り出すことができます。例えば、「明るい日の散歩にぴったりな曲」や「雨の日に聴きたいジャズ」とテキストだけで、どんな音楽も作成できます。

つまり、このツールを使えば、専門的な知識がなくても、誰でも簡単に自分の音楽をことができます。つまり、あなたが指揮者となり、AIがオーケストラのようにあなたの指示に従って音楽を作り出します。

「Project Music GenAI Control」:できることは?

  • テンポや強さを変える:曲の速さやエネルギーを調整できます。
  • パターンや構造を変更:曲の流れや形を自由に変えられます。
  • 音楽を長くしたりループさせる:短いメロディを延長したり、ずっと繰り返し聴けるようにできます。

でも、まだ「Project Music GenAI Control」は、まだ開発の途中です。公開されるかどうかも含め、今後の進展を待つ必要があります。

「Project Music GenAI Control」:法的・倫理的な考慮は?

AIで作られた音楽が増えると、著作権などの問題も出てきます。Adobeは、この問題を避けるために、適切にライセンスされたデータや公共ドメインのデータを使用しています。

Adobeの「Project Music GenAI Control」は、音楽制作の世界に新しい風を吹き込むかもしれません。まだ研究段階ではありますが、このツールが実現すれば、もっと多くの人が音楽制作の楽しさを知り、新しい音楽の創造に挑戦できると思います。

出典:techcrunch.com

アップルがAIに目を向けた理由 - 電気自動車からの大転換

アップルが秘密にしていた電気自動車プロジェクトをやめて、人工知能(AI)に力を入れることにしました。これは、いつも新しい技術で私たちを驚かせるアップルにとって、大きな方向転換を意味しています。アップルのこの決断が何を意味するのか、自動車業界でAIがどんなメリットをもたらすのか、そしてそれがどんなビジネスチャンスを生み出すのかを見ていきます。

自動車業界でのAIのメリット

AIは、安全性を高めたり、運転の楽しさを増したりすることで、車の世界を根本から変えようとしています。例えば、事故を減らす安全機能や、運転手の好みに合わせたカスタマイズなどがあります。電気自動車にAIを取り入れることで、私たちの車に対する考え方や使い方が大きく変わるかもしれません。

アップルがAIに注力する理由

アップルがAIに戦略的にシフトしているのは、テクノロジー業界でAIが開発と投資のキーポイントとして重視されている流れを映しています。この変化は、アップルが将来の製品やサービスでAI技術を使うことが、電気自動車プロジェクトを進めるよりも大きな可能性を感じているからです。この判断には、EV市場の競争、車の製造コストの高さ、そしてAIが持つ様々な分野での広い可能性が関係しているかもしれません。

アップルのAI技術とは?

アップルがどんなAI技術を開発しているのかはまだはっきりしていませんが、電気自動車の性能を向上させるために、バッテリーの持ちを良くしたり、交通情報をリアルタイムで更新したりすることが期待されています。アップルの得意とするユーザーインターフェースの知識が、使いやすく直感的な車のシステムを生み出すかもしれません。

アップルがAIに目を向けた理由

電気自動車とビジネスチャンス

アップルが電気自動車のプロジェクトをやめたとしても、それは電気自動車への関心がないわけではありません。AIへの注力は、自動車の設計や機能にAIをどんどん取り入れていく中で、電気自動車の未来に大きな影響を与えるでしょう。また、この変化は、ソフトウェア開発やデータ分析など、AIを使った自動車ソリューションに新しいビジネスチャンスをもたらすことになります。

アップルが電気自動車からAIに焦点を移したことは、柔軟性と未来を見据えた姿勢を示しています。自動車業界でのAIのメリットは大きく、革新的な進歩をもたらす可能性があります。これからのAI、技術、自動車開発の交差点は、アップルが先頭に立つ、わくわくするような分野になるでしょう。

出典:ニューヨークタイムズ

AIと著作権の未来 - OpenAIとニューヨークタイムズの訴訟

最近、OpenAIがニューヨークタイムズからの著作権訴訟に対し、一部却下を求める動きがありました。

AIと著作権の未来

AIと著作権の未来について考える

AIの世界で大きな話題になっているのが、OpenAIとニューヨークタイムズの間で起きた著作権に関する訴訟です。この出来事は、AI技術と著作権法の関係について、新たな議論を生んでいます。ここでは、その訴訟の概要と、それが私たちの未来にどのような影響を与えるかを、簡単に説明します。

OpenAIの訴訟が始まった理由

ニューヨークタイムズは、自分たちの記事がOpenAIとマイクロソフトによって、許可なくAIの学習材料として使われたとして訴えを起こしました。これは、AIが学習するためにどのように著作物を使っていいのかという、大きな問題の一例です。

OpenAIの立場

OpenAIは、ニューヨークタイムズがChatGPTなどのAIを不適切に操作し、訴訟を有利に進めるために誤った情報を作り出したと反論しています。彼らは、ニューヨークタイムズの行動がオープンAIの利用規約に反する行為をしたと指摘しています。

これからのAIと著作権

この訴訟は、AIが著作権で保護されたコンテンツをどのように使用して良いのかという、根本的な問題を提起しています。多くの企業はAIによる使用を「公正な使用」と見なしていますが、この訴訟の結果が業界全体に大きな影響を与える可能性があります。

OpenAIとニューヨークタイムズの間で起きたこの訴訟は、AIと著作権の関係を再考する機会を提供しています。この訴訟の結果がどうなるかは、AI技術の将来にとって非常に重要であり、AIと著作権に関する議論は、専門家だけでなく、私たち一般人にとっても重要なものです。

この事件から学べることは多く、AI技術の進展と共に、著作権法もまた進化し続ける必要があることを示しています。AIと著作権の未来についての議論は、これからも続くでしょう。

出典:The Guardian


AI最新ニュースまとめ

AlibabaのEMO AI関するFAQ

Q1: AlibabaのEMO AIとは具体的にどのような技術ですか?

A1: AlibabaのEMO AIは、静止画をリアルタイムで動くビデオに変換する革新的な技術です。このAIは、与えられた音声に合わせて、口の動きだけでなく、表情や頭の動き、まぶたの動きまでリアルに再現することが可能です。自撮り写真から有名人やアニメのキャラクターまで、どんな画像も生き生きとした動画に変えることができます。

Q2: EMO AIの利用可能なシーンはどのようなものがありますか?

A2: EMO AIは、映像制作、アニメーション、ゲーム開発、バーチャルリアリティ、教育コンテンツ制作など、幅広い分野での利用が想定されています。特に、キャラクターのリップシンクや表情のリアリズムを高めることで、より没入感のある体験を提供することが可能になります。

Q3: EMO AIを使用することのメリットは何ですか?

A3: EMO AIを使用する最大のメリットは、高度なリアリズムと表現力を持った動画を簡単に作成できることです。3Dモデルやブレンドシェイプに依存せず、直接オーディオからビデオへの変換が可能なため、細かな顔の動きや個性を捉えたコンテンツを効率的に制作できます。これにより、クリエイターは創造性をより自由に発揮することができます。

Q4: EMO AIの技術的な特徴は何ですか?

A4: EMO AIの技術的な特徴としては、拡散モデルを使用している点が挙げられます。このモデルは、映画やテレビ番組、公演などからなる大規模なデータセットで訓練されており、50時間以上の映像と1億5000万枚以上の画像で学習しています。これにより、非常にリアルで自然な動きを再現することが可能になっています。

Q5: EMO AIを使ってみたい場合、どうすればいいですか?

A5: EMO AIを使ってみたい場合は、まずAlibabaが提供する公式サイトやGitHubページを訪れてください。そこでは、EMO AIの詳細な説明や使用方法、さらにはデモビデオなどが提供されています。技術的なサポートやコミュニティフォーラムを通じて、より深く学ぶことも可能です。興味がある方は、是非この革新的な技術を体験してみてください。

Pika Labsのリップシンク機能に関するFAQ

Q1: Pika Labsのリップシンク機能とは何ですか?

A1: Pika Labsのリップシンク機能は、キャラクターの口の動きを実際の発言にリアルタイムで合わせることができる技術です。AIオーディオプラットフォームElevenLabsとの協力により開発され、映像制作においてキャラクター間の対話をより自然に表現する新たな可能性を提供します。

Q2: リアルタイム同期とはどのようなメリットがありますか?

A2: リアルタイム同期の最大のメリットは、キャラクターの口の動きと音声が完璧に一致することで、視聴者によりリアルで没入感のある体験を提供できる点です。これにより、映画やアニメ、ゲームなどの映像作品の表現力が大幅に向上します。

「Genie」生成型AIに関するFAQ

Q1: 「Genie」とはどのようなAI技術ですか?

A1: 「Genie」はGoogle DeepMindによって開発された生成型AIで、インターネット上のラベルのない動画から教師なし学習を行い、ユーザーが直接対話できる様々なアクションが可能な仮想世界を生成します。このAIは、AIの創造性の限界を押し広げ、未知の世界を探索する新しい体験を提供します。

Q2: 「Genie」の特徴は何ですか?

A2: 「Genie」の主な特徴は、テキストプロンプトから動的な2Dワールドを生成できること、さらには画像やスケッチからも環境を生み出せることです。これにより、ユーザーは自分の想像力を具現化し、直接対話することが可能になります。また、110億のパラメータを持つ強力なワールドモデルが、リッチでインタラクティブな体験の基盤を提供します。

Q3: 「Genie」を使用することで何ができますか?

A3: 「Genie」を使用することで、ユーザーは自分だけの仮想世界を創造し、その中で様々なアクションを試みることができます。例えば、特定のテキストプロンプトに基づいて独自のゲーム環境を生成したり、画像をもとにした物語を展開させたりすることが可能です。これにより、ゲーム開発者、アーティスト、研究者などが、創造性を限界なく発揮できる新たなフィールドが開かれます。

Q4: 「Genie」の開発背景にはどのような思想がありますか?

A4: 「Genie」の開発背景には、AIの創造性を最大限に引き出し、ユーザーが未知の世界を自由に探索できるようにするという思想があります。Google DeepMindのOpen Endedness Teamは、AIが自ら学習し、ユーザーと共に成長することで、これまでにない体験を提供することを目指しています。

Q5: 「Genie」を体験するにはどうすればいいですか?

A5: 「Genie」を体験するためには、Google DeepMindの公式ウェブサイトや関連するプラットフォームで最新情報をチェックしてください。デモバージョンやアーリーアクセスプログラムが提供されている場合がありますので、興味のある方は積極的に参加してみると良いでしょう。また、開発チームが公開している資料やガイドを参照することで、より深い理解を得ることが可能です。

Adobeの新しい音楽制作ツール「Project Music GenAI Control」に関するFAQ

Q1: 「Project Music GenAI Control」とは具体的にどのようなツールですか?

A1: 「Project Music GenAI Control」はAdobeが開発した新しい音楽制作ツールで、ユーザーが言葉で説明した音楽をAIが作り出すことができる革新的なサービスです。例えば、「明るい日の散歩にぴったりな曲」や「雨の日に聴きたいジャズ」といった具体的なリクエストに基づいて、どんな音楽も生成することが可能です。

Q2: このツールを使うメリットは何ですか?

A2: 最大のメリットは、専門的な音楽制作の知識がなくても、誰でも簡単にオリジナルの音楽を作成できる点にあります。AIがユーザーの指示に従って音楽を生成するため、音楽制作のハードルが大きく下がり、より多くの人が音楽制作の楽しさを体験できます。

Q3: 「Project Music GenAI Control」でできることは?

A3: このツールでは、テンポや強さの調整、パターンや構造の変更、音楽を長くしたりループさせるなど、音楽制作に関する幅広いカスタマイズが可能です。ユーザーの創造性に合わせて、様々な音楽を自在に生成することができます。

Q4: 開発の途中と聞きましたが、現在の進捗はどのような状況ですか?

A4: 現在、「Project Music GenAI Control」は開発の途中段階にあり、公開されるかどうかも含め、今後の進展を待つ必要があります。Adobeはこのツールの完成度を高めるために、継続的に開発を進めています。最新情報については、Adobeの公式ウェブサイトや関連ニュースをチェックしてください。

Q5: 法的・倫理的な考慮はどのようにされていますか?

A5: Adobeは、AIで作られた音楽が著作権などの法的・倫理的な問題を引き起こさないよう、適切にライセンスされたデータや公共ドメインのデータを使用しています。Adobeはこの問題に対して非常に慎重に取り組んでおり、ユーザーが安心して音楽制作を楽しめるよう配慮しています。

アップルのAIへの転換に関するFAQ

Q1: アップルはなぜ電気自動車プロジェクトをやめてAIに注力することにしたのですか?

A1: アップルは、テクノロジー業界でAIが開発と投資のキーポイントとして重視されている流れを受け、将来の製品やサービスでAI技術を活用することにより、電気自動車プロジェクトを進めるよりも大きな可能性を感じたためです。これは、アップルにとって大きな方向転換を意味しています。

Q2: 自動車業界でAIがもたらすメリットは何ですか?

A2: AIは、安全性の向上、運転の楽しさの増加など、車の世界を根本から変える可能性を持っています。事故を減らす安全機能や、運転手の好みに合わせたカスタマイズなど、AIを取り入れることで私たちの車に対する考え方や使い方が大きく変わることが期待されます。

Q3: アップルが開発しているAI技術にはどのようなものがありますか?

A3: アップルが具体的にどのようなAI技術を開発しているかは明らかにされていませんが、電気自動車の性能を向上させるためのバッテリー持続力の改善や、交通情報のリアルタイム更新などが期待されています。また、アップルのユーザーインターフェースの知識を活かした、使いやすく直感的な車のシステムの開発も予想されます。

Q4: AIへの注力が電気自動車の未来にどのような影響を与えると思いますか?

A4: AIへの注力は、自動車の設計や機能にAIをどんどん取り入れていくことで、電気自動車の未来に大きな影響を与えるでしょう。これにより、ソフトウェア開発やデータ分析など、AIを使った自動車ソリューションに新しいビジネスチャンスが生まれる可能性があります。