JP7782941B2

JP7782941B2 - 動画生成方法、装置、機器、記憶媒体及びプログラム製品

Info

Publication number: JP7782941B2
Application number: JP2023578865A
Authority: JP
Inventors: リ，シンウェイ
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2023-04-19
Filing date: 2023-12-12
Publication date: 2025-12-09
Anticipated expiration: 2043-12-12
Also published as: US12148451B2; EP4472214A1; EP4472214A4; US20250087243A1; US20240355360A1; JP2025518428A; KR20250117699A

Description

本開示は、動画処理の技術分野に関し、特に動画生成方法、装置、機器、記憶媒体およびプログラム製品に関する。

コンピュータ技術と移動通信技術の急速な発展に伴い、電子機器に基づく各種の動画プラットフォームは一般的に利用されようになり、人々の日常生活を大いに豊かにしている。動画プラットフォームで自分の動画作品を共有し、他のユーザが視聴できるようにすることを楽しむユーザが増えている。

ユーザは動画作品を共有する前に、自分で編集して動画を作成する必要がある。動画を作成する際には、例えば画像、文章、音楽など、大量な動画素材を自分で探す必要がある。素材探しに長い時間がかかり、動画作成の非効率化につながる。

上記技術的課題を解決するために、本発明の実施例は、ユーザが入力したキーワードに基づいて文章を自動的に生成し、生成された文章に基づいて動画を自動的に生成する動画生成方法、装置、機器、記憶媒体及びプログラム製品を提供し、効率的なワンストップ動画作成方案を提供し、動画作成効率を向上させる。

第１の態様において、本開示の実施例は、動画生成方法を提供する。当該動画生成方法は、
動画文言の作成要件を記述するための第１のテキスト情報を取得することと、
前記第１のテキスト情報に基づいて第２のテキスト情報を生成することであって、前記第２のテキスト情報は、前記第１のテキスト情報に記述された作成要件に合致する文言情報であることと、
前記第２のテキスト情報に基づいて得られた第３のテキスト情報に基づいてマルチメディア編集データを生成することであって、前記マルチメディア編集データは、少なくとも１つの動画トラッククリップと少なくとも１つの音声トラッククリップとを含み、前記少なくとも１つの動画トラッククリップと前記少なくとも１つの音声トラッククリップは、それぞれ第３のテキスト情報によって区画された少なくとも１つのテキストクリップに対応し、前記ターゲット音声トラッククリップは、ターゲットテキストクリップとマッチングする読み上げ音声を充填するために使用され、前記少なくとも１つの動画トラッククリップにおけるターゲット動画トラッククリップと前記ターゲット音声トラッククリップとは、動画編集タイムライン上で同じタイムライン位置を占めることと、
前記マルチメディア編集データに基づいてターゲット動画を生成することと、
を含む。

第２の態様において、本開示の実施例は、動画生成装置を提供する。当該動画生成装置は、
第１のテキスト情報を取得するための第１のテキスト情報取得モジュールであって、第３のテキスト情報に基づいてマルチメディア編集データを生成する第１のテキスト情報取得モジュールと、
前記第１のテキスト情報に基づいて第２のテキスト情報を生成するための第２のテキスト情報生成モジュールであって、前記第２のテキスト情報は、前記第１のテキスト情報に記述された作成要件に合致する文言情報である第２のテキスト情報生成モジュールと、
前記第２のテキスト情報に基づいて得られた第３のテキスト情報に基づいてマルチメディア編集データを生成するためのマルチメディア編集データ生成モジュールであって、前記マルチメディア編集データは、少なくとも１つの動画トラッククリップと少なくとも１つの音声トラッククリップとを含み、前記少なくとも１つの動画トラッククリップと前記少なくとも１つの音声トラッククリップは、それぞれ第３のテキスト情報によって区画された少なくとも１つのテキストクリップに対応し、前記ターゲット音声トラッククリップは、ターゲットテキストクリップとマッチングする読み上げ音声を充填するために使用され、前記少なくとも１つの動画トラッククリップにおけるターゲット動画トラッククリップと前記ターゲット音声トラッククリップとは、動画編集タイムライン上で同じタイムライン位置を占めるマルチメディア編集データ生成モジュールと、
前記マルチメディア編集データに基づいてターゲット動画を生成するためのターゲット動画生成モジュールと、
を備える。

第３の態様において、本開示の実施例は、電子機器を提供する。当該電子機器は、
少なくとも１つのプロセッサと、
少なくとも１つのプログラムを格納する記憶装置と、を備える。
前記少なくとも１つのプログラムが前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに上記第１の態様のいずれか一つに記載の動画生成方法を実現させる。

第４の態様において、本開示の実施例は、コンピュータ読み取り可能な記憶媒体を提供する。当該コンピュータ読み取り可能な記憶媒体には、コンピュータプログラムが格納されている。当該コンピュータプログラムがプロセッサによって実行される際に、上記第１の態様のいずれか一つに記載の動画生成方法が実現される。

第５の態様において、本開示の実施例は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータプログラムまたは命令を含む。当該コンピュータプログラムまたは命令は、プロセッサによって実行される際に、上記第１の態様のいずれか１つに記載の動画生成方法を実現する。

本開示の実施例は、動画生成方法、装置、機器、記憶媒体及びプログラム製品を提供する。前記方法は、動画文言の作成要件を記述するための第１のテキスト情報を取得することと、前記第１のテキスト情報に基づいて第２のテキスト情報を生成することであって、前記第２のテキスト情報は、前記第１のテキスト情報に記述された作成要件に合致する文言情報であることと、前記第２のテキスト情報に基づいて得られた第３のテキスト情報に基づいてマルチメディア編集データを生成することであって、前記マルチメディア編集データは、少なくとも１つの動画トラッククリップと少なくとも１つの音声トラッククリップとを含み、前記少なくとも１つの動画トラッククリップと前記少なくとも１つの音声トラッククリップは、それぞれ第３のテキスト情報によって区画された少なくとも１つのテキストクリップに対応し、前記ターゲット音声トラッククリップは、ターゲットテキストクリップとマッチングする読み上げ音声を充填するために使用され、前記少なくとも１つの動画トラッククリップにおけるターゲット動画トラッククリップと前記ターゲット音声トラッククリップとは、動画編集タイムライン上で同じタイムライン位置を占めることと、前記マルチメディア編集データに基づいてターゲット動画を生成することと、を含む。本発明の実施例において、動画文言の作成要件に基づいて、記述された作成要件の文言情報を生成し、さらに、生成された文言情報によってターゲット動画を作成することによって、効率的なワンストップ動画作成方案を提供し、動画作成効率を向上させる。

図面に合わせて以下の具体的な実施形態を参照すると、本開示の各実施例の上記および他の特徴、利点、および態様がより明らかになるであろう。図面全体を通して、同一又は類似の符号は、同一又は類似の要素を表す。図面は模式的なものであり、原本及び要素は必ずしも比例的に描かれていないことが理解されるべきである。

本開示の実施例に係る動画生成方法のフロー模式図である。本開示の実施例に係る動画作成ページの模式図である。本開示の実施例に係る文言入力画面の模式図である。本開示の実施例に係るマルチメディア編集ページの模式図である。本開示の実施例に係る動画生成方法のフロー模式図である。本開示の実施例に係る文言入力画面の模式図である。本開示の実施例における文言入力画面の模式図である。本開示の実施例における文言入力画面の模式図である。本開示の実施例における文言入力画面の模式図である。本発明の実施例における動画生成装置の構成模式図である。本開示の実施例における電子機器の構成模式図である。

以下、図面を参照して、本開示の実施例についてより詳細に説明する。図面に本開示のいくつかの実施例が示されているが、本開示は様々な形態で実現されることができ、ここに記述された実施例に限定されるものとして解釈されるべきではなく、むしろ、本開示をよりはっきり且つ完全に理解するためにこれらの実施例が提供されることが理解されるべきである。本開示の図面および実施例は、例示のためにのみ使用され、本開示の保護の範囲を制限するために使用されるものではないことが理解されるべきである。

本開示の方法実施形態に記載された各ステップは、異なる順序で実行されても、および／または並行して実行されてもよいことが理解されるべきである。さらに、方法実施形態は、追加されたステップを包含しても、および／または示されたステップの実行を省略してもよい。本開示の範囲は、この点について限定されない。

本明細書で使用される「含む」という用語およびその変形は、非限定的な包含であり、すなわち「……を含むが、……に限定されない」である。「……に基づく」という用語は、「……に少なくとも部分的に基づく」である。「１つの実施例」という用語は、「少なくとも１つの実施例」を意味し、「別の実施例」という用語は、「少なくとも１つの別の実施例」を意味し、「いくつかの実施例」という用語は、「少なくともいくつかの実施例」を意味する。他の用語の関連する定義は、以下の説明で与えられる。

なお、本開示で言及されている「第１の」、「第２の」などの概念は、異なる装置、モジュール、またはユニットを区別するためにのみ使用され、これらの装置、モジュール、またはユニットによって実行される機能の順序または相互依存関係を限定するものではない。

なお、本開示で言及されている「１つ」、「複数」の修飾は、限定的ではなく模式的なものであり、文脈において別段の明示的な提示がない限り、「少なくとも１つ」と理解されるべきであることが、当業者であれば理解されるべきであろう。

本開示の実施形態における複数の装置間でやり取りするメッセージまたは情報の名称は、単に説明のために使用されるものであり、これらのメッセージまたは情報の範囲を限定するために使用されるものではない。

以下、図面を参照して、本開示の実施例について詳細に説明する。異なる図面における同じ符号は、記載された同じ素子を指すために使用されることに留意されたい。

図１は、本開示の実施例における動画生成方法のフローチャートである。本実施例は、キーワードから動画を生成する場合に適用可能である。当該方法は、動画生成装置によって実行可能である。当該動画生成装置は、ソフトウェアおよび／またはハードウェアの方式で実現可能である。当該動画生成方法は、電子機器に適用可能である。

上記の電子機器は、データ処理を実行可能な任意の他のタイプの電子機器であってもよく、携帯電話、サイト、ユニット、機器、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、通信機、デスクトップコンピュータ、ラップトップコンピュータ、ノートパソコン、ネットブックコンピュータ、タブレットコンピュータ、パーソナル通信システム（ＰＣＳ）機器、パーソナルナビゲーション機器、パーソナルデジタルアシスタント（ＰＤＡ）、音声／動画プレーヤ、デジタルカメラ／動画カメラ、測位機器、テレビ受信機、ラジオ放送受信機、電子書籍機器、ゲーム機器、またはこれらの任意の組み合わせを含んでもよいがこれらに限定されず、これらの機器のアクセサリおよび周辺機器またはこれらの任意の組み合わせを含むことが理解されるであろう。

図１に示すように、本発明の実施例に係る動画生成方法は、主にステップＳ１０１～Ｓ１０４を含む。

Ｓ１０１において、動画文言の作成要件を記述するための第１のテキスト情報を取得する。

本開示の１つの実施形態において、動画文言の作成要件は、ユーザが生成したいターゲット動画のキーコンテンツであってもよい。具体的には、前記第１のテキスト情報は、動画文言を記述する１つまたは複数のキーワードであってもよいし、または１つまたは複数のトピックワードであってもよい。

１つの例示的な説明において、ユーザは「映画の推薦」に関する動画を作成したい。第１のテキスト情報には、「映画」、「２０２３年」、「受賞」、「好評」等が含まれてもよい。ユーザは「携帯電話のセールスポイント」に関する動画を作成したい。第１のテキスト情報には、「携帯電話のモデル」、「超大型画面」、「優れたバッテリの持ち」、「手頃な価格」等が含まれてもよい。

本開示の１つの実施形態において、第１のテキスト情報を取得することは、ユーザの入力操作に応じて、入力操作に対応する第１のテキスト情報を取得することを含む。具体的には、動画作成フロントページにテキスト作成動画コントロールが提示され、前記テキスト作成動画コントロールに対するトリガ操作に応じて、動画作成画面が表示される。図２に示すように、前記動画作成画面には、テキスト作成領域２１と、動画カテゴリ選択領域２２と、動画生成コントロール２３とが含まれる。テキスト作成領域２１には、テキスト表示領域とインテリジェントテキスト生成コントロールとが含まれている。前記テキスト表示領域は、マルチメディア編集データを生成する第３のテキスト情報を表示するためである。前記インテリジェントテキスト生成コントロールは、ユーザのトリガ操作に応じて、文言入力画面を表示するためである。

本開示の１つの実施形態において、図３に示すように、文言入力ページには、ユーザの入力操作に応じてユーザが入力したテキスト情報を表示する文言入力領域３１が含まれる。

図３に示すように、文言入力領域３１には、ユーザの入力操作に応じて第１のテキスト情報を取得するための入力ボックスが含まれる。

Ｓ１０２において、前記第１のテキスト情報に基づいて第２のテキスト情報を生成する。前記第２のテキスト情報は、前記第１のテキスト情報に記述された作成要件に合致する文言情報である。

本開示の実施例において、前記第２のテキスト情報は、作成要件に合致する文言情報を意味する。さらに、前記第２のテキスト情報は、前後のつながりを持ち、文句が通じる文章である。前記第２のテキスト情報は、１つの段落を有していてもよいし、複数の段落を有していてもよい。第２のテキスト情報は、インテリジェント文言生成アルゴリズムによって第１のテキスト情報に基づいて生成されてもよい。インテリジェント文言生成アルゴリズムの具体的な実施形態については、本開示の実施例においてこれ以上説明しない。

図３に示すように、文言入力領域３１における入力ボックスに対する確認操作に応じて、第１のテキスト情報に基づいて第２のテキスト情報が生成され、生成された第２のテキスト情報が文言入力領域３１に表示される。

Ｓ１０３において、前記第２のテキスト情報に基づいて得られた第３のテキスト情報に基づいてマルチメディア編集データを生成する。前記マルチメディア編集データは、少なくとも１つの動画トラッククリップと少なくとも１つの音声トラッククリップとを含む。前記少なくとも１つの動画トラッククリップと前記少なくとも１つの音声トラッククリップは、それぞれ前記第３のテキスト情報によって区画された少なくとも１つのテキストクリップに対応する。前記少なくとも１つの音声トラッククリップにおけるターゲット音声トラッククリップは、ターゲットテキストクリップとマッチングする読み上げ音声を充填するために使用される。前記少なくとも１つの動画トラッククリップにおけるターゲット動画トラッククリップと前記ターゲット音声トラッククリップとは、動画編集タイムライン上で同じタイムライン位置を占める。

本開示の１つの実施形態において、前記第３のテキスト情報は、１つまたは複数の第２のテキスト情報、編集された第２のテキスト情報、およびユーザによって編集された他のテキスト情報のうちの１つまたは複数の組み合わせを含んでもよい。

本開示の１つの実施形態において、ステップＳ１０１～Ｓ１０２を複数回実行し、複数の第２のテキスト情報を生成してもよいし、生成された第２のテキスト情報を編集変更してもよいし、文言入力領域３１にテキスト情報をマニュアルで入力してもよい。

本開示の１つの実施形態において、図３に示すように、文言入力領域３１における「完了」コントロールに対するトリガ操作に応じて、図２に示す動画作成画面に切り替えられ、前記動画作成画面に第３のテキスト情報が表示される。

本開示の１つの実施形態において、動画作成画面に第３のテキスト情報が表示されている場合に、動画生成コントロール２３に対するトリガ操作に応じて、第３のテキスト情報に基づいてマルチメディア編集データが生成され、マルチメディア編集画面に前記マルチメディア編集データが表示される。

本開示の１つの実施形態において、前記マルチメディア編集データには、前記ターゲットテキストクリップとマッチングする字幕情報を充填するための少なくとも１つの字幕トラッククリップがさらに含まれる。

本開示の１つの実施形態において、前記マルチメディア編集データには、バックグラウンドミュージックを充填するための少なくとも１つのバックグラウンドミュージックトラッククリップがさらに含まれる。

本開示の１つの実施形態において、図４に示すように、マルチメディア編集画面には、マルチメディア編集データによって生成されたターゲット動画をプレビューするための動画プレビュー領域４１と、マルチメディアトラック領域４２とが含まれてもよい。マルチメディアトラック領域４２に表示されるマルチメディア編集データには、動画トラッククリップと、音声トラッククリップと、バックグラウンドミュージックトラッククリップとが含まれてもよい。

本開示の１つの実施形態において、前記少なくとも１つの音声トラッククリップのターゲット音声トラッククリップは、前記ターゲットテキストクリップとマッチングする読み上げ音声を充填するために使用される。前記少なくとも１つの動画トラッククリップにおけるターゲット動画トラッククリップと前記ターゲット音声トラッククリップとは、動画編集タイムライン上で同じタイムライン位置を占める。

本開示の１つの実施形態において、前記ターゲットテキストクリップは、第３のテキスト情報によって区画された１つのテキストクリップであってもよい。当該テキストクリップは、１つの文であってもよく、言語の区切り規則に従って構成された不完全な文であってもよく、複数の文であってもよく、本開示の実施例において特に限定されるものではない。ターゲット動画トラッククリップは、ターゲットテキストクリップに対応する動画クリップを指す。ターゲット音声トラッククリップは、ターゲットテキストクリップに対応する音声クリップを指す。

なお、バックグラウンドミュージックトラッククリップにおけるバックグラウンドミュージックは、テキストクリップによって区画されず、完全な音声ファイルに充填される。

本開示の１つの実施形態において、前記ターゲット動画トラッククリップは空クリップである。

本開示の実施形態において、図２に示すように、動画作成画面における「第１の動画カテゴリ」コントロールに対するトリガ操作に応じて、マルチメディア編集データにおける動画トラッククリップを空クリップに設定する。即ち、動画トラッククリップにピクチャまたは動画画像を追加しない。

さらに、空クリップに対するユーザによる操作に応じて、ユーザによって選択されたピクチャを空クリップに追加する。言い換えれば、ユーザは、作成して完成されたターゲット動画がユーザの希望により合致するように、ユーザによって選択されたピクチャを空クリップに充填してもよい。

本開示の１つの実施形態において、前記ターゲット動画トラッククリップは、前記ターゲットテキストクリップにマッチングする動画画像を充填するために使用される。

本開示の実施形態において、図２に示すように、動画作成画面における「第２の動画カテゴリ」コントロールに対するトリガ操作に応じて、テキストクリップにマッチングする動画画像をマルチメディア編集データにおける動画トラッククリップに充填する。当該動画画像は、画像マッチングアルゴリズムに基づいて、予め設定されたピクチャデータベース内でテキストクリップのマッチングに基づいて得ることができる。

本開示の１つの実施形態において、動画画像は、テキストコンテンツに基づいてピクチャデータベース内で自動的にマッチングしてもよい。これにより、ユーザが時間をかけて素材を探すことを回避し、動画作成効率をさらに向上させる。

本開示の１つの実施形態において、前記ターゲット動画トラッククリップは、前記ターゲットテキストクリップにマッチングする表情画像を充填するために使用される。

本開示の実施形態において、図２に示すように、動画作成画面における「第３の動画カテゴリ」コントロールに対するトリガ操作に応じて、テキストクリップにマッチングする表情画像をマルチメディア編集データにおける動画トラッククリップに充填する。当該表情画像は、予め設定されたアルゴリズムに基づいて、予め設定された表情画像データベース内でテキストクリップのマッチングに基づいて得ることができる。

本開示の１つの実施形態において、表情画像は、テキストコンテンツに基づいて表情画像データベース内で自動的にマッチングしてもよい。これにより、テキストコンテンツに基づいてより個性のある動画を作成してもよい。

本開示の実施例において、表情画像データベースとピクチャデータベースを２つのデータベースに分けることにより、１つの動画内に通常のピクチャと表情画像の両方が存在することによって生じる動画スタイルの不統一の問題を避けることができる。

Ｓ１０４において、前記マルチメディア編集データに基づいてターゲット動画を生成する。

本開示の１つの実施例において、動画完成のトリガ操作に応じて、マルチメディア編集データに基づいてターゲット動画が生成される。

本開示の１つの実施形態において、動画「完了」のトリガ操作は、マルチメディア編集画面における「エクスポート」コントロールに対するトリガ操作を指す場合がある。エクスポート方式は、ターゲット動画をローカルに保存することであってもよいし、ターゲット動画を他の動画共有プラットフォームまたはウェブサイトに共有することであってもよい。本開示の実施例において、具体的には限定されない。

本開示の１つの実施形態において、マルチメディア編集画面における「インポートして編集」コントロールに対するトリガ操作に応じて、マルチメディア編集データを動画エディタにインポートし、マルチメディア編集データに対して後続の編集を行う。

上記の実施例に加えて、本開示の実施例は、動画生成方法をさらに最適化する。図５に示すように、最適化された動画生成方法は、主に以下のステップを含む。

Ｓ２０１において、動画文言の作成要件を記述するための第１のテキスト情報を取得する。

本開示の実施例に係るステップＳ２０１は、上記の実施例に係るステップＳ１０１における具体的な実行フローと同じであり、具体的には上記の実施例における記述を参照すればよいので、本開示の実施例においてその詳細を省略する。

Ｓ２０２において、前記第１のテキスト情報に基づいて、少なくとも１つの候補文言情報を生成する。前記少なくとも１つの候補文言情報は、いずれも前記第１のテキスト情報が示す作成要件に合致する。

本開示の１つの実施形態において、複数の文言カテゴリの中からターゲット文言カテゴリを特定する。前記候補文言情報は、前記ターゲット文言カテゴリと前記第１のテキスト情報に基づいて生成されたものである。前記第２のテキスト情報の文言カテゴリは、前記ターゲット文言カテゴリである。

本開示の１つの実施形態において、前記文言カテゴリは、形成された文言が属するカテゴリを指す。具体的には、文言カテゴリには、第１の文言カテゴリと、第２の文言カテゴリとが含まれてもよい。第１の文言カテゴリは、ユーザが各種のトピックに一般的に適用する文言カテゴリと理解してもよい。具体的には、各種のトピックとしては、科学技術、経済、娯楽等を含む。第２の文言カテゴリは、製品企画類又は製品マーケティング類に適用される文言カテゴリと理解してもよい。具体的には、ある携帯電話のセールスポイントの紹介であってもよいし、或いはあるアイテムのおすすめ理由の紹介であってもよい。

本開示の１つの実施形態において、ターゲット文言カテゴリは、ユーザの選択に基づいて決定されてもよい。それぞれのターゲット文言カテゴリは、１つのインテリジェント文言生成アルゴリズムモデルに対応する。

本開示の１つの実施形態において、前記文言入力画面には、「第１の文言カテゴリ」コントロールと、「第２の文言カテゴリ」コントロールとが含まれる。当該「第１の文言カテゴリ」コントロールは、ユーザのトリガ操作に応じて、第１の文言カテゴリコントロールに対応する文言カテゴリをターゲット文言カテゴリとする。当該「第２の文言カテゴリ」コントロールは、ユーザのトリガ操作に応じて、第２の文言カテゴリコントロールに対応する文言カテゴリをターゲット文言カテゴリとする。

図３に示すように、文言入力画面には「第１の文言カテゴリ」コントロールと「第２の文言カテゴリ」コントロールが表示されている。本開示の実施例において、異なる文言カテゴリコントロールは異なるプロンプト情報に対応し、異なる文言カテゴリコントロールは異なるインテリジェント文言生成アルゴリズムモデルに対応する。

本開示の１つの実施形態において、前記「第１の文言カテゴリ」コントロールに対する選択操作に応じて、文言入力領域３１における「入力ボックス」に「第１のカテゴリの文言を１段落書きなさい。トピックは、」という提示情報が表示される。ユーザは、提示情報の後に第１のテキスト情報を挿入してもよい。「入力ボックス」に対する確認操作に応じて、第１のテキスト情報を取得し、第１の文言カテゴリと第１のテキスト情報とに基づいて、少なくとも１つの候補文言情報を生成する。

本開示の１つの実施形態において、第１の文言カテゴリと第１のテキスト情報とに基づいて、少なくとも１つの候補文言情報を生成することは、第１の文言カテゴリに基づいて第１の文言カテゴリに対応する第１のインテリジェント文言生成アルゴリズムを呼び出し、前記第１のインテリジェント文言生成アルゴリズムを利用して前記第１のテキスト情報を処理し、複数の候補文言情報を生成することを含む。

本開示の１つの実施形態において、前記「第２の文言カテゴリ」コントロールに対する選択操作に応じて、文言入力領域３１における入力ボックスに「第２のカテゴリの文言を１段落書きなさい。製品とセールスポイントは、」という提示情報が表示される。ユーザは、提示情報の後に第１のテキスト情報を入力してもよい。「入力ボックス」に対する確認操作に応じて、第１のテキスト情報を取得し、第２の文言カテゴリと第１のテキスト情報とに基づいて、少なくとも１つの候補文言情報を生成する。

本開示の１つの実施形態において、第２の文言カテゴリと第１のテキスト情報とに基づいて、少なくとも１つの候補文言情報を生成することは、第２の文言カテゴリに基づいて第２の文言カテゴリに対応する第２のインテリジェント文言生成アルゴリズムを呼び出し、前記第２のインテリジェント文言生成アルゴリズムを利用して前記第１のテキスト情報を処理し、複数の候補文言情報を生成することを含む。

なお、第１のインテリジェント文言生成アルゴリズムと第２のインテリジェント文言生成アルゴリズムは、異なる２つのインテリジェント文言生成アルゴリズムである。

本開示の１つの実施形態において、上記２つのインテリジェント文言生成アルゴリズムが使用する基礎ネットワークモデルは、同一であってもよいし、異なってもよい。上記２つのインテリジェント文言生成アルゴリズムのトレーニング方法は、同一であってもよいし、異なってもよい。なお、第１のインテリジェント文言生成アルゴリズムと第２のインテリジェント文言のトレーニングサンプルは異なる。第１のインテリジェント文言生成アルゴリズムのトレーニングサンプルは、第１の文言カテゴリの文言情報である。第２のインテリジェント文言生成アルゴリズムのトレーニングサンプルは、第２の文言カテゴリの文言情報である。

Ｓ２０３において、ユーザによってトリガされた切替操作に応じて、文言入力画面において前記少なくとも１つの候補文言情報のうちの異なる候補文言情報を切り替えて表示する。

本開示の１つの実施形態において、文言入力画面には、候補文言情報を表示するための候補テキスト領域が含まれる。具体的には、前記候補文言領域は、挿入された形で文言入力領域３１に表示される。

本開示の１つの実施形態において、前記文言入力画面には、前記候補文言領域において前記少なくとも１つの候補文言情報のうちの異なる候補文言情報が切り替えて提示されるように、前記切替操作をトリガするための文言「切替」コントロールが含まれる。

本開示の１つの実施形態において、図６に示すように、前記候補文言領域は挿入された形で文言入力領域３１に表示されている。前記候補文言領域６１には、「第１のテキスト切替」コントロール６２と「第２のテキスト切替」コントロール６３とが含まれる。

本開示の１つの実施形態において、複数の候補文言情報は設定された順序で配列されている。第１のテキスト切替コントロール６２は、ユーザのトリガ操作に応じて、配列順序が現在の候補文言情報よりも前の候補文言情報を候補テキスト領域に表示するために使用される。第２のテキスト切替コントロール６３は、ユーザのトリガ操作に応じて、列順序が現在の候補文言情報よりも配後の候補文言情報を候補テキスト領域に表示するために使用される。

本開示の１つの実施形態において、候補文言情報が５つあることを例に説明する。５つの候補文言情報は、順に候補文言情報Ａ、候補文言情報Ｂ、候補文言情報Ｃ、候補文言情報Ｄ、候補文言情報Ｅである。候補文言領域には、表示順位が最上位となる文言候補情報Ａが表示される。第２のテキスト切替コントロール６３に対するトリガ操作に応じて、候補文言領域に候補文言情報Ｂが表示される。このとき、第１のテキスト切替コントロール６２に対するトリガ操作に応じて、候補文言領域に候補文言情報Ａが表示される。

Ｓ２０４において、ユーザによってトリガされた確認操作に応じて、前記少なくとも１つの候補文言情報のうち、切り替えられて前記文言入力画面に表示される候補文言情報を前記第２のテキスト情報として決定する。

本開示の１つの実施形態において、前記文言入力画面には、文言確認コントロールが含まれる。前記文言確認コントロールは、前記す少なくとも１つの候補文言情報のうち、切り替えられて前記候補文言領域に表示される候補文言情報を前記第２のテキスト情報として決定され、前記文言入力領域に前記第２のテキスト情報が表示されるように、前記確認操作をトリガするために用いられる。

本開示の１つの実施形態において、図６に示すように、候補文言領域６１には、文言確認コントロールが含まれている。前記文言確認コントロールに対するトリガ操作に応じて、前記候補文言領域に表示されている候補文言情報は、前記第２のテキスト情報として決定され、前記文言入力領域３１において前記第２のテキスト情報が表示される。

本開示の１つの実施形態において、前記少なくとも１つの候補文言情報が生成された後、前記候補文言領域に表示されている候補文言情報が、前記文言入力領域におけるユーザ入力位置に挿入される。前記確認操作が応答された場合に、前記候補文言領域は前記文言入力領域内から削除される。

本開示の１つの実施形態において、図６に示すように、候補文言領域６１に表示されている候補文言情報（ＡＡＡＡＡ）は、前記文言入力領域３１におけるユーザ入力位置に挿入される。前記ユーザ入力位置は、候補文言情報が生成される前にカーソルがあった位置である。さらに、前記文言確認コントロールに対するユーザによるトリガ操作に応じて、候補文言領域は削除される。

本開示の１つの実施形態において、図７ａに示すように、前記少なくとも１つの候補文言情報が生成される前に前記文言入力領域内に他のテキスト情報が存在しなかった場合に、前記第２のテキスト情報が決定された後に、前記文言入力領域３１に前記第２のテキスト情報が表示され、候補文言領域６１が削除される。

Ｓ２０５において、第２のテキスト情報に基づいて第３のテキストを生成する。

本開示の１つの実施形態において、前記少なくとも１つの候補文言情報が生成される前に前記文言入力領域内に第４のテキスト情報が表示されている場合に、前記第２のテキスト情報が決定された後に、前記文言入力領域において前記第２のテキスト情報と前記第４のテキスト情報とが融合した第５のテキスト情報が表示される。

本開示の実施例において、第４のテキスト情報は、ユーザが手動で入力したテキスト情報であってもよいし、ステップＳ２０１～Ｓ２０４で決定された第２のテキスト情報であってもよいし、ユーザが編集・変更したテキスト情報であってもよい。

本発明の実施例において、図７ｂに示すように、前記少なくとも１つの候補文言情報が生成される前に前記文言入力領域３１内に第４のテキスト情報（＃＃＃＃＃＃＃）が表示されており、且つユーザ入力位置が第４のテキスト情報の末尾にある場合に、候補文言領域６１が第４のテキスト情報の末尾に表示される。文言確認コントロールに対するユーザによるトリガ操作に応じて、候補文言領域が削除され、前記第２のテキスト情報（ＡＡＡＡＡＡ）が前記第４のテキスト情報（＃＃＃＃＃＃＃）の末尾につなぎ合わされることにより、図７ｂに示すように、第５のテキスト情報（＃＃＃＃＃＃＃ＡＡＡＡＡＡ）が形成される。図７ｂにおいて、ユーザ入力位置が第４のテキスト情報の末尾にある場合を例に説明する。

本開示の１つの実施形態において、前記ユーザ入力位置が前記第４のテキスト情報の中間位置にある場合に、前記文言入力領域において前記第４のテキスト情報が前記候補文言領域によって前記中間位置から切り分けられて前記候補文言領域の両側に表示される。前記第５のテキスト情報における前記第２のテキスト情報が前記第４のテキスト情報の中間位置に挿入される。

本開示の実施例において、図７ｃに示すように、前記少なくとも１つの候補文言情報が生成される前に前記文言入力領域３１内に第４のテキスト情報（＃＃＃＃＃＃＃）が表示されており、且つユーザ入力位置が第４のテキスト情報の中間位置にある場合に、候補文言領域６１が文言入力領域３１における第４のテキスト情報をユーザ入力位置から切り分け、切り分けられた２つの部分の第４のテキスト情報を、候補文言領域６１の両側にそれぞれ表示する。さらに、文言確認コントロールに対するユーザによるトリガ操作に応じて、候補文言領域が削除され、前記第２のテキスト情報（ＡＡＡＡＡＡ）が前記第４のテキスト情報（＃＃＃＃＃＃＃）の中間位置に挿入され、図７ｃに示すように、第５のテキスト情報（＃＃＃ＡＡＡＡＡＡ＃＃＃＃）が形成される。図７ｃにおいて、ユーザ入力位置が第４のテキスト情報の中間位置にある場合を例に説明する。

本開示の１つの実施形態において、ユーザの入力操作に応じて、前記第５のテキスト情報を編集して、前記第３のテキスト情報を得ることをさらに含む。

本開示の１つの実施形態において、図７ａ、７ｂ、７ｃに示すように、文言入力領域３１においてインテリジェント文言生成コントロールが含まれている。当該インテリジェント文言生成コントロールに対するトリガ操作に応じて、確認済みテキスト情報を含む図３に示すようなページが表示される。図３に示すような文言編集画面に対する操作に応じて、新たな第２のテキスト情報の生成が開始される。

本開示の１つの実施形態において、文言入力領域３１に対するユーザの編集操作に応じて、第５のテキスト情報を編集し、第３のテキスト情報を得る。前記編集には、入力、削除、コピー、貼り付けなどの操作が含まれる。

本開示の１つの実施形態において、文言入力領域３１における「完了」コントロールに対するトリガ操作に応じて、文言入力画面が閉じられ、（図２に示すように）第３のテキスト情報がテキスト作成領域２１において表示される。

Ｓ２０６において、第３のテキスト情報に基づいてマルチメディア編集データを生成する。

Ｓ２０７において、前記マルチメディア編集データに基づいてターゲット動画を生成する。

本開示の実施例に係るステップＳ２０６～Ｓ２０７は、上記の実施例に係るステップＳ１０３～Ｓ１０４における具体的な実行フローと同じであるため、具体的には上記の実施例における記述を参照すればよいので、本開示の実施例においてその詳細を省略する。

図８は、本開示の実施例における動画生成装置の構成模式図である。本実施例は、入力テキストから動画を生成する場合に適用可能である。当該動画生成装置は、ソフトウェアおよび／またはハードウェアの方式で実現可能である。

図８に示すように、本開示の実施例に係る動画生成装置８０は、主に、第１のテキスト情報取得モジュール８１と、第２のテキスト情報生成モジュール８２と、マルチメディア編集データ生成モジュール８３と、ターゲット動画生成モジュール８４とを備える。

第１のテキスト情報取得モジュール８１は、第１のテキスト情報を取得するために使用される。第３のテキスト情報に基づいてマルチメディア編集データを生成する。第２のテキスト情報生成モジュール８２は、前記第１のテキスト情報に基づいて第２のテキスト情報を生成するために使用される。前記第２のテキスト情報は、前記第１のテキスト情報に記述された作成要件に合致する文言情報である。マルチメディア編集データ生成モジュール８３は、前記第２のテキスト情報に基づいて得られた第３のテキスト情報に基づいてマルチメディア編集データを生成するために使用される。前記マルチメディア編集データは、少なくとも１つの動画トラッククリップと少なくとも１つの音声トラッククリップとを含む。前記少なくとも１つの動画トラッククリップと前記少なくとも１つの音声トラッククリップとは、それぞれ第３のテキスト情報によって区画された少なくとも１つのテキストクリップに対応する。前記ターゲット音声トラッククリップは、ターゲットテキストクリップとマッチングする読み上げ音声を充填するために使用される。前記少なくとも１つの動画トラッククリップにおけるターゲット動画トラッククリップと前記ターゲット音声トラッククリップとは、動画編集タイムライン上で同じタイムライン位置を占める。ターゲット動画生成モジュール８４は、前記マルチメディア編集データに基づいてターゲット動画を生成するために使用される。

本開示の１つの実施形態において、第２のテキスト情報生成モジュール８２は、候補文言情報生成ユニットと、候補文言情報切替ユニットと、候補文言情報確認ユニットとを備える。当該候補文言情報生成ユニットは、前記第１のテキスト情報に基づいて、少なくとも１つの候補文言情報を生成するために用いられる。前記少なくとも１つの候補文言情報は、いずれも前記第１のテキスト情報が示す作成要件に合致する。当該候補文言情報切替ユニットは、ユーザによってトリガされた切替操作に応じて、文言入力画面において前記少なくとも１つの候補文言情報のうちの異なる候補文言情報を切り替えて表示するために用いられる。当該候補文言情報確認ユニットは、ユーザによってトリガされた確認操作に応じて、前記少なくとも１つの候補文言情報のうち、切り替えられて前記文言入力画面に表示される候補文言情報を前記第２のテキスト情報として決定する。

本開示の１つの実施形態において、前記文言入力画面には、文言入力領域と候補文言領域とが含まれている。前記文言入力画面には、文言切替コントロールが含まれている。前記文言切替コントロールは、前記候補文言領域において前記少なくとも１つの候補文言情報のうちの異なる候補文言情報が切り替えて表示されるように、前記切替操作をトリガするために用いられる。前記文言入力画面には、文言確認コントロールが含まれる。前記文言確認コントロールは、前記候補文言領域において提示されている候補文言情報を前記第２のテキスト情報として決定されて、前記文言入力領域において前記第２のテキスト情報が表示されるように、前記確認操作をトリガするために用いられる。

本開示の１つの実施形態において、前記ユーザ入力位置が前記第４のテキスト情報の中間位置にある場合に、前記文言入力領域において前記第４のテキスト情報が前記候補文言領域によって前記中間位置から切り分けられて前記候補文言領域の両側に表示され、前記第５のテキスト情報における前記第２のテキスト情報が前記第４のテキスト情報の中間位置に挿入される。

本開示の１つの実施形態において、ユーザの入力操作に応じて、前記第５のテキスト情報を編集し、前記第３のテキスト情報を得る。

本開示の１つの実施形態において、前記装置は、ターゲット文言カテゴリ決定モジュールをさらに備える。ターゲット文言カテゴリ決定モジュールは、複数の文言カテゴリの中からターゲット文言カテゴリを特定するために用いられる。前記候補文言情報は、前記ターゲット文言カテゴリと前記第１のテキスト情報とに基づいて生成されるものである。前記第２のテキスト情報の文言カテゴリは、前記ターゲット文言カテゴリである。

本開示の１つの実施形態において、前記文言入力画面には、第１の文言カテゴリコントロールと、第２の文言カテゴリコントロールとが含まれている。前記第１の文言カテゴリコントロールは、ユーザによるトリガ操作に応じて、第１の文言カテゴリコントロールに対応する文言カテゴリをターゲット文言カテゴリとすることに用いられる。前記第２の文言カテゴリコントロールは、ユーザによるトリガ操作に応じて、第２の文言カテゴリコントロールに対応する文言カテゴリをターゲット文言カテゴリとすることに用いられる。

本開示の１つの実施形態において、前記ターゲット動画トラッククリップは空クリップである。あるいは、前記ターゲット動画トラッククリップは、前記ターゲットテキストクリップにマッチングする動画画像を充填するために使用される。あるいは、前記ターゲット動画トラッククリップは、前記ターゲットテキストクリップにマッチングする表情画像を充填するために使用される。

本開示の実施例に係る動画生成装置は、本開示の方法実施例に係る動画生成方法において実行されるステップを実行することができ、実行ステップおよび有益な効果を備え、ここでその説明を省く。

図９は本開示の実施例における電子機器の構成模式図である。以下では、本開示の実施例における電子機器９００を実現するのに適した構成模式図を示した図９を具体的に参照する。本開示の実施例における電子機器９００は、例えば携帯電話、ノートパソコン、デジタル放送受信機、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＡＤ（タブレット）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、車載端末（例えばカーナビゲーション端末）、ウェアラブル端末機器等の携帯端末、および例えばデジタルＴＶ、デスクトップコンピュータ、インテリジェントホーム機器等の固定端末を含んでもよいが、これらに限定されるものではない。図９に示す電子機器は一例にすぎず、本開示の実施例の機能および使用範囲に制限を与えるものではない。

図９に示すように、電子機器９００は、読み取り専用メモリ（ＲＯＭ）９０２に記憶されたプログラム、または記憶装置９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたプログラムに従って、様々な適切な動作および処理を実行して、本開示に記載された実施例のピクチャレンダリング方法を実現することができる処理装置（例えば、ＣＰＵ、グラフィックスプロセッサなど）９０１を含んでもよい。ＲＡＭ９０３には、端末機器９００の操作に必要な各種のプログラムやデータも格納されている。処理装置９０１、ＲＯＭ９０２およびＲＡＭ９０３は、バス９０４を介して互いに接続されている。入出力（Ｉ／Ｏ）インターフェース９０５もバス９０４に接続されている。

通常、例えばタッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどを含む入力装置９０６と、例えば液晶ディスプレイ（ＬＣＤ）、スピーカ、バイブレータ等を含む出力装置９０７と、例えば磁気テープ、ハードディスク等を含む記憶装置９０８と、通信装置９０９とは、Ｉ／Ｏインターフェース９０５に接続されてもよい。通信装置９０９は、データを交換するために端末機器９００が他の機器と無線または有線で通信することを許容してもよい。図９は、様々な装置を有する端末機器９００を示すが、示されている装置の全てを実施または備えることは必ずしも必要ではないことが理解されるべきである。より多くのまたはより少ない装置を代替的に実施し、または備えてもよい。

特に、本開示の実施例によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含む、非一時的なコンピュータ読み取り可能な媒体に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を含み、よって、上記のような動画生成方法を実現する。このような実施例において、当該コンピュータプログラムは、通信装置９０９によってネットワークからダウンロードされてインストールされてもよいし、記憶装置９０８からインストールされてもよいし、ＲＯＭ９０２からインストールされてもよい。当該コンピュータプログラムが処理装置９０１によって実行される際に、本開示の実施例に係る方法に限定される上記機能が実行される。

なお、本開示における上記のコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体またはコンピュータ読み取り可能な記憶媒体、または上記両方の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、または半導体のシステム、装置、またはデバイス、または上記の任意の組み合わせであってもよいが、これらに限定されるものではない。コンピュータ読み取り可能な記憶媒体のより具体的な例は、少なくとも１つのワイヤを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学メモリデバイス、磁気メモリデバイス、または上記の任意の適切な組み合わせを含んでもよいが、これらに限定されるものではない。本開示において、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用されることができるプログラムを含むまたは格納する任意の有形媒体であってもよい。本開示において、コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能なプログラムコードが搭載される、ベースバンドにおいて伝播されるまたは搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝播されるデータ信号は、様々な形態をとってもよく、電磁信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限定されるものではない。また、コンピュータ読み取り可能な信号媒体は、命令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用されるためのプログラムを送信、伝播、または伝送することができるコンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよい。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されてもよく、ワイヤ、光ケーブル、ＲＦ（無線周波数）など、または上記の任意の適切な組み合わせを含むが、これらに限定されるものではない。

いくつかの実施形態において、クライアントやサーバーは、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ、ハイパーテキスト伝送プロトコル）などの現在知られているまたは将来研究開発される任意のネットワークプロトコルを利用して通信することができるとともに、任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）と互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、エキストラネット（例えば、インターネット）、エンドツーエンドネットワーク（例えば、アドホックエンドツーエンドネットワーク）、および現在知られているまたは将来研究開発されるネットワークなどを含む。

上記コンピュータ読み取り可能な媒体は、上記電子機器に含まれるものであってもよいし、当該電子機器に組み込まれていない別個に存在されるものであってもよい。

上記コンピュータ読み取り可能な媒体は、１つまたは複数のプログラムを搭載し、上記１つまたは複数のプログラムが当該端末機器によって実行される際に、当該端末機器に、動画文言の作成要件を記述するための第１のテキスト情報を取得することと、前記第１のテキスト情報に基づいて第２のテキスト情報を生成することであって、前記第２のテキスト情報は、前記第１のテキスト情報に記述された作成要件に合致する文言情報であることと、前記第２のテキスト情報に基づいて得られた第３のテキスト情報に基づいてマルチメディア編集データを生成することであって、前記マルチメディア編集データは、少なくとも１つの動画トラッククリップと少なくとも１つの音声トラッククリップとを含み、前記少なくとも１つの動画トラッククリップと前記少なくとも１つの音声トラッククリップとは、それぞれ第３のテキスト情報によって区画された少なくとも１つのテキストクリップに対応し、前記少なくとも１つの音声トラッククリップにおけるターゲット音声トラッククリップは、ターゲットテキストクリップとマッチングする読み上げ音声を充填するために使用され、前記少なくとも１つの動画トラッククリップにおけるターゲット動画トラッククリップと前記ターゲット音声トラッククリップとは、動画編集タイムライン上で同じタイムライン位置を占めることと、前記マルチメディア編集データに基づいてターゲット動画を生成することと、を実行させる。上記１つまたは複数のプログラムが当該端末機器によって実行される際に、当該端末機器は、上記実施例に記載された他のステップを実行してもよい。

本開示の操作を実行するためのコンピュータプログラムコードは、１つまたは複数のプログラミング言語、またはこれらの組み合わせで書かれてもよい。上記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語を含むが、これらに限定されるものではなく、「Ｃ」言語または類似のプログラミング言語など、従来の手続き型プログラミング言語も含む。プログラムコードは、完全にユーザコンピュータで実行されてもよいし、部分的にユーザコンピュータで実行されてもよいし、独立したソフトウェアパッケージとして実行されてもよいし、一部がユーザコンピュータで一部がリモートコンピュータで実行されてもよいし、または完全にリモートコンピュータまたはサーバーで実行されてもよい。リモートコンピュータが関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザコンピュータに接続されてもよいし、または外部コンピュータに接続されてもよい（例えばインターネットを介してインターネットサービスプロバイダを利用して接続される）。

図面におけるフローチャートおよびブロック図は、本開示の様々な実施例におけるシステム、方法、およびコンピュータプログラム製品に従って実現可能なアーキテクチャ、機能、および操作を図示する。この点について、フローチャートまたはブロック図における各ブロックは、所定のロジック機能を実現するための少なくとも１つの実行可能命令を含む１つのモジュール、プログラムセグメント、またはコードの一部を表してもよい。置換としてのいくつかの実現において、ブロック内に表記された機能は、図面に示されたものとは異なる順序で発生することもあることにも留意されたい。例えば、連続的に表示された２つのブロックは、実際には実質的に並列に実行されてもよく、関与する機能に応じて逆の順序で実行されてもよい場合がある。ブロック図および／またはフローチャートにおける各ブロック、ならびにブロック図および／またはフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行するハードウェアベースの専用システムで実現されてもよいし、または専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよいことにも留意されたい。

説明された本開示の実施例に係るユニットは、ソフトウェアで実現されてもよいし、ハードウェアで実現されてもよい。ユニットの名称は、ある場合には当該ユニット自身に対する限定にならない。

本明細書において上で説明された機能は、少なくとも部分的に、少なくとも１つのハードウェアロジック部品によって実行されてもよい。例えば、非限定的に、使用され得る例示的なタイプのハードウェアロジック部品は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑プログラマブルロジックデバイス（ＣＰＬＤ）などを含む。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用される、または命令実行システム、装置、またはデバイスと組み合わせて使用されるプログラムを含むまたは格納することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線的、または半導体システム、装置またはデバイス、または上記の内容の任意の適切な組み合わせを含んでもよいが、これらに限定されるものではない。機械読み取り可能な記憶媒体のより具体的な例は、少なくとも１つのワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶機器、磁気記憶機器、または上記の内容の任意の適切な組み合わせを含む。

以上の説明は、本開示のより良い実施例および適用される技術原理に対する説明にすぎない。当業者は、本開示に係る開示の範囲は、上記の技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上記の開示の発想から逸脱することなく、上記の技術的特徴又はその均等な特徴の任意の組み合わせからなる他の技術案も包含すべきであることを理解するであろう。例えば、上記の特徴と本開示で開示されたもの（ただし、それに限定されるものではない）に類似する機能を有する技術的特徴とを互いに置き換えて形成された技術案である。

また、各操作は特定の順序で描かれたが、これらの操作が示されている特定の順序で実行されるか、または順次実行されることを要求するものとして理解されるべきではない。ある環境において、マルチタスクや並列処理が有利になる場合がある。同様に、いくつかの具体的な実施の詳細が上記の論述に含まれているが、これらは本開示の範囲を制限するものとして解釈されるべきではない。個別の実施例の文脈で説明されたいくつかの特徴は、単一の実施例において組み合わせて実現されてもよい。逆に、単一の実施例の文脈で説明された様々な特徴は、複数の実施例において個別に、または任意の適切なサブ組み合わせで実現されてもよい。

本主題は、構造的特徴および／または方法的・論理的動作に固有の言語で説明されているが、添付した特許請求の範囲において限定される主題は、以上で説明された特定の特徴または動作に必ずしも限定されないことが理解されるべきである。逆に、以上で説明された特定の特徴および動作は、特許請求の範囲を実現する例示的な形態にすぎない。

Claims

動画文言の作成要件を記述するための第１のテキスト情報を取得することと、
前記第１のテキスト情報に基づいて第２のテキスト情報を生成することであって、前記第２のテキスト情報は、前記第１のテキスト情報に記述された作成要件に合致する文言情報であることと、
前記第２のテキスト情報に基づいて得られた第３のテキスト情報に基づいてマルチメディア編集データを生成することであって、前記マルチメディア編集データは、少なくとも１つの動画トラッククリップと少なくとも１つの音声トラッククリップとを含み、前記少なくとも１つの動画トラッククリップと前記少なくとも１つの音声トラッククリップとは、それぞれ第３のテキスト情報によって区画された少なくとも１つのテキストクリップに対応し、前記少なくとも１つの音声トラッククリップにおけるターゲット音声トラッククリップは、ターゲットテキストクリップとマッチングする読み上げ音声を充填するために使用され、前記少なくとも１つの動画トラッククリップにおけるターゲット動画トラッククリップと前記ターゲット音声トラッククリップとは、動画編集タイムライン上で同じタイムライン位置を占めることと、
前記マルチメディア編集データに基づいてターゲット動画を生成することと、
を含む、ことを特徴とする動画生成方法。
前記第１のテキスト情報に基づいて第２のテキスト情報を生成することは、
前記第１のテキスト情報に基づいて、少なくとも１つの候補文言情報を生成することであって、前記少なくとも１つの候補文言情報は、いずれも前記第１のテキスト情報が示す作成要件に合致することと、
ユーザによってトリガされた切替操作に応じて、文言入力画面において前記少なくとも１つの候補文言情報のうちの異なる候補文言情報を切り替えて表示することと、
ユーザによってトリガされた確認操作に応じて、前記少なくとも１つの候補文言情報のうち、切り替えられて前記文言入力画面に表示される候補文言情報を前記第２のテキスト情報として決定することと、
を含む、ことを特徴とする請求項１に記載の方法。
前記文言入力画面には、文言入力領域と候補文言領域とが含まれ、
前記文言入力画面には、文言切替コントロールが含まれ、前記文言切替コントロールは、前記候補文言領域において前記少なくとも１つの候補文言情報のうちの異なる候補文言情報が切り替えて表示されるように、前記切替操作をトリガするために用いられ、
前記文言入力画面には、文言確認コントロールが含まれ、前記文言確認コントロールは、前記候補文言領域において表示されている候補文言情報を前記第２のテキスト情報として決定しされ、前記文言入力領域において前記第２のテキスト情報が表示されるように、前記確認操作をトリガするために用いられる、
ことを特徴とする請求項２に記載の方法。
前記少なくとも１つの候補文言情報が生成された後、前記候補文言領域に表示されている候補文言情報が、前記文言入力領域におけるユーザ入力位置に挿入され、
前記確認操作が応答された場合に、前記候補文言領域は前記文言入力領域内から削除される、
ことを特徴とする請求項３に記載の方法。
前記少なくとも１つの候補文言情報が生成される前に前記文言入力領域内において第４のテキスト情報が表示されている場合に、前記第２のテキスト情報が決定された後に、前記文言入力領域において前記第２のテキスト情報と前記第４のテキスト情報とが融合した第５のテキスト情報が表示される、
ことを特徴とする請求項４に記載の方法。
前記ユーザ入力位置が前記第４のテキスト情報の中間位置にある場合に、前記文言入力領域において前記第４のテキスト情報が前記候補文言領域によって前記中間位置から切り分けられて前記候補文言領域の両側に表示され、前記第５のテキスト情報における前記第２のテキスト情報が前記第４のテキスト情報の中間位置に挿入される、
ことを特徴とする請求項５に記載の方法。
ユーザの入力操作に応じて、前記第５のテキスト情報を編集し、前記第３のテキスト情報を得ることをさらに含む、
ことを特徴とする請求項５に記載の方法。
複数の文言カテゴリの中からターゲット文言カテゴリを特定することであって、前記候補文言情報は、前記ターゲット文言カテゴリと前記第１のテキスト情報とに基づいて生成されたものであり、前記第２のテキスト情報の文言カテゴリは、前記ターゲット文言カテゴリであることをさらに含む、
ことを特徴とする請求項２に記載の方法。
前記文言入力画面には、第１の文言カテゴリコントロールと、第２の文言カテゴリコントロールとが含まれ、前記第１の文言カテゴリコントロールは、ユーザのトリガ操作に応じて、第１の文言カテゴリコントロールに対応する文言カテゴリをターゲット文言カテゴリとすることに用いられ、前記第２の文言カテゴリコントロールは、ユーザのトリガ操作に応じて、第２の文言カテゴリコントロールに対応する文言カテゴリをターゲット文言カテゴリとすることに用いられる、
ことを特徴とする請求項８に記載の方法。
前記ターゲット動画トラッククリップは空クリップである、あるいは、
前記ターゲット動画トラッククリップは、前記ターゲットテキストクリップにマッチングする動画画像を充填するために使用される、あるいは
前記ターゲット動画トラッククリップは、前記ターゲットテキストクリップにマッチングする表情画像を充填するために使用される、
ことを特徴とする請求項１に記載の方法。
動画文言の作成要件を記述するための第１のテキスト情報を取得するための第１のテキスト情報取得モジュールと、
前記第１のテキスト情報に基づいて第２のテキスト情報を生成するための第２のテキスト情報生成モジュールであって、前記第２のテキスト情報は、前記第１のテキスト情報に記述された作成要件に合致する文言情報である第２のテキスト情報生成モジュールと、
前記第２のテキスト情報に基づいて得られた第３のテキスト情報に基づいてマルチメディア編集データを生成するためのマルチメディア編集データ生成モジュールであって、前記マルチメディア編集データは、少なくとも１つの動画トラッククリップと少なくとも１つの音声トラッククリップとを含み、前記少なくとも１つの動画トラッククリップと前記少なくとも１つの音声トラッククリップとは、それぞれ第３のテキスト情報によって区画された少なくとも１つのテキストクリップに対応し、前記少なくとも１つの音声トラッククリップにおけるターゲット音声トラッククリップは、ターゲットテキストクリップとマッチングする読み上げ音声を充填するために使用され、前記少なくとも１つの動画トラッククリップにおけるターゲット動画トラッククリップと前記ターゲット音声トラッククリップとは、動画編集タイムライン上で同じタイムライン位置を占めるマルチメディア編集データ生成モジュールと、
前記マルチメディア編集データに基づいてターゲット動画を生成するためのターゲット動画生成モジュールと、
を備える、ことを特徴とする動画生成装置。
少なくとも１つのプロセッサと、
少なくとも１つのプログラムを格納する記憶装置と、を備え、
前記少なくとも１つのプログラムが前記少なくとも１つのプロセッサによって実行されるとき、前記少なくとも１つのプロセッサに請求項１～１０のいずれか一項に記載の方法を実現させる、
ことを特徴とする電子機器。
コンピュータプログラムが格納されているコンピュータ読み取り可能な記憶媒体であって、当該コンピュータプログラムがプロセッサによって実行される際に、請求項１～１０のいずれか一項に記載の方法を実現する、
コンピュータ読み取り可能な記憶媒体。
プロセッサによって実行されるとき、請求項１～１０のいずれか１項に記載の方法を実現する、
ことを特徴とするコンピュータプログラム。