JP2020046500A - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents
情報処理装置、情報処理方法および情報処理プログラム Download PDFInfo
- Publication number
- JP2020046500A JP2020046500A JP2018173676A JP2018173676A JP2020046500A JP 2020046500 A JP2020046500 A JP 2020046500A JP 2018173676 A JP2018173676 A JP 2018173676A JP 2018173676 A JP2018173676 A JP 2018173676A JP 2020046500 A JP2020046500 A JP 2020046500A
- Authority
- JP
- Japan
- Prior art keywords
- information
- performance
- information processing
- musical instrument
- input image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G3/00—Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
- G10G3/04—Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
【課題】画像から楽器の演奏を示す情報を取得することができる情報処理装置、情報処理方法および情報処理プログラムを提供する。
【解決手段】情報処理装置100は、入力画像から演奏者の身体の部位の位置を認識する位置認識部と、入力画像から楽器を認識する楽器認識部と、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する演奏情報生成部とを備える。
【選択図】図2
【解決手段】情報処理装置100は、入力画像から演奏者の身体の部位の位置を認識する位置認識部と、入力画像から楽器を認識する楽器認識部と、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する演奏情報生成部とを備える。
【選択図】図2
Description
本技術は、情報処理装置、情報処理方法および情報処理プログラムに関する。
従来から、ダンスなどの人のパフォーマンスをデータ化するシステムが提案されている(特許文献1)。
特許文献1に記載のシステムは、3次元空間におけるパフォーマーのダンス動作が記録された譜面データを生成するものである。このような動作をデータ化する手法においては、動作の種別によってデータ化のために必要な情報や処理が異なるため、そのまま他の動作、例えば楽器演奏などに適用することは難しい。
本技術はこのような点に鑑みなされたものであり、画像から楽器の演奏を示す情報を取得することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
上述した課題を解決するために、第1の技術は、入力画像から演奏者の身体の部位の位置を認識する位置認識部と、入力画像から楽器を認識する楽器認識部と、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する演奏情報生成部とを備える情報処理装置である。
また、第2の技術は、入力画像から演奏者の身体の部位の位置を認識し、入力画像から楽器を認識し、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する情報処理方法である。
さらに、第3の技術は、入力画像から演奏者の身体の部位の位置を認識し、入力画像から楽器を認識し、部位の位置と楽器との関連性に基づき、演奏者による前記楽器の演奏を示す演奏情報を生成する情報処理方法をコンピュータに実行させる情報処理プログラムである。
以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<1.第1の実施の形態>
[1−1.端末装置の構成]
[1−2.情報処理装置の構成]
[1−3.情報処理装置による処理]
[1−3−1.部分演奏情報の生成]
[1−3−2.複合演奏情報の生成]
<2.第2の実施の形態>
[2−1.情報処理装置の構成]
[2−2.情報処理装置の処理]
<3.第3の実施の形態>
[3−1.情報処理装置の構成]
[3−2.情報処理装置の処理]
<4.変形例>
<1.第1の実施の形態>
[1−1.端末装置の構成]
[1−2.情報処理装置の構成]
[1−3.情報処理装置による処理]
[1−3−1.部分演奏情報の生成]
[1−3−2.複合演奏情報の生成]
<2.第2の実施の形態>
[2−1.情報処理装置の構成]
[2−2.情報処理装置の処理]
<3.第3の実施の形態>
[3−1.情報処理装置の構成]
[3−2.情報処理装置の処理]
<4.変形例>
<1.第1の実施の形態>
[1−1.端末装置の構成]
まず図1を参照して端末装置10について説明する。端末装置10は、制御部11、記憶部12、通信部13、表示部14、入力部15、カメラ部16および情報処理装置100を備えている。
[1−1.端末装置の構成]
まず図1を参照して端末装置10について説明する。端末装置10は、制御部11、記憶部12、通信部13、表示部14、入力部15、カメラ部16および情報処理装置100を備えている。
制御部11は、CPU(Central Processing Unit)、RAM(Random Access Memory)およびROM(Read Only Memory)などから構成されている。ROMには、CPUにより読み込まれ動作されるプログラムなどが記憶されている。RAMは、CPUのワークメモリとして用いられる。CPUは、ROMに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによって端末装置10全体の制御を行う。
記憶部12は、例えば、ハードディスク、半導体メモリなどを用いた大容量記憶媒体である。記憶部12は、カメラ部16により撮影された撮影画像、撮影映像や、情報処理装置100により生成された演奏情報や楽譜情報、さらにコンテンツやアプリケーションなどを保存することができる。
通信部13は、他の装置、インターネットなどと通信するための通信モジュール、通信用コネクタなどである。通信部13による通信は、USB通信などの有線通信、Wi-Fiなどの無線LAN、Bluetooth(登録商標)、ZigBee、4G(第4世代移動通信システム)、ブロードバンドなどの無線通信などなんでもよい。
表示部14は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)パネルなどにより構成された表示デバイスである。表示部14には、端末装置10のユーザインターフェース、情報処理装置100による処理のためにユーザに提示するインターフェースなどが表示される。
入力部15は、ユーザの端末装置10に対する操作入力を受け付けるものである。入力部15に対してユーザから入力がなされると、その入力に応じた入力信号が生成されて制御部11に出力される。そして、制御部11はその入力信号に対応した演算処理、端末装置10の制御を行う。入力部15としては、表示部14と一体に構成されたタッチパネル、トラックパッドやタッチパッドと称される表示部14とは一体となっていない平板状のセンサーを指でなぞって操作するポインティングデバイス、キーボード、マウスなどがある。
カメラ部16は撮像素子、画像処理用LSIなどを備え、静止画像および映像の撮影が可能なカメラ機能を備えるものである。カメラ部16により撮影された静止画像または映像は情報処理装置100における演奏情報生成処理に用いることができる。なお、カメラ部16は端末装置10の必須の構成要素ではない。
情報処理装置100は、本技術に係る演奏情報生成処理を行うものである。情報処理装置100の詳細は後述する。
端末装置10は以上のようにして構成されている。端末装置10の具体例としてはパーソナルコンピュータ、ノートパソコン、タブレット端末、スマートフォン、電子キーボード、シンセサイザー、DAW(Digital Audio Workstation)などが挙げられる。
[1−2.情報処理装置の構成]
次に図2を参照して情報処理装置100の構成について説明する。情報処理装置100は、画像入力部101、位置認識部102、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108とから構成されている。
次に図2を参照して情報処理装置100の構成について説明する。情報処理装置100は、画像入力部101、位置認識部102、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108とから構成されている。
画像入力部101には処理対象となる入力画像としての複数枚の連続する静止画像、または動画を構成する連続する複数のフレーム画像が入力される。画像入力部101は、入力画像を位置認識部102と楽器認識部105に供給する。本技術における処理対象である入力画像は、複数枚の連続する静止画像のそれぞれ、動画を構成する複数のフレーム画像のそれぞれである。
なお、入力画像は端末装置10が備えるカメラ部16で撮影したものでもよいし、カメラ部16以外のカメラで撮影して端末装置10を介して情報処理装置100に取り込んだものでもよい。また、外部の別の装置から端末装置10を介して情報処理装置100に供給したものでもよい。また、現実に情報処理装置100の使用者の眼の前で行われている演奏を撮影したものでもよいし、テレビ、パーソナルコンピュータなどのディスプレイに表示されている映像を撮影したものでもよい。また、市販のDVD、Blue ray(登録商標)に収録された映像、インターネット上で取得可能な静止画像や映像などでもよい。すなわち、入力画像は、演奏者が演奏している様子が映っている画像であればどのようなものでもよい。また、入力画像はRBG(Red,Green,Blue)画像の他、IR画像などでもよい。
第1の実施の形態における入力画像は図3に示すように、演奏者の両手、演奏者が演奏する楽器において演奏者の手が接触する演奏のための領域(演奏領域)の全体が写っているものである。
位置認識部102は、入力画像からHand Pose Detection、Hand Pose Estimation、Hand segmentationなどの人体の手認識技術や、HOG(Histogram of Oriented Gradient)、SIFT(Scale Invariant Feature Transform)などの特徴点抽出方法、Boosting、SVM(Support Vector Machine)などのパターン認識による被写体認識方法、Graph Cutなどによる領域抽出方法、CNN(Convolutional Neural Network)などにより、入力画像中における演奏者の身体の部位である手の3次元位置を認識する。また位置認識部102は、手に加えて、演奏情報生成のために必要に応じて演奏者の身体の部位としての手の指の位置、腕の位置、肘の位置なども認識する。手の3次元位置情報は形状認識部103、動き認識部104および関連性認識部106に供給される。
手の3次元位置を認識するための手の特徴点としては指先、指の関節、手首などがある。位置情報は入力画像中における演奏者の手の3次元位置を示す情報であるため、例えば、入力画像の所定の位置を原点(0,0,0)とした(x,y,z)の座標で表される。連続する入力画像の番号をt(t=1、2、3、・・・)とし、手の特徴点をP(P=1、2、3、・・・)とすると、位置情報は(xtP,ytP,ztP)という形式で表される。
例えば図4Aに示すように、入力画像(t=1)では、手の特徴点が5つ認識された場合、それらは、
特徴点P1:(x11,y11,z11)
特徴点P2:(x12,y12,z12)
特徴点P3:(x13,y13,z13)
特徴点P4:(x14,y14,z14)
特徴点P5:(x15,y15,z15)
のように表される。
特徴点P1:(x11,y11,z11)
特徴点P2:(x12,y12,z12)
特徴点P3:(x13,y13,z13)
特徴点P4:(x14,y14,z14)
特徴点P5:(x15,y15,z15)
のように表される。
また、図4Bに示すように、入力画像(t=2)では、手の特徴点が5つ認識された場合、それらは、
特徴点P1:(x21,y21,z21)
特徴点P2:(x22,y22,z22)
特徴点P3:(x23,y23,z23)
特徴点P4:(x24,y24,z24)
特徴点P5:(x25,y25,z25)
のように表される。
特徴点P1:(x21,y21,z21)
特徴点P2:(x22,y22,z22)
特徴点P3:(x23,y23,z23)
特徴点P4:(x24,y24,z24)
特徴点P5:(x25,y25,z25)
のように表される。
なお、手の3次元位置情報はカメラ原点のグローバル座標系でもよいし、入力画像上のローカル座標系+奥行き情報でもよい。また、Hand Segmentationで求めた領域の重心およびDepth情報を用いて手の3次元位置を求めてもよい。
なお、図4は説明の便宜上手の5本の各指の先端に特徴点が認識された図であるが、実際には図5の手に重畳して表された複数の黒点が示すように例えば各指の関節部分、水かき部分および手首など多数の特徴点が認識される。このように多数の特徴点を認識したほうがより正確に演奏情報を生成することができる。
また、入力画像の一部領域を切り出した切り出し画像においては、(x,y,z)の座標系とは異なる座標系である、切り出し画像の所定の位置を原点とした(utP,vtP,dtP)の座標で表してもよい。
形状認識部103は、CNN、パターンマッチング、Boostingなどの技術を用いて、位置認識部102から供給された位置情報で示される手の形状を認識する。手の形状情報は動き認識部104と演奏情報生成部107に供給される。
動き認識部104は、CNN、Hand Trackingなどの技術を用いて、位置および形状が認識された演奏者の手の動きを認識する。手の動き情報は演奏情報生成部107に供給される。手の動きは、複数の連続する入力画像のうちの一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)との動きベクトルの変化から認識することができる。
楽器認識部105は、CNN、パターンマッチングなどの技術を用いて、入力画像中における楽器およびその楽器において演奏者の手が接触する演奏のための領域(演奏領域)を認識するものである。演奏領域とは、例えば楽器がピアノであれば鍵盤、楽器がギターであればピックアップ部分(アコースティックギターであればサウンドホール)およびネックである。楽器認識情報は関連性認識部106に供給される。
関連性認識部106は、CNN、パターンマッチングなどの技術を用いて演奏者の手の位置と楽器の演奏領域の関連性を認識する。関連性 とは、楽器演奏のための演奏者と楽器の関連、すなわち、演奏者の手が楽器の演奏領域のどこに接触しているかを示す接触位置である。また、関連性は、楽器の演奏領域に対する演奏者の手、腕、肘などの部位の動作の方向である。関連性情報は演奏情報生成部107に供給される。
演奏情報生成部107は、CNNなどの技術を用いて演奏者が演奏状態にあるか否かを認識する。そして、入力画像において演奏者が演奏している状態に基づく演奏要素(第1演奏要素)、演奏者が演奏してない状態に基づく演奏要素(第2演奏要素)、複数の入力画像に跨る演奏要素(第3演奏要素)とから入力画像の一枚に対応した演奏情報(部分演奏情報)を生成する。
第1演奏要素は楽器によって異なるものではあるが、ピアノなどの鍵盤楽器では、音階、音の長さ、テンポ、強弱などがある。また、ギターなどの弦楽器でも同様に音階、音の長さ、音の強弱などがある。さらに、ドラムなどの打楽器では叩くドラムセットの種類、音の長さ、テンポ、強弱などがある。
また、第2演奏要素としてはいずれの楽器においても、休みの長さ、などがある。第3演奏要素としては、テンポ、音の長さ、休みの長さ、調、音の強弱などがある。音の強弱、音の長さなどは第1の演奏要素でもあり、第3の演奏要素でもあるが、これは入力画像1枚で音の強弱や音の長さを推定することができる場合もあれば、推定に複数枚の入力画像を必要とする場合もあるからである。例えば、1枚の入力画像において演奏者の指が楽器の演奏領域から大きく離れている位置にある場合はその1枚の入力画像から音が強いことを推定することができるが、指が楽器の演奏領域の近くで細かく動いているような場合は1枚の画像では強弱は推定できず、複数枚の入力画像を参照して演奏者の指の動きを認識して強弱を推定する必要がある。
演奏者の手の位置と楽器の演奏領域との関連性情報から演奏要素を取得する方法としては、位置認識部102により認識された手の位置と、形状認識部103により認識された手の形状と、楽器認識部105により認識された楽器と演奏領域に基き、演奏者の手の指が楽器の演奏領域のどの鍵盤に接触しているかを認識する。それにより、その入力画像における演奏者の状態において演奏により音階のどの音を鳴らしているかを認識することができる。また、複数の音により構成されるどのような和音(コード)を鳴らしているかも認識することもできる。
また、演奏者の指が演奏領域の同一箇所にどのくらい接触し続けているかを認識することにより音の長さを認識することもできる。
和音(コード)の認識は、例えば楽器がギターである場合は、図6A、図6Bに示すように予め演奏情報生成部107に和音(コード)を演奏する場合の指の位置および形状を示すテンプレート画像を和音(コード)の種類ごとに複数保持させておく。そして、入力画像から抽出された指の位置情報、指の形状情報とテンプレート画像を比較(テンプレートマッチング)することにより指の位置および形状が最も近似する和音(コード)を決定する。
また、和音(コード)の認識は、図6Cに示すように予め演奏情報生成部107に和音(コード)を演奏する場合の指の位置を示す指の特徴点の座標情報を和音(コード)の種類ごとに複数保持させておき、その座標情報と入力画像から抽出された指の位置情報(座標情報)を比較することによっても可能である。
また、動き認識部104により認識された手の動きに基づいて、一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)とから認識することができる演奏者の手の略垂直方向の動きから演奏しているか否か、演奏の強弱、テンポなどを認識することができる。
この場合の略垂直方向とは、楽器がピアノの場合、鍵盤が並ぶ方向に対して略垂直の方向である。演奏者が演奏しているか否かは楽器の鍵盤に手が離れているか否かに基づいて判断することができる。また、演奏の強弱は略垂直方向における手の位置(手の高さ)から判断することができる。例えば、手が鍵盤から垂直方向に離れているほど音が強く、手が鍵盤に垂直方向に近づいているほど音が弱いと判断することができる。また、手の垂直方向における規則的な上下動作の時間間隔から曲のテンポを認識することができる。このように曲のテンポや音の長さなど時間に関連する演奏要素を認識するためには映像を構成するフレームレートと実時間を対応付けて、演奏者の規則的な動きの実時間での動作間隔と映像の再生時間とから求めることができる。
また、同様に一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)とから認識することができる演奏者の手の略水平方向の動きから音階を認識することができる。この場合の略水平方向とは、楽器がピアノの場合、鍵盤が並ぶ方向に対して略水平の方向である。具体的にはピアノに対する手の略水平方向の位置が変わることにより、ピアノの鍵盤のどの領域を演奏しているかがわかり、それにより音域、オクターブの変化など演奏されている音階を認識することができる。
手の略垂直方向の動きと略水平方向の動きは、複数の連続する入力画像のうちの一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)との動きベクトルの変化から認識することができる。
第3演奏要素は複数の入力画像に跨った演奏者の指や腕の変化に基づいて生成することができる。例えば、手が複数の入力画像に跨って鍵盤から垂直方向に離れている時間が長いほど次に鳴らされる音が強いとして第3演奏要素とすることができる。また、複数の入力画像跨る手の垂直方向における上下動作の時間間隔から曲のテンポを認識して第3演奏要素とすることができる。
さらに演奏情報生成部107は、複数の入力画像のそれぞれに対応した部分演奏情報を時系列に従って?いでいくことにより、それら複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する。フレーズや曲の一部の複合演奏情報とは、1または複数の小節単位での演奏情報である。
部分演奏情報および複合演奏情報は、五線譜で記された楽譜に限らず、その情報に基づいて演奏者、コンピュータ、音楽演奏用ソフトウェア、音楽作成用ソフトウェアなどが楽曲を再現することができればどのような形式の情報でもよい。例えば、MIDI(Musical Instrument Digital Interface)形式の情報やプログラミング形式の情報、音楽演奏/制作用ソフトウェア独自のフォーマットの情報などでもよい。
楽譜情報生成部108は、演奏情報生成部107から部分演奏情報が供給された場合には入力画像一枚に対応する部分楽譜情報を生成する。また、演奏情報生成部107から複合演奏情報が供給された場合には複数の入力画像により構成されるフレーズ、曲の一部または全部の楽譜情報である複合楽譜情報を生成する。ここでいう楽譜とは五線譜で記された楽譜であり、楽譜情報を構成する情報としては、音符、休符、拍子記号、テンポ、臨時記号、調号、強弱などがある。臨時記号情報は演奏者が演奏している状態に基づく第1演奏要素である、演奏されている音階と、複数の入力画像に跨る第3演奏要素である調とから導き出すことができる。
情報処理装置100は以上のようにして構成されている。情報処理装置100はプログラムで構成され、そのプログラムは予め端末装置10にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自ら端末装置10にインストールするようにしてもよい。また、情報処理装置100は、プログラムによって実現されるのみでなく、その機能を有するハードウェアによる専用の装置、回路などを組み合わせて実現されてもよい。
[1−3.情報処理装置による処理]
[1−3−1.部分演奏情報の生成]
次に図7のフローチャートを参照して情報処理装置100における処理の流れについて説明する。図7のフローチャートの処理は、入力画像一枚に対応した部分演奏情報を生成するものである。なお、上述したように入力画像の一枚とは、複数枚の連続する静止画像のうちの一枚または、動画を構成する複数のフレーム画像のうちの一枚である。
[1−3−1.部分演奏情報の生成]
次に図7のフローチャートを参照して情報処理装置100における処理の流れについて説明する。図7のフローチャートの処理は、入力画像一枚に対応した部分演奏情報を生成するものである。なお、上述したように入力画像の一枚とは、複数枚の連続する静止画像のうちの一枚または、動画を構成する複数のフレーム画像のうちの一枚である。
まずステップS101で、画像入力部101に対して入力画像が入力される。この入力画像は一枚の静止画像またはフレーム画像でもよいし、連続する複数の静止画像でもよいし、動画を構成する連続する複数のフレーム画像でもよい。複数の入力画像が入力されると、以下のステップS102以降の処理は、まず(t=1)の一番目の入力画像に対して行われる。また、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力された場合、どの入力画像の部分演奏情報を生成するかをユーザが選択できるようにしてもよい。
次にステップS102で位置認識部102により入力画像中における演奏者の手の3次元位置が認識され、手の位置情報が形状認識部103、動き認識部104および関連性認識部106に供給される。
次にステップS103で、形状認識部103により入力画像中において位置が認識された手の形状が認識される。手の形状情報は動き認識部104と演奏情報生成部107に供給される。さらにステップS104で、動き認識部104により、位置および形状が認識された手の動きが認識される。手の動き情報は演奏情報生成部107に供給される。
次にステップS105で楽器認識部105により入力画像中における楽器および演奏領域が認識される。楽器情報および演奏領域情報は関連性認識部106に供給される。なお、ステップS102乃至ステップS104における演奏者の手の位置、形状、動きの認識処理とステップS105における楽器および演奏領域の認識は並行して行うようにしてもよいし、楽器および演奏領域の認識を先に行ってもよい。
次にステップS106で関連性認識部106により手の各指とそれに対応する楽器の演奏領域の位置の関連性が認識される。関連性とは演奏者の手が楽器の演奏領域のどこに位置しているかを示すものであり、関連性情報は演奏情報生成部107に供給される。
次にステップS107で演奏情報生成部107は手の動き情報および関連性情報から演奏者が入力画像において楽器を演奏している状態であるか否かを判定する。
判定の結果、演奏者が演奏している場合、処理はステップS108からステップS109に進む(ステップS108のYes)。そしてステップS109で演奏情報生成部107は手の3次元位置情報、手の形状情報、手の動き情報、関連性情報とから第1演奏要素を生成する。
一方、ステップS107での判定の結果、演奏者が演奏していない場合、処理はステップS108からステップS110に進む(ステップS108のNo)。そしてステップS110で演奏情報生成部107は第2演奏要素を生成する。
次にステップS111で演奏情報生成部107は、第1演奏要素または第2演奏要素から入力画像に対応した部分演奏情報を生成する。そしてステップS112でその部分演奏情報を出力する。
出力された部分演奏情報は端末装置10の表示部14において表示したり、端末装置10が備える音楽演奏用ソフトウェア、音楽制作用ソフトウェアなどにおいて使用可能である。また、ユーザ、演奏者などからの要求に応じて楽譜情報生成部108によって演奏情報に基づいて楽譜情報を生成してもよい。また、部分演奏情報を端末装置10の記憶部12に保存しておき、必要に応じて記憶部12から読み出して使用することも可能である。
以上のようにして入力画像に対する演奏情報生成処理が行われる。
[1−3−2.複合演奏情報の生成]
次に図8のフローチャートについて説明する。図8のフローチャートの処理は、複数の入力画像により構成されるフレーズ、曲の一部または全部の演奏情報である複合演奏情報を生成する処理である。
次に図8のフローチャートについて説明する。図8のフローチャートの処理は、複数の入力画像により構成されるフレーズ、曲の一部または全部の演奏情報である複合演奏情報を生成する処理である。
まずステップS101で、画像入力部101に対して入力画像として連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力される。複数の入力画像が入力されると以下のステップS102以降の処理はまず入力画像(t=1)の一番目の入力画像に対して行われる。また、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力された場合、どの入力画像から処理を開始するかをユーザが選択できるようにしてもよい。
ステップS101からステップS111までの処理は図7のフローチャートと同様であるため、説明を省略する。
ステップS111の後、次にステップS121で、演奏情報生成部107は複数の入力画像間に跨る演奏要素である第3演奏要素があるか否かが判定する。複数の入力画像間に跨る第3演奏要素があるか否かは、以下のように判断できる。例えば音の強弱(大きさ)の場合、現在処理中の入力画像(t)において認識された演奏の強弱が一つ前の入力画像である入力画像(t−1)で認識された強弱よりも強くなる場合、入力画像(t−1)から入力画像(t)まで、「だんだん強く」という演奏要素が導き出せる。また、同様に、例えば、入力画像(t+1)の音程において認識された演奏の強弱が入力画像(t)の強弱より大きい場合は、入力画像(t−1)、入力画像(t)、入力画像(t+1)とも「だんだん強く」という演奏要素が導き出せる。このように、処理対象である複数の入力画像それぞれの状態により、現在の入力画像における演奏要素に基づいて過去の入力画像における演奏要素が認識される場合「フレーム間に跨る演奏要素である第3演奏要素がある」と判断することができる。
複数の入力画像間に跨る第3演奏要素がある場合、処理はステップS122に進み(ステップS121のYes)、ステップS111で生成した部分演奏情報に第3演奏要素を付加することにより部分演奏情報を更新する。そして処理はステップS122からステップS123に進む。なお、第3演奏要素は部分演奏情報において第1演奏要素、第2演奏要素と同様に部分演奏情報の構成要素としてもよいし、部分演奏情報とは別情報としたまま紐付けにより対応付けてもよい。
一方、ステップS121で複数の画像間に跨る第3演奏要素がない場合処理はステップS123に進む(ステップS121のNo)。
次にステップS123で処理対象である次の入力画像があるか否かが判定される。ステップS101で画像入力部101に対して入力された、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像にまだ未処理の画像がある場合には次の入力画像があるとして処理はステップS102に戻る(ステップS123のYes)。そして、時系列で次の順の入力画像(フレーム画像である場合には次のフレーム番号の画像)に対してステップS102乃至ステップS123の処理が行われる。そして、入力された全ての入力画像のそれぞれに対して処理が行われるまでステップS102乃至ステップS123が繰り返される。
ステップS123で処理対象の画像がない場合、処理はステップS124に進む(ステップS123のNo)。
次にステップS124で演奏情報生成部107は、複数の入力画像のそれぞれに対応した部分演奏情報を時系列に従ってつないでいくことにより、それら複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する。
次にステップS125で、演奏情報生成部107は複合演奏情報を出力する。出力された複合演奏情報は端末装置10の表示部14において表示したり、端末装置10が備える音楽演奏用ソフトウェア、音楽制作用ソフトウェアなどにおいて使用可能である。また、ユーザ、演奏者などからの要求に応じて楽譜情報生成部108が複合演奏情報に基づいて複合楽譜情報を生成してもよい。また、複合演奏情報を出力する際に部分演奏情報も出力してもよい。
以上のようにして第1の実施の形態における処理が行われる。本技術の第1の実施の形態によれば、複数枚の連続する静止画像または動画を構成する複数のフレーム画像に基づいて演奏情報と楽譜情報を生成することができる。
これにより、専門的な知識のない人でも手軽に演奏情報、楽譜情報を得ることができる。また、例えば、音声がない映像データ、音声が劣化/破損している映像データなどに基づいても演奏情報と楽譜情報を生成することができる。また、音声を出力することができない環境においても映像データのみに基づいて演奏情報を生成することができる。
これにより、専門的な知識のない人でも手軽に演奏情報、楽譜情報を得ることができる。また、例えば、音声がない映像データ、音声が劣化/破損している映像データなどに基づいても演奏情報と楽譜情報を生成することができる。また、音声を出力することができない環境においても映像データのみに基づいて演奏情報を生成することができる。
なお、第1の実施の形態において演奏情報を生成するための入力画像は、例えば楽器がピアノの場合には、ピアノの演奏領域である鍵盤と演奏者の両手を認識することができる上方から撮影したものが好ましい。楽器がギターの場合にはギターの演奏領域であるピックアップ部分(アコースティックギターであればサウンドホール)およびネックと演奏領域の両手を認識することができる正面から撮影したものが好ましい。
本技術は、自分または自分以外の他の演奏者の即興演奏の楽譜化、楽器練習の楽譜化、好きなアーティスト曲を演奏するための楽譜作成、作曲、編曲などの用途に用いることができる。また、作曲、編曲の際には、楽器でいろいろな演奏、フレーズなどを試し、必要な演奏パターンまたは全ての演奏パターンを用意に演奏情報、楽譜情報として得ることができる。また、「楽譜を書いて、楽器で演奏してみる」、または「楽器で演奏してみて、良かったら楽譜を書く」の繰り返し作業が必要なくなる。
<2.第2の実施の形態>
[2−1.情報処理装置の構成]
次に本技術の第2の実施の形態について説明する。第2の実施の形態は図9に示すように、入力画像において演奏者の身体の部位である手の一部が遮蔽されて隠れているまたは写っていない場合において演奏情報の生成を行うものである。図9においては演奏者の左手の一部が隠れている。なお、情報処理装置100が動作する端末装置10の構成は第1の実施の形態と同様であるためその説明を省略する。
[2−1.情報処理装置の構成]
次に本技術の第2の実施の形態について説明する。第2の実施の形態は図9に示すように、入力画像において演奏者の身体の部位である手の一部が遮蔽されて隠れているまたは写っていない場合において演奏情報の生成を行うものである。図9においては演奏者の左手の一部が隠れている。なお、情報処理装置100が動作する端末装置10の構成は第1の実施の形態と同様であるためその説明を省略する。
図10に示すように情報処理装置200は、画像入力部101、センサ情報取得部201、第1位置認識部202、第2位置認識部203、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108とから構成されている。画像入力部101、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108は第1の実施の形態と同様のものである。
センサ情報取得部201は端末装置10が備える、または端末装置10に接続された外部のセンサで取得されたセンサ情報を取得して第2位置認識部203に供給するものである。センサとしては、マイクロホン、圧力センサ、動きセンサなどがある。
第1位置認識部202は入力画像中において隠れていない演奏者の手の位置を認識するものであり、第1の実施の形態における位置認識部102と同様のものである。
第1位置認識部202は第1の実施の形態における位置認識部102と同様に、入力画像からHand Pose Detection、Hand Pose Estimationなどと称される人体の手認識技術やHOG、SIFTなどの特徴点抽出方法、Boosting、SVMなどのパターン認識による被写体認識方法、Graph Cutなどによる領域抽出方法、CNNなどにより、入力画像中における演奏者の身体の部位である手の3次元位置を認識する。
第2位置認識部203は、入力画像中において遮蔽されることによって一部が隠れている演奏者の手の3次元位置を補助情報を用いて認識するものである。補助情報としては、センサ情報取得部201から供給されるセンサ情報などがある。センサ情報としては、マイクロホンで集音される演奏の音、手または指が楽器を押圧する力を示す圧力センサ情報、演奏者の腕/手/指の動き示す動きセンサ情報などがある。さらに補助情報としては、第1位置認識部202と同様の手法を用いて認識した演奏者の腕および/または肘の位置/形状/動き情報などもある。
例えば、演奏者の腕および肘の位置、形状の情報から演奏者の肘から先の腕の先端にある手(隠れている手)が楽器の演奏領域のどこに位置しているかを推定して認識することができる。
第1位置認識部202および第2位置認識部203により取得された位置情報は3次元位置を示す情報であるため、例えば、入力画像の所定の位置を原点とした(x,y,z)の座標で表される。また、入力画像の一部領域を切り出した切り出し画像においては、切り出し画像の所定の位置を原点とした(u,v,d)の座標で表される。この点は第1の実施の形態と同様である。位置情報は形状認識部103および関連性認識部106に供給される。
第2の実施の形態における情報処理装置200は以上のように構成されている。
[2−2.情報処理装置の処理]
次に第2の実施の形態における情報処理装置200の処理の流れについて説明する。図11のフローチャートは第1の実施の形態で説明した、一つの入力画像に対応する部分演奏情報を生成するための処理に対応したものである。
次に第2の実施の形態における情報処理装置200の処理の流れについて説明する。図11のフローチャートは第1の実施の形態で説明した、一つの入力画像に対応する部分演奏情報を生成するための処理に対応したものである。
まずステップS101で、画像入力部101に対して入力画像が入力されると、次にステップS201で入力画像において手の一部が隠れているか否かが判定される。これは、例えば、第1位置認識部202において2つの手の全体が認識された否かに基づいて判定することができる。
手の一部が隠れている場合、処理はステップS202に進み(ステップS201のYes)、第2位置認識部203により補助情報を用いて一部が隠れている演奏者の手が認識される。
一方、手の一部が隠れていない場合処理はステップS103に進み、第1位置認識部202により演奏者の手が認識される。
これ以降の処理は第1の実施の形態におけるものと同様である。
また、図12のフローチャートに示すように、複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する処理においても図11のフローチャートにおけるステップS201とステップS202と同様の処理が行われる。
この第2の実施の形態によれば、入力画像において演奏者の手の一部が隠れていても第1の実施の形態と同様に演奏情報、楽譜情報の生成を行うことができる。
<3.第3の実施の形態>
[3−1.情報処理装置の構成]
次に本技術の第3の実施の形態について説明する。第3の実施の形態は図13に示すように、入力画像において楽器の一部が隠れているまたは映っていない場合において演奏情報の生成を行うものである。図13においては、楽器であるピアノの鍵盤の一部のみが映っており、鍵盤の一部が入力画像の画角外に存在している。なお、情報処理装置300が動作する端末装置10の構成は第1の実施の形態と同様であるためその説明を省略する。
[3−1.情報処理装置の構成]
次に本技術の第3の実施の形態について説明する。第3の実施の形態は図13に示すように、入力画像において楽器の一部が隠れているまたは映っていない場合において演奏情報の生成を行うものである。図13においては、楽器であるピアノの鍵盤の一部のみが映っており、鍵盤の一部が入力画像の画角外に存在している。なお、情報処理装置300が動作する端末装置10の構成は第1の実施の形態と同様であるためその説明を省略する。
図14に示すように、情報処理装置300は、画像入力部101、センサ情報取得部301、位置認識部102、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108とから構成されている。画像入力部101、位置認識部102、形状認識部103、動き認識部104、演奏情報生成部107、楽譜情報生成部108は第1の実施の形態と同様のものである。
センサ情報取得部201は、端末装置10が備える、または端末装置10に接続された外部のセンサで取得されたセンサ情報を取得して演奏情報生成部107に供給するものである。センサとしては、マイクロホン、圧力センサ、動きセンサなどがある。
楽器認識部105は、CNN、パターンマッチング、テンプレートマッチングなどの技術を用いて、入力画像中における楽器およびその楽器において演奏者の手が接触する演奏のための領域(演奏領域)を認識するものである。そこで、例えば、テンプレートマッチングで楽器の一部分のみがテンプレートと一致するような場合、認識された楽器は一部分が隠れているまたは映っていないと判断する。入力画像に楽器の一部分しか映ってないことを示す情報と共に楽器認識情報は関連性認識部106に供給される。
関連性認識部106は、CNN、パターンマッチングなどの技術を用いて演奏者の手の位置と楽器の演奏領域の関連性を認識する。関連性とは、演奏者の手が楽器の演奏領域のどこに接触しているかを示す接触位置である。また、関連性は、楽器の演奏領域に対する演奏者の手の動作の方向である。関連性認識部106は、入力画像中において楽器の一部しか映っていない場合、手の位置情報、手の形状情報、楽器(例えばピアノ)の演奏領域である鍵盤が並ぶ方向に対する略水平方向における腕/肘の開き具合の角度、腕の動きから指が接触している演奏領域を推定ことにより演奏者の指と楽器の演奏領域の関連性を認識する。関連性情報は演奏情報生成部107に供給される。
演奏情報生成部107は補助情報としてセンサ情報を用いて指が接触している鍵盤を推定する。センサ情報としては、マイクロホンで集音される演奏の音、手または指が楽器を押圧する力を示す圧力センサ情報、演奏者の腕/手/指の動き示す動きセンサ情報などがある。さらに関連性認識部106は、複数の入力画像において楽器全体が写っている入力画像がある場合、その入力画像と腕、手の動き情報から指が接触している鍵盤を推定することにより演奏者の指と楽器の演奏領域の関連性を推定する。
このように指が接触している鍵盤を推定することによりその推定結果から第1の実施の形態と同様に第1演奏要素、第2演奏要素、第3演奏要素を生成することができる。
第3の実施の形態に係る情報処理装置300は以上のように構成されている。
[3−2.情報処理装置の処理]
次に第3の実施の形態における情報処理装置300の処理の流れについて説明する。図15のフローチャートは第1の実施の形態で説明した、一つの入力画像に対応する演奏情報および楽譜情報を生成するための処理に対応したものである。
次に第3の実施の形態における情報処理装置300の処理の流れについて説明する。図15のフローチャートは第1の実施の形態で説明した、一つの入力画像に対応する演奏情報および楽譜情報を生成するための処理に対応したものである。
ステップS101乃至ステップS105は第1の実施の形態における処理と同様である。
ステップS301で、関連性認識部106は入力画像において楽器の演奏領域全体が映っているかを判定し、楽器の演奏領域全体が映っている場合処理はステップS106に進む(ステップS301のYes)。そして、ステップS106乃至ステップS112の処理が第1の実施の形態と同様に行われる。
一方、入力画像に楽器の演奏領域全体が映ってはいない場合、処理はステップS302に進む(ステップS301のNo)。そしてステップS302で関連性認識部106により、手の位置情報、センサ情報などを用いて関連性を推定する。
その後はステップS106乃至ステップS112の処理が第1の実施の形態と同様に行われて、部分演奏情報が生成されて出力される。
また、図16のフローチャートに示すように、複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する処理においても図15のフローチャートにおけるステップS301とステップS302と同様の処理が行われる。
この第3の実施の形態によれば、入力画像において楽器の一部が映っていなくても第1の実施の形態と同様に演奏情報、楽譜情報の生成を行うことができる。
<4.変形例>
以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。
以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。
実施の形態では演奏の音がなくても複数枚の連続する静止画像または動画を構成する複数のフレーム画像から演奏情報および楽譜情報を生成できると説明したが、本技術は音の使用を除外するものではない。演奏情報および楽譜情報を生成の際の補助情報として音情報を用いてもよいし、生成した演奏情報および楽譜情報の精度を確認する際に音情報を用いてもよい。例えば、入力映像の音声に対して音声認識処理を施し、音の周波数から音階を認識する、音量から強弱や演奏しているか否かを認識するなどである。
第2の実施の形態と第3の実施の形態を組み合わせることにより、入力画像において演奏者の手の一部および楽器の演奏領域の一部が映っていない場合でも演奏情報の生成を行うことができる。
本技術は実施の形態で挙げたピアノ、ギター、ドラムに限られず、木琴、鉄琴、パーカッションなどの楽器の演奏に対しても使用可能である。
実施の形態では主に押す、叩くなどのピアノの演奏方法、手をストロークさせる、爪弾くなどのギターの演奏方法を例にして説明を行ったが、それら以外の演奏方法、例えば、引っ張る、弾くなどの演奏動作を認識して演奏情報を生成してもよい。入力画像から認識できる楽器の演奏の動作であればどのような動作に基づいて演奏情報を生成してもよい。
第3の実施の形態においては、入力画像に写っていない楽器の一部を推定し、その推定結果に基づいて演奏情報生成部107が演奏情報を生成するようにしてもよい。
本技術は以下のような構成も取ることができる。
(1)
入力画像から演奏者の身体の部位の位置を認識する位置認識部と、
前記入力画像から楽器を認識する楽器認識部と、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する演奏情報生成部と
を備える情報処理装置。
(2)
前記位置認識部により認識された前記部位の形状を認識する形状認識部を備え、
前記演奏情報生成部は、前記部位の形状と前記楽器の関連性に基づき前記演奏情報を生成する(1)に記載の情報処理装置。
(3)
前記位置認識部により認識された前記部位の動きを認識する動き認識部を備え、
前記演奏情報生成部は、前記部位の動きと前記楽器の関連性に基づき前記演奏情報を生成する(1)または(2)に記載の情報処理装置。
(4)
前記演奏情報は、前記演奏者が前記楽器を演奏している状態に対応した第1演奏要素を含む(1)から(3)のいずれかに記載の情報処理装置。
(5)
前記第1演奏要素は、前記演奏者により演奏されている音階を含む(4)に記載の情報処理装置。
(6)
前記演奏情報は、前記演奏者が前記楽器を演奏してない状態に対応した第2演奏要素を含む(1)から(5)のいずれかに請求項1に記載の情報処理装置。
(7)
前記第2演奏要素は、前記演奏者により演奏されていない休みの長さを含む(6)に記載の情報処理装置。
(8)
前記演奏情報は、複数の前記入力画像間に跨る要素である第3演奏要素を含む(1)から(7)のいずれかに記載の情報処理装置。
(9)
前記第3演奏要素は、前記演奏者により演奏されている曲のテンポを含む(8)に記載の情報処理装置。
(10)
前記演奏情報生成部は、一の前記入力画像に対応した前記演奏情報を生成する(1)から(9)のいずれかに記載の情報処理装置。
(11)
前記演奏情報生成部は、複数の前記入力画像により構成される前記楽器の演奏の一部または全部に対応する演奏情報を生成する(1)から(9)のいずれかに記載の情報処理装置。
(12)
前記関連性は、前記楽器に対する前記部位の接触位置である(1)から(11)のいずれかに記載の情報処理装置。
(13)
前記関連性は、前記楽器に対する前記部位の動作の方向である(1)から(12)のいずれかに記載の情報処理装置。
(14)
前記部位は前記演奏者の手である(1)から(13)のいずれかに記載の情報処理装置。
(15)
前記演奏情報から楽譜情報を生成する楽譜情報生成部を備える(1)から(14)のいずれかに記載の情報処理装置。
(16)
前記入力画像において前記部位の一部が映っていない場合、前記部位の一部の位置を推定し、前記演奏情報生成部は推定結果に基づき前記演奏情報を生成する(1)から(15)のいずれかに記載の情報処理装置。
(17)
前記入力画像において前記楽器の一部が映っていない場合、前記演奏情報生成部は、前記部位と前記楽器の一部との前記関連性を推定し、推定結果に基づき前記演奏情報を生成する(1)から(16)のいずれかに記載の情報処理装置。
(18)
前記演奏情報生成部は、補助情報として音情報を用いて前記演奏情報を生成する(1)から(17)のいずれかに記載の情報処理装置。
(19)
入力画像から演奏者の身体の部位の位置を認識し、
前記入力画像から楽器を認識し、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法。
(20)
入力画像から演奏者の身体の部位の位置を認識し、
前記入力画像から楽器を認識し、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法をコンピュータに実行させる情報処理プログラム。
(1)
入力画像から演奏者の身体の部位の位置を認識する位置認識部と、
前記入力画像から楽器を認識する楽器認識部と、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する演奏情報生成部と
を備える情報処理装置。
(2)
前記位置認識部により認識された前記部位の形状を認識する形状認識部を備え、
前記演奏情報生成部は、前記部位の形状と前記楽器の関連性に基づき前記演奏情報を生成する(1)に記載の情報処理装置。
(3)
前記位置認識部により認識された前記部位の動きを認識する動き認識部を備え、
前記演奏情報生成部は、前記部位の動きと前記楽器の関連性に基づき前記演奏情報を生成する(1)または(2)に記載の情報処理装置。
(4)
前記演奏情報は、前記演奏者が前記楽器を演奏している状態に対応した第1演奏要素を含む(1)から(3)のいずれかに記載の情報処理装置。
(5)
前記第1演奏要素は、前記演奏者により演奏されている音階を含む(4)に記載の情報処理装置。
(6)
前記演奏情報は、前記演奏者が前記楽器を演奏してない状態に対応した第2演奏要素を含む(1)から(5)のいずれかに請求項1に記載の情報処理装置。
(7)
前記第2演奏要素は、前記演奏者により演奏されていない休みの長さを含む(6)に記載の情報処理装置。
(8)
前記演奏情報は、複数の前記入力画像間に跨る要素である第3演奏要素を含む(1)から(7)のいずれかに記載の情報処理装置。
(9)
前記第3演奏要素は、前記演奏者により演奏されている曲のテンポを含む(8)に記載の情報処理装置。
(10)
前記演奏情報生成部は、一の前記入力画像に対応した前記演奏情報を生成する(1)から(9)のいずれかに記載の情報処理装置。
(11)
前記演奏情報生成部は、複数の前記入力画像により構成される前記楽器の演奏の一部または全部に対応する演奏情報を生成する(1)から(9)のいずれかに記載の情報処理装置。
(12)
前記関連性は、前記楽器に対する前記部位の接触位置である(1)から(11)のいずれかに記載の情報処理装置。
(13)
前記関連性は、前記楽器に対する前記部位の動作の方向である(1)から(12)のいずれかに記載の情報処理装置。
(14)
前記部位は前記演奏者の手である(1)から(13)のいずれかに記載の情報処理装置。
(15)
前記演奏情報から楽譜情報を生成する楽譜情報生成部を備える(1)から(14)のいずれかに記載の情報処理装置。
(16)
前記入力画像において前記部位の一部が映っていない場合、前記部位の一部の位置を推定し、前記演奏情報生成部は推定結果に基づき前記演奏情報を生成する(1)から(15)のいずれかに記載の情報処理装置。
(17)
前記入力画像において前記楽器の一部が映っていない場合、前記演奏情報生成部は、前記部位と前記楽器の一部との前記関連性を推定し、推定結果に基づき前記演奏情報を生成する(1)から(16)のいずれかに記載の情報処理装置。
(18)
前記演奏情報生成部は、補助情報として音情報を用いて前記演奏情報を生成する(1)から(17)のいずれかに記載の情報処理装置。
(19)
入力画像から演奏者の身体の部位の位置を認識し、
前記入力画像から楽器を認識し、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法。
(20)
入力画像から演奏者の身体の部位の位置を認識し、
前記入力画像から楽器を認識し、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法をコンピュータに実行させる情報処理プログラム。
100、200、300・・・情報処理装置
102・・・位置認識部
103・・・形状認識部
104・・・動き認識部
105・・・楽器認識部
107・・・演奏情報生成部
108・・・楽譜情報生成部
202・・・第1位置認識部
203・・・第2位置認識部
102・・・位置認識部
103・・・形状認識部
104・・・動き認識部
105・・・楽器認識部
107・・・演奏情報生成部
108・・・楽譜情報生成部
202・・・第1位置認識部
203・・・第2位置認識部
Claims (20)
- 入力画像から演奏者の身体の部位の位置を認識する位置認識部と、
前記入力画像から楽器を認識する楽器認識部と、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する演奏情報生成部と
を備える情報処理装置。 - 前記位置認識部により認識された前記部位の形状を認識する形状認識部を備え、
前記演奏情報生成部は、前記部位の形状と前記楽器の関連性に基づき前記演奏情報を生成する
請求項1に記載の情報処理装置。 - 前記位置認識部により認識された前記部位の動きを認識する動き認識部を備え、
前記演奏情報生成部は、前記部位の動きと前記楽器の関連性に基づき前記演奏情報を生成する
請求項1に記載の情報処理装置。 - 前記演奏情報は、前記演奏者が前記楽器を演奏している状態に対応した第1演奏要素を含む
請求項1に記載の情報処理装置。 - 前記第1演奏要素は、前記演奏者により演奏されている音階を含む
請求項4に記載の情報処理装置。 - 前記演奏情報は、前記演奏者が前記楽器を演奏してない状態に対応した第2演奏要素を含む
請求項1に記載の情報処理装置。 - 前記第2演奏要素は、前記演奏者により演奏されていない休みの長さを含む
請求項6に記載の情報処理装置。 - 前記演奏情報は、複数の前記入力画像間に跨る要素である第3演奏要素を含む
請求項1に記載の情報処理装置。 - 前記第3演奏要素は、前記演奏者により演奏されている曲のテンポを含む
請求項8に記載の情報処理装置。 - 前記演奏情報生成部は、一の前記入力画像に対応した前記演奏情報を生成する
請求項1に記載の情報処理装置。 - 前記演奏情報生成部は、複数の前記入力画像により構成される前記楽器の演奏の一部または全部に対応する演奏情報を生成する
請求項1に記載の情報処理装置。 - 前記関連性は、前記楽器に対する前記部位の接触位置である
請求項1に記載の情報処理装置。 - 前記関連性は、前記楽器に対する前記部位の動作の方向である
請求項1に記載の情報処理装置。 - 前記部位は前記演奏者の手である
請求項1に記載の情報処理装置。 - 前記演奏情報から楽譜情報を生成する楽譜情報生成部を備える
請求項1に記載の情報処理装置。 - 前記入力画像において前記部位の一部が映っていない場合、前記部位の一部の位置を推定し、前記演奏情報生成部は推定結果に基づき前記演奏情報を生成する
請求項1に記載の情報処理装置。 - 前記入力画像において前記楽器の一部が映っていない場合、前記演奏情報生成部は、前記部位と前記楽器の一部との前記関連性を推定し、推定結果に基づき前記演奏情報を生成する
請求項1に記載の情報処理装置。 - 前記演奏情報生成部は、補助情報として音情報を用いて前記演奏情報を生成する
請求項1に記載の情報処理装置。 - 入力画像から演奏者の身体の部位の位置を認識し、
前記入力画像から楽器を認識し、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法。 - 入力画像から演奏者の身体の部位の位置を認識し、
前記入力画像から楽器を認識し、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法をコンピュータに実行させる情報処理プログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018173676A JP2020046500A (ja) | 2018-09-18 | 2018-09-18 | 情報処理装置、情報処理方法および情報処理プログラム |
| PCT/JP2019/026290 WO2020059245A1 (ja) | 2018-09-18 | 2019-07-02 | 情報処理装置、情報処理方法および情報処理プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018173676A JP2020046500A (ja) | 2018-09-18 | 2018-09-18 | 情報処理装置、情報処理方法および情報処理プログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2020046500A true JP2020046500A (ja) | 2020-03-26 |
Family
ID=69886908
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018173676A Pending JP2020046500A (ja) | 2018-09-18 | 2018-09-18 | 情報処理装置、情報処理方法および情報処理プログラム |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP2020046500A (ja) |
| WO (1) | WO2020059245A1 (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2022070769A1 (ja) * | 2020-09-30 | 2022-04-07 | ||
| WO2022202265A1 (ja) * | 2021-03-25 | 2022-09-29 | ヤマハ株式会社 | 画像処理方法、画像処理システムおよびプログラム |
| WO2022202266A1 (ja) * | 2021-03-25 | 2022-09-29 | ヤマハ株式会社 | 画像処理方法、画像処理システムおよびプログラム |
| WO2023032422A1 (ja) * | 2021-09-03 | 2023-03-09 | キヤノン株式会社 | 処理方法、プログラムおよび処理装置 |
| WO2025100385A1 (ja) * | 2023-11-06 | 2025-05-15 | eMotto株式会社 | 楽音入力装置、演奏状態表示装置、楽譜、演奏教示装置、楽音入力方法、演奏状態表示方法、演奏教示方法、プログラム及び記録媒体 |
| JP7728624B1 (ja) * | 2025-05-13 | 2025-08-25 | 晴男 村山 | 演奏データ生成装置、モデル生成装置、及びプログラム |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7540264B2 (ja) * | 2020-09-25 | 2024-08-27 | 株式会社Jvcケンウッド | プログラム、演奏評価装置、及び演奏評価方法 |
| WO2022130128A1 (en) | 2020-12-17 | 2022-06-23 | 3M Innovative Properties Company | Sound attenuation rating systems and methods |
| CN116386424A (zh) * | 2023-04-12 | 2023-07-04 | 黄志坚 | 一种用于音乐教学的方法、设备和计算机可读存储介质 |
| WO2024212940A1 (zh) * | 2023-04-12 | 2024-10-17 | 黄志坚 | 一种用于音乐教学的方法、设备和计算机可读存储介质 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0753117Y2 (ja) * | 1989-06-27 | 1995-12-06 | ヤマハ株式会社 | 電子鍵盤楽器 |
| JP2002215139A (ja) * | 2001-01-17 | 2002-07-31 | Casio Comput Co Ltd | 演奏操作記録装置および演奏操作記録方法 |
| JP2004177546A (ja) * | 2002-11-26 | 2004-06-24 | Casio Comput Co Ltd | 演奏教習装置、演奏教習方法および演奏教習プログラム |
| JP4501620B2 (ja) * | 2004-09-27 | 2010-07-14 | カシオ計算機株式会社 | 演奏評価システムおよび演奏評価処理のプログラム |
| JP2006091632A (ja) * | 2004-09-27 | 2006-04-06 | Casio Comput Co Ltd | 演奏データ作成システムおよび演奏データ作成処理のプログラム |
| JP4765705B2 (ja) * | 2006-03-22 | 2011-09-07 | ヤマハ株式会社 | 楽音制御装置 |
| KR101679239B1 (ko) * | 2010-07-06 | 2016-11-24 | 삼성전자주식회사 | 휴대용 단말기에서 증강 현실 기법을 이용한 악기 연주를 제공하기 위한 장치 및 방법 |
| JP6618276B2 (ja) * | 2015-05-29 | 2019-12-11 | キヤノン株式会社 | 情報処理装置、その制御方法、プログラム、及び記憶媒体 |
-
2018
- 2018-09-18 JP JP2018173676A patent/JP2020046500A/ja active Pending
-
2019
- 2019-07-02 WO PCT/JP2019/026290 patent/WO2020059245A1/ja not_active Ceased
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116324932A (zh) * | 2020-09-30 | 2023-06-23 | 雅马哈株式会社 | 信息处理方法及信息处理系统 |
| WO2022070769A1 (ja) * | 2020-09-30 | 2022-04-07 | ヤマハ株式会社 | 情報処理方法および情報処理システム |
| JP7835254B2 (ja) | 2020-09-30 | 2026-03-25 | ヤマハ株式会社 | 情報処理方法、情報処理システムおよびプログラム |
| JPWO2022070769A1 (ja) * | 2020-09-30 | 2022-04-07 | ||
| JP2024170465A (ja) * | 2020-09-30 | 2024-12-10 | ヤマハ株式会社 | 情報処理方法、情報処理システムおよびプログラム |
| JP7548323B2 (ja) | 2020-09-30 | 2024-09-10 | ヤマハ株式会社 | 情報処理方法および情報処理システム |
| WO2022202266A1 (ja) * | 2021-03-25 | 2022-09-29 | ヤマハ株式会社 | 画像処理方法、画像処理システムおよびプログラム |
| JP2022149159A (ja) * | 2021-03-25 | 2022-10-06 | ヤマハ株式会社 | 画像処理方法、画像処理システムおよびプログラム |
| JP2022149158A (ja) * | 2021-03-25 | 2022-10-06 | ヤマハ株式会社 | 画像処理方法、画像処理システムおよびプログラム |
| JP7651901B2 (ja) | 2021-03-25 | 2025-03-27 | ヤマハ株式会社 | 画像処理方法、画像処理システムおよびプログラム |
| WO2022202265A1 (ja) * | 2021-03-25 | 2022-09-29 | ヤマハ株式会社 | 画像処理方法、画像処理システムおよびプログラム |
| WO2023032422A1 (ja) * | 2021-09-03 | 2023-03-09 | キヤノン株式会社 | 処理方法、プログラムおよび処理装置 |
| WO2025100385A1 (ja) * | 2023-11-06 | 2025-05-15 | eMotto株式会社 | 楽音入力装置、演奏状態表示装置、楽譜、演奏教示装置、楽音入力方法、演奏状態表示方法、演奏教示方法、プログラム及び記録媒体 |
| JP7728624B1 (ja) * | 2025-05-13 | 2025-08-25 | 晴男 村山 | 演奏データ生成装置、モデル生成装置、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2020059245A1 (ja) | 2020-03-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2020059245A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
| US9905090B2 (en) | Automatic fitting of haptic effects | |
| EP3759707B1 (en) | A method and system for musical synthesis using hand-drawn patterns/text on digital and non-digital surfaces | |
| US10748515B2 (en) | Enhanced real-time audio generation via cloud-based virtualized orchestra | |
| CN111630573A (zh) | 信息处理方法 | |
| US20170344113A1 (en) | Hand-held controller for a computer, a control system for a computer and a computer system | |
| WO2022252966A1 (zh) | 虚拟乐器的音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
| CN105786162A (zh) | 一种用于进行虚拟演奏指挥的方法和装置 | |
| CN109564756B (zh) | 一种智能钢琴系统 | |
| WO2022111260A1 (zh) | 音乐筛选方法、装置、设备及介质 | |
| CN106601217A (zh) | 一种交互式乐器演奏方法及装置 | |
| Overholt | Advancements in violin-related human-computer interaction | |
| CN117121090A (zh) | 信息处理方法、信息处理系统及程序 | |
| Shang et al. | A music performance method based on visual gesture recognition | |
| WO2023032422A1 (ja) | 処理方法、プログラムおよび処理装置 | |
| CN117043818A (zh) | 图像处理方法、图像处理系统及程序 | |
| HK40053936B (zh) | 音乐筛选方法、装置、设备及介质 | |
| Driessen et al. | Digital sensing of musical instruments | |
| CN107404581B (zh) | 移动终端的乐器模拟方法、装置及存储介质和移动终端 | |
| TW202511905A (zh) | 影音系統及影音互動方法 | |
| Cicconet | The Guitar as a Human-Computer Interface | |
| Martin | Touchless gestural control of concatenative sound synthesis | |
| CN114822454A (zh) | 一种智能乐器演奏方法及智能乐器 | |
| CN120821357A (zh) | 交互方法、电子设备、可读介质及程序产品 | |
| Dasari | Gestural musical interfaces using real time machine learning |