EP4171045B1 - Herstellungsverfahren und -vorrichtung für multimedia-arbeiten und computerlesbares speichermedium - Google Patents

Herstellungsverfahren und -vorrichtung für multimedia-arbeiten und computerlesbares speichermedium

Info

Publication number
EP4171045B1
EP4171045B1 EP21862207.4A EP21862207A EP4171045B1 EP 4171045 B1 EP4171045 B1 EP 4171045B1 EP 21862207 A EP21862207 A EP 21862207A EP 4171045 B1 EP4171045 B1 EP 4171045B1
Authority
EP
European Patent Office
Prior art keywords
audio
target
pictures
multimedia information
understanding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP21862207.4A
Other languages
English (en)
French (fr)
Other versions
EP4171045A4 (de
EP4171045A1 (de
Inventor
Xiaojuan Cai
Xuchen SONG
Gen LI
Haoyuan ZHONG
Weishu MO
Hui Li
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lemon Inc Cayman Island
Original Assignee
Lemon Inc Cayman Island
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lemon Inc Cayman Island filed Critical Lemon Inc Cayman Island
Publication of EP4171045A1 publication Critical patent/EP4171045A1/de
Publication of EP4171045A4 publication Critical patent/EP4171045A4/de
Application granted granted Critical
Publication of EP4171045B1 publication Critical patent/EP4171045B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/021Background music, e.g. for video sequences or elevator music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Claims (13)

  1. Herstellungsverfahren für Multimedia-Werke, umfassend:
    (S101) Erfassen eines Zielaudios und einer Vielzahl von Multimedia-Informationen, wobei jede der Vielzahl von Multimedia-Informationen ein Bild oder ein Video umfasst;
    (S102) Bestimmen eines Übereinstimmungsgrades zwischen dem Zielaudio und jeder der Vielzahl von Multimedia-Informationen, um eine Vielzahl von Übereinstimmungsgraden zu erhalten, Sortieren der Vielzahl von Multimedia-Informationen in einer Reihenfolge der Vielzahl von Übereinstimmungsgraden von hoch nach niedrig und Heranziehen einer ersten voreingestellten Anzahl von Multimedia-Informationen, die oben gereiht sind, als Ziel-Multimedia-Information, wobei die Ziel-Multimedia-Information M Bilder enthält, wobei M eine positive ganze Zahl größer als eins ist;
    (S103) Bestimmen einer Bildqualität jedes der M Bilder in der Ziel-Multimedia-Information, Sortieren der M Bilder in der Ziel-Multimedia-Information in einer Reihenfolge ihrer Bildqualität von hoch nach niedrig und Auswählen von oberen N Bildern aus den M Bildern in der Reihenfolge ihrer Bildqualität von hoch nach niedrig als Zielbilder zum Synthetisieren eines Multimedia-Werks, wobei alle anderen Bilder in den M Bildern außer den oberen N Bildern von den Zielbildern zum Synthetisieren des Multimedia-Werks ausgeschlossen werden, N eine positive ganze Zahl größer als eins ist und M größer als N ist; und
    (S104) Synthetisieren des Multimedia-Werks gemäß den Zielbildern und dem Zielaudio,
    wobei Synthetisieren des Multimedia-Werks gemäß den Zielbildern und dem Zielaudio Folgendes umfasst:
    zufälliges Auswählen einer dritten voreingestellten Anzahl P von Bildern aus den Zielbildern, die mit dem Zielaudio synthetisiert werden sollen, um ein erstes Multimedia-Werk zu erhalten, wobei P eine positive ganze Zahl kleiner oder gleich N ist; oder
    zufälliges Neuanordnen der mit dem Zielaudio zu synthetisierenden Zielbilder und zufälliges Auswählen der dritten voreingestellten Anzahl P von Bildern aus den neu angeordneten Zielbildern, um ein zweites Multimedia-Werk zu erhalten.
  2. Herstellungsverfahren für Multimedia-Werke nach Anspruch 1, wobei Bestimmen des Übereinstimmungsgrads zwischen dem Zielaudio und jeder der Vielzahl von Multimedia-Informationen, um eine Vielzahl von Übereinstimmungsgraden zu erhalten, umfasst:
    Erfassen eines Audiomerkmals des Zielaudios, Eingeben des Audiomerkmals in ein vortrainiertes Audioverständnismodell und Erhalten eines Audioverständnismerkmals des vom Audioverständnismodell ausgegebenen Zielaudios;
    Durchführen einer Einzelbildextraktion an der Vielzahl von Multimedia-Informationen, Eingeben des Einzelbildextraktionsergebnisses in ein vortrainiertes Videoverständnismodell und Erhalten eines Videoverständnismerkmals für jede der von dem Videoverständnismodell ausgegebenen Vielzahl von Multimedia-Informationen;
    Eingeben des Audioverständnismerkmals und Videoverständnismerkmals jeder der Vielzahl von Multimedia-Informationen in ein vortrainiertes Matching-Modell, um einen Übereinstimmungsgrad zwischen dem Audioverständnismerkmal und dem Videoverständnismerkmal, der vom Matching-Modell ausgegeben wird, als die Vielzahl von Übereinstimmungsgraden zwischen dem Zielaudio und der Vielzahl von Multimedia-Informationen zu erhalten.
  3. Herstellungsverfahren für Multimedia-Werke nach Anspruch 2, wobei das Audioverständnismodell eine erste Merkmalsextraktionsschicht und eine erste Klassifizierungsschicht umfasst; und
    ein Verfahren zum Trainieren des Audioverständnismodells umfasst:
    Initialisieren von Parametern der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht;
    Heranziehen von Audiomerkmalen einer bestimmten Anzahl von Musikbeispielen als Trainingsbeispiele, Heranziehen eines Musiktyps jedes Musikbeispiels als Beispielbezeichnung für jedes Trainingsbeispiel, Eingeben des Trainingsbeispiels und der Beispielbezeichnung in die erste Merkmalsextraktionsschicht und Erhalten eines Audioverständnismerkmals des Trainingsbeispiels, das von der ersten Merkmalsextraktionsschicht ausgegeben wird;
    Eingeben des Audioverständnismerkmals des Trainingsbeispiels in die erste Klassifizierungsschicht, um ein Vorhersageergebnis eines Musiktyps des Trainingsbeispiels zu erhalten, das von der ersten Klassifizierungsschicht ausgegeben wird; und
    Berechnen einer Abweichung zwischen dem Vorhersageergebnis und der dem Trainingsbeispiel entsprechenden Beispielbezeichnung und Anpassen der Parameter der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht mittels umgekehrter Rückkopplung, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um dadurch das trainierte Audioverständnismodell zu erhalten.
  4. Herstellungsverfahren für Multimedia-Werke nach Anspruch 3, wobei Erhalten des Audioverständnismerkmals eines Musikstücks, das von dem Audioverständnismodell ausgegeben wird, umfasst:
    Eingeben des Musikstücks in das Audioverständnismodell und Erhalten des Audioverständnismerkmals des Musikstücks, das von der ersten Merkmalsextraktionsschicht des Audioverständnismodells ausgegeben wird.
  5. Herstellungsverfahren für Multimedia-Werke nach einem der Ansprüche 2 bis 4, wobei ein Verfahren zum Trainieren des Videoverständnismodells Folgendes umfasst:
    Übertragen eines trainierten Ausgangsmodells und Anpassen eines Parameters und einer Struktur des Ausgangsmodells in Kombination mit einem Einzelbildextraktionsergebnis aus Beispiel-Multimediainformationen, um ein Transferlernmodell zu erhalten; und
    gemäß einem Backpropagation-Verfahren, Trainieren des Transferlernmodells unter Verwendung des Einzelbildextraktionsergebnisses der Beispiel-Multimedia-Informationen und eines Themas der Beispiel-Multimedia-Informationen und Heranziehen des trainierten Transferlernmodells als das Videoverständnismodell.
  6. Herstellungsverfahren für Multimedia-Werke nach Anspruch 5, wobei das Videoverständnismodell eine zweite Merkmalsextraktionsschicht und eine zweite Klassifizierungsschicht umfasst; und
    Trainieren des Transferlernmodells unter Verwendung des Einzelbildextraktionsergebnisses der Beispiel-Multimedia-Informationen und des Themas der Beispiel-Multimedia-Informationen gemäß dem Backpropagation-Verfahren umfasst:
    Initialisieren von Parametern der zweiten Merkmalsextraktionsschicht und der zweiten Klassifizierungsschicht;
    Heranziehen des Einzelbildextraktionsergebnisses der Beispiel-Multimedia-Informationen als ein Trainingsbeispiel, Heranziehen des Themas der Beispiel-Multimedia-Informationen als eine Beispielbezeichnung, Eingeben des Trainingsbeispiels und der Beispielbezeichnung in die zweite Merkmalsextraktionsschicht und Erhalten eines Videoverständnismerkmals des Trainingsbeispiels, das von der zweiten Merkmalsextraktionsschicht ausgegeben wird;
    Eingeben des Videoverständnismerkmals des Trainingsbeispiels in die zweite Klassifizierungsschicht, um ein Vorhersageergebnis des Themas des Trainingsbeispiels zu erhalten, das von der zweiten Klassifizierungsschicht ausgegeben wird; und
    Berechnen einer Abweichung zwischen dem Vorhersageergebnis und der dem Trainingsbeispiel entsprechenden Beispielbezeichnung und Anpassen der Parameter der zweiten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht mittels umgekehrter Rückkopplung, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um dadurch das trainierte Transferlernmodell zu erhalten.
  7. Herstellungsverfahren für Multimedia-Werke nach Anspruch 6, wobei Eingeben des Einzelbildextraktionsergebnisses in das vortrainierte Videoverständnismodell und Erhalten des Videoverständnismerkmals der Multimedia-Informationen, das vom Videoverständnismodell ausgegeben wird, umfasst:
    Eingeben des Einzelbildextraktionsergebnisses in das Videoverständnismodell, um das Videoverständnismerkmal der Multimedia-Information zu erhalten, das von der zweiten Merkmalsextraktionsschicht des Videoverständnismodells ausgegeben wird.
  8. Herstellungsverfahren für Multimedia-Werke nach einem der Ansprüche 1 bis 7, wobei Bestimmen der Bildqualität jeweiliger M Bilder in der Ziel-Multimedia-Information Folgendes umfasst:
    Eingeben der M Bilder in ein vortrainiertes Bildqualitätsvorhersagemodell, um Bildqualität der M Bilder zu erhalten, die vom Bildqualitätsvorhersagemodell ausgegeben wird.
  9. Herstellungsverfahren für Multimedia-Werke nach Anspruch 8, wobei ein Verfahren zum Trainieren des Bildqualitätsvorhersagemodells Folgendes umfasst:
    Initialisieren eines Parameters des Bildqualitätsvorhersagemodells;
    Heranziehen einer bestimmten Anzahl von Beispielbildern als Trainingsbeispiele, Heranziehen von Bildqualitätswerten der Beispielbilder als Beispielbezeichnungen, Eingeben der Trainingsbeispiele in das Bildqualitätsvorhersagemodell, um Vorhersageergebnisse der Bildqualitätswerte der Trainingsbeispiele zu erhalten, die vom Bildqualitätsvorhersagemodell ausgegeben werden;
    Berechnen einer Abweichung zwischen einer ersten und einer zweiten Differenz, wobei die erste Differenz eine Differenz zwischen den Vorhersageergebnissen von Bildqualitätswerten zweier beliebiger Trainingsbeispiele ist und die zweite Differenz eine Differenz zwischen Trainingsbeispielen ist, die den beliebigen zwei Beispiel bezeichnungen entsprechen; und
    Anpassen des Parameters des Bildqualitätsvorhersagemodells durch umgekehrte Rückkopplung, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um so das trainierte Bildqualitätsvorhersagemodell zu erhalten.
  10. Produktionseinrichtung für Multimedia-Werke, umfassend:
    ein Materialerfassungsmodul (101), das so konfiguriert ist, dass es ein Zielaudio und eine Vielzahl von Multimedia-Informationen erfasst, wobei jede der Vielzahl von Multimedia-Informationen ein Bild oder ein Video umfasst;
    ein Übereinstimmungsmodul (102), das so konfiguriert ist, dass es einen Übereinstimmungsgrad zwischen dem Zielaudio und jeder der Vielzahl von Multimedia-Informationen bestimmt, um eine Vielzahl von Übereinstimmungsgraden zu erhalten, eine Vielzahl der Multimedia-Informationen in der Reihenfolge der Vielzahl von Übereinstimmungsgraden von hoch nach niedrig sortiert und eine erste voreingestellte Anzahl von Multimedia-Informationen, die in der obersten Reihenfolge rangieren, als Ziel-Multimedia-Information heranzieht, wobei die Ziel-Multimedia-Information M Bilder enthält, wobei M eine positive ganze Zahl größer als eins ist;
    ein Zielbilderfassungsmodul (103), das so konfiguriert ist, dass es Bildqualität jedes der M Bilder in der Ziel-Multimedia-Information bestimmt, die M Bilder in der Ziel-Multimedia-Information in einer Reihenfolge ihrer Bildqualität von hoch nach niedrig sortiert und obere N Bilder aus den M Bildern in der Reihenfolge ihrer Bildqualität von hoch nach niedrig als Zielbilder zum Synthetisieren eines Multimedia-Werks auswählt, wobei alle anderen Bilder in den M Bildern außer den oberen N Bildern von den Zielbildern zum Synthetisieren des Multimedia-Werks ausgeschlossen werden, N eine positive ganze Zahl größer als eins ist und M größer als N; und
    ein Musiksynthesemodul (104), das so konfiguriert ist, dass es das Multimedia-Werk gemäß den Zielbildern und dem Zielaudio synthetisiert,
    wobei Synthetisieren des Multimedia-Werks gemäß den Zielbildern und dem Zielaudio Folgendes umfasst:
    zufälliges Auswählen einer dritten voreingestellten Anzahl P von Bildern aus den Zielbildern, die mit dem Zielaudio synthetisiert werden sollen, um ein erstes Multimedia-Werk zu erhalten, wobei P eine positive ganze Zahl kleiner oder gleich N ist; oder
    zufälliges Neuanordnen der mit dem Zielaudio zu synthetisierenden Zielbilder und zufälliges Auswählen der dritten voreingestellten Anzahl P von Bildern aus den neu angeordneten Zielbildern, um ein zweites Multimedia-Werk zu erhalten.
  11. Computerlesbares Speichermedium, wobei eine Computeranweisung auf dem computerlesbaren Speichermedium gespeichert ist, wobei die Computeranweisung, wenn sie von einem Prozessor ausgeführt wird, die Schritte des Herstellungsverfahrens für Multimedia-Werke nach einem der Ansprüche 1 bis 9 implementiert.
  12. Produktionseinrichtung für Multimedia-Werke nach Anspruch 10, wobei das Übereinstimmungsmodul Folgendes umfasst:
    eine Audioverständniseinheit, die so konfiguriert ist, dass sie ein Audiomerkmal des Zielaudios erfasst, das Audiomerkmal in ein vortrainiertes Audioverständnismodell eingibt und ein Audioverständnismerkmal des Zielaudios erhält, das von dem Audioverständnismodell ausgegeben wird;
    eine Videoanalyseeinheit, die so konfiguriert ist, dass sie eine Einzelbildextraktion an der Vielzahl von Multimedia-Informationen durchführt, ein Einzelbildextraktionsergebnis in ein vortrainiertes Videoanalysemodell eingibt und ein Videoanalysemerkmal jeder der Vielzahl von Multimedia-Informationen erhält, das von dem Videoverständnismodell ausgegeben wird; und
    Übereinstimmungsgrad-Bestimmungseinheit, die so konfiguriert ist, dass sie das Audioverständnismerkmal und das Videoverständnismerkmal jeder der Vielzahl von Multimedia-Informationen in ein vortrainiertes Übereinstimmungsmodell eingibt und einen Übereinstimmungsgrad zwischen dem Audioverständnismerkmal und dem Videoverständnismerkmal, der von dem Übereinstimmungsmodell ausgegeben wird, als die Vielzahl von Übereinstimmungsgraden zwischen dem Zielaudio und der Vielzahl von Multimedia-Informationen erhält.
  13. Produktionseinrichtung für Multimedia-Werke nach Anspruch 12, wobei das Audioverständnismodell eine erste Merkmalsextraktionsschicht und eine erste Klassifizierungsschicht umfasst;
    das Übereinstimmungsmodul weiter eine Audioverständnistrainingseinheit umfasst, die so konfiguriert ist, dass sie das Audioverständnismodell trainiert; und
    die Audioverständnistrainingseinheit weiter umfasst:
    eine erste Parameterinitialisierungsuntereinheit, die so konfiguriert ist, dass sie Parameter der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht initialisiert;
    eine erste Merkmalserfassungsuntereinheit, die so konfiguriert ist, dass sie Audiomerkmale einer bestimmten Anzahl von Musikbeispielen als Trainingsbeispiele heranzieht, einen Musiktyp jedes Musikbeispiels als eine Beispielbezeichnung für jedes Trainingsbeispiel heranzieht, das Trainingsbeispiel und die Beispielbezeichnung in die erste Merkmalsextraktionsschicht eingibt und ein Audioverständnismerkmal des Trainingsbeispiels erhält, das von der ersten Merkmalsextraktionsschicht ausgegeben wird;
    eine erste Vorhersageergebniserfassungsuntereinheit, die so konfiguriert ist, dass sie das Audioverständnismerkmal des Trainingsbeispiels in die erste Klassifizierungsschicht eingibt und ein Vorhersageergebnis eines Musiktyps Trainingsbeispiels erhält, das von der ersten Klassifizierungsschicht ausgegeben wird; und
    eine erste Feedback-Untereinheit, die so konfiguriert ist, dass sie eine Abweichung zwischen dem Vorhersageergebnis und der dem Trainingsbeispiel entsprechenden Beispielbezeichnung berechnet und die Parameter der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht mittels umgekehrter Rückkopplung anpasst, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um so das trainierte Audioverständnismodell zu erhalten.
EP21862207.4A 2020-08-31 2021-08-11 Herstellungsverfahren und -vorrichtung für multimedia-arbeiten und computerlesbares speichermedium Active EP4171045B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010901767.7A CN114117086A (zh) 2020-08-31 2020-08-31 多媒体作品的制作方法、装置及计算机可读存储介质
PCT/SG2021/050470 WO2022045968A1 (zh) 2020-08-31 2021-08-11 多媒体作品的制作方法、装置及计算机可读存储介质

Publications (3)

Publication Number Publication Date
EP4171045A1 EP4171045A1 (de) 2023-04-26
EP4171045A4 EP4171045A4 (de) 2023-10-11
EP4171045B1 true EP4171045B1 (de) 2026-04-08

Family

ID=80353748

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21862207.4A Active EP4171045B1 (de) 2020-08-31 2021-08-11 Herstellungsverfahren und -vorrichtung für multimedia-arbeiten und computerlesbares speichermedium

Country Status (5)

Country Link
US (1) US12306867B2 (de)
EP (1) EP4171045B1 (de)
JP (1) JP7502553B2 (de)
CN (1) CN114117086A (de)
WO (1) WO2022045968A1 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117086A (zh) 2020-08-31 2022-03-01 脸萌有限公司 多媒体作品的制作方法、装置及计算机可读存储介质
PL4032419T3 (pl) 2021-01-26 2025-09-01 Jt International Sa Wskaźnik poziomu naładowania baterii dla urządzenia wytwarzającego aeorozol
CN114610429B (zh) * 2022-03-14 2025-02-11 北京达佳互联信息技术有限公司 多媒体界面显示方法、装置、电子设备及存储介质
CN114758638B (zh) * 2022-04-18 2025-04-08 杭州网易云音乐科技有限公司 动物音乐的制作方法、推荐方法、介质、装置和计算设备
CN117093745A (zh) * 2022-05-12 2023-11-21 北京字跳网络技术有限公司 视频记录的展示方法、装置、电子设备、介质和程序产品
CN115034331A (zh) * 2022-06-28 2022-09-09 腾讯音乐娱乐科技(深圳)有限公司 音视频匹配方法、计算机设备及计算机可读存储介质
CN117009847A (zh) * 2022-10-19 2023-11-07 腾讯科技(深圳)有限公司 标签处理模型训练方法、标签确定方法及装置
CN116229332B (zh) * 2023-05-06 2023-08-04 浪潮电子信息产业股份有限公司 一种视频预训练模型的训练方法、装置、设备及存储介质
CN117035117A (zh) * 2023-08-15 2023-11-10 支付宝(杭州)信息技术有限公司 内容生成方法及系统
CN117253168B (zh) * 2023-09-19 2026-03-27 英特灵达信息技术(深圳)有限公司 一种火焰检测方法、火焰检测模型训练方法及装置
CN118485123B (zh) * 2024-06-11 2025-02-25 广州逸虎网络科技有限公司 一种模型训练和信息推荐方法、装置、存储介质及设备
US12444195B1 (en) * 2024-06-12 2025-10-14 Beacon Street Technologies, LLC Audio data selection for video matching using generative artificial intelligence model
CN118644411A (zh) * 2024-06-17 2024-09-13 腾讯科技(深圳)有限公司 视频生成方法、装置、电子设备及存储介质
CN119364147B (zh) * 2024-12-26 2025-04-18 北京生数科技有限公司 基于多视频片段生成视频的方法、装置、设备、介质
CN120673731A (zh) * 2025-08-15 2025-09-19 北京红棉小冰科技有限公司 音乐生成方法、装置、电子设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090307207A1 (en) * 2008-06-09 2009-12-10 Murray Thomas J Creation of a multi-media presentation
US8867891B2 (en) * 2011-10-10 2014-10-21 Intellectual Ventures Fund 83 Llc Video concept classification using audio-visual grouplets
CN103793446B (zh) * 2012-10-29 2019-03-01 汤晓鸥 音乐视频的生成方法和系统
JP6159989B2 (ja) 2013-06-26 2017-07-12 Kddi株式会社 シナリオ生成システム、シナリオ生成方法およびシナリオ生成プログラム
WO2015153867A1 (en) * 2014-04-04 2015-10-08 Starkey Laboratories, Inc. Fitter defined user controlled adaptation tool for a hearing assistance device
US9898847B2 (en) * 2015-11-30 2018-02-20 Shanghai Sunson Activated Carbon Technology Co., Ltd. Multimedia picture generating method, device and electronic device
CN111784615A (zh) * 2016-03-25 2020-10-16 北京三星通信技术研究有限公司 多媒体信息处理的方法和装置
US10642893B2 (en) * 2016-09-05 2020-05-05 Google Llc Generating theme-based videos
CN117499658A (zh) * 2016-09-30 2024-02-02 渊慧科技有限公司 使用神经网络生成视频帧
US10332001B2 (en) * 2016-12-15 2019-06-25 WaveOne Inc. Enhanced coding efficiency with progressive representation
CN109147804B (zh) * 2018-06-05 2024-08-20 安克创新科技股份有限公司 一种基于深度学习的音质特性处理方法及系统
CN109068070A (zh) * 2018-07-10 2018-12-21 Oppo广东移动通信有限公司 视频生成方法及相关装置
CN109063163B (zh) 2018-08-14 2022-12-02 腾讯科技(深圳)有限公司 一种音乐推荐的方法、装置、终端设备和介质
KR102579452B1 (ko) * 2018-09-05 2023-09-15 삼성전자주식회사 영상 표시 장치 및 그 동작방법
GB2580937B (en) * 2019-01-31 2022-07-13 Sony Interactive Entertainment Europe Ltd Method and system for generating audio-visual content from video game footage
CN110209844B (zh) * 2019-05-17 2021-08-31 腾讯音乐娱乐科技(深圳)有限公司 多媒体数据匹配方法、装置和存储介质
US11295171B2 (en) * 2019-10-18 2022-04-05 Google Llc Framework for training machine-learned models on extremely large datasets
CN111191054B (zh) * 2019-12-18 2024-02-13 腾讯科技(深圳)有限公司 媒体数据的推荐方法、装置
CN111415677B (zh) * 2020-03-16 2020-12-25 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质
CN114117086A (zh) 2020-08-31 2022-03-01 脸萌有限公司 多媒体作品的制作方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
JP7502553B2 (ja) 2024-06-18
US20230131850A1 (en) 2023-04-27
EP4171045A4 (de) 2023-10-11
JP2023535047A (ja) 2023-08-15
CN114117086A (zh) 2022-03-01
US12306867B2 (en) 2025-05-20
EP4171045A1 (de) 2023-04-26
WO2022045968A1 (zh) 2022-03-03

Similar Documents

Publication Publication Date Title
EP4171045B1 (de) Herstellungsverfahren und -vorrichtung für multimedia-arbeiten und computerlesbares speichermedium
US20250190234A1 (en) Modifying digital images utilizing a language guided image editing model
CN114282047B (zh) 小样本动作识别模型训练方法、装置、电子设备及存储介质
CN109685121B (zh) 图像检索模型的训练方法、图像检索方法、计算机设备
CN116601626B (zh) 个人知识图谱构建方法、装置及相关设备
CN117217284A (zh) 一种数据处理方法及其装置
US12445677B2 (en) Small and fast video processing networks via neural architecture search
WO2025256268A1 (zh) 多模态数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
US20250272978A1 (en) Machine learning models for video object segmentation
CN113570509B (zh) 数据处理方法以及计算机设备
CN120744074B (zh) 问答模型训练方法以及问答任务处理方法
CN120283271A (zh) 利用从对比式解说词进行的零样本迁移的视频-文本建模
CN118365917A (zh) 图像序列的检测方法和装置、存储介质及电子设备
CN114049634B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN109740743A (zh) 一种分层神经网络查询推荐方法及装置
CN117808067A (zh) 神经网络剪枝方法及装置
CN117056595A (zh) 一种交互式的项目推荐方法、装置及计算机可读存储介质
CN115187665A (zh) 点云数据处理方法、装置、电子设备及存储介质
CN115017413A (zh) 推荐方法、装置、计算设备及计算机存储介质
CN117729391B (zh) 一种视频分割方法、装置、计算机设备、介质及产品
CN119377489B (zh) 基于知识图谱的儿童教育内容智能推荐方法及系统
CN118364275B (zh) 大模型微调方法、装置、电子设备、存储介质和程序产品
Terauchi et al. Pose sequence generation with a gcn and an initial pose generator
Okwu Automated Model Fine-Tuning and Deployment Using AWS SageMaker: A Scalable Workflow for Image Generation
CN114281947A (zh) 试题搜索方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230118

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

A4 Supplementary search report drawn up and despatched

Effective date: 20230908

RIC1 Information provided on ipc code assigned before grant

Ipc: H04N 21/854 20110101ALI20230904BHEP

Ipc: H04N 21/466 20110101ALI20230904BHEP

Ipc: G06N 3/02 20060101ALI20230904BHEP

Ipc: G06F 16/14 20190101ALI20230904BHEP

Ipc: H04N 21/44 20110101AFI20230904BHEP

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20240605

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

INTG Intention to grant announced

Effective date: 20251104

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

P01 Opt-out of the competence of the unified patent court (upc) registered

Free format text: CASE NUMBER: UPC_APP_0006150_4171045/2026

Effective date: 20260219

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: CH

Ref legal event code: F10

Free format text: ST27 STATUS EVENT CODE: U-0-0-F10-F00 (AS PROVIDED BY THE NATIONAL OFFICE)

Effective date: 20260408

Ref country code: GB

Ref legal event code: FG4D

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602021051830

Country of ref document: DE