EP4171045B1 - Herstellungsverfahren und -vorrichtung für multimedia-arbeiten und computerlesbares speichermedium - Google Patents
Herstellungsverfahren und -vorrichtung für multimedia-arbeiten und computerlesbares speichermediumInfo
- Publication number
- EP4171045B1 EP4171045B1 EP21862207.4A EP21862207A EP4171045B1 EP 4171045 B1 EP4171045 B1 EP 4171045B1 EP 21862207 A EP21862207 A EP 21862207A EP 4171045 B1 EP4171045 B1 EP 4171045B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- audio
- target
- pictures
- multimedia information
- understanding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/368—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/11—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/021—Background music, e.g. for video sequences or elevator music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/155—User input interfaces for electrophonic musical instruments
- G10H2220/441—Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Claims (13)
- Herstellungsverfahren für Multimedia-Werke, umfassend:(S101) Erfassen eines Zielaudios und einer Vielzahl von Multimedia-Informationen, wobei jede der Vielzahl von Multimedia-Informationen ein Bild oder ein Video umfasst;(S102) Bestimmen eines Übereinstimmungsgrades zwischen dem Zielaudio und jeder der Vielzahl von Multimedia-Informationen, um eine Vielzahl von Übereinstimmungsgraden zu erhalten, Sortieren der Vielzahl von Multimedia-Informationen in einer Reihenfolge der Vielzahl von Übereinstimmungsgraden von hoch nach niedrig und Heranziehen einer ersten voreingestellten Anzahl von Multimedia-Informationen, die oben gereiht sind, als Ziel-Multimedia-Information, wobei die Ziel-Multimedia-Information M Bilder enthält, wobei M eine positive ganze Zahl größer als eins ist;(S103) Bestimmen einer Bildqualität jedes der M Bilder in der Ziel-Multimedia-Information, Sortieren der M Bilder in der Ziel-Multimedia-Information in einer Reihenfolge ihrer Bildqualität von hoch nach niedrig und Auswählen von oberen N Bildern aus den M Bildern in der Reihenfolge ihrer Bildqualität von hoch nach niedrig als Zielbilder zum Synthetisieren eines Multimedia-Werks, wobei alle anderen Bilder in den M Bildern außer den oberen N Bildern von den Zielbildern zum Synthetisieren des Multimedia-Werks ausgeschlossen werden, N eine positive ganze Zahl größer als eins ist und M größer als N ist; und(S104) Synthetisieren des Multimedia-Werks gemäß den Zielbildern und dem Zielaudio,wobei Synthetisieren des Multimedia-Werks gemäß den Zielbildern und dem Zielaudio Folgendes umfasst:zufälliges Auswählen einer dritten voreingestellten Anzahl P von Bildern aus den Zielbildern, die mit dem Zielaudio synthetisiert werden sollen, um ein erstes Multimedia-Werk zu erhalten, wobei P eine positive ganze Zahl kleiner oder gleich N ist; oderzufälliges Neuanordnen der mit dem Zielaudio zu synthetisierenden Zielbilder und zufälliges Auswählen der dritten voreingestellten Anzahl P von Bildern aus den neu angeordneten Zielbildern, um ein zweites Multimedia-Werk zu erhalten.
- Herstellungsverfahren für Multimedia-Werke nach Anspruch 1, wobei Bestimmen des Übereinstimmungsgrads zwischen dem Zielaudio und jeder der Vielzahl von Multimedia-Informationen, um eine Vielzahl von Übereinstimmungsgraden zu erhalten, umfasst:Erfassen eines Audiomerkmals des Zielaudios, Eingeben des Audiomerkmals in ein vortrainiertes Audioverständnismodell und Erhalten eines Audioverständnismerkmals des vom Audioverständnismodell ausgegebenen Zielaudios;Durchführen einer Einzelbildextraktion an der Vielzahl von Multimedia-Informationen, Eingeben des Einzelbildextraktionsergebnisses in ein vortrainiertes Videoverständnismodell und Erhalten eines Videoverständnismerkmals für jede der von dem Videoverständnismodell ausgegebenen Vielzahl von Multimedia-Informationen;Eingeben des Audioverständnismerkmals und Videoverständnismerkmals jeder der Vielzahl von Multimedia-Informationen in ein vortrainiertes Matching-Modell, um einen Übereinstimmungsgrad zwischen dem Audioverständnismerkmal und dem Videoverständnismerkmal, der vom Matching-Modell ausgegeben wird, als die Vielzahl von Übereinstimmungsgraden zwischen dem Zielaudio und der Vielzahl von Multimedia-Informationen zu erhalten.
- Herstellungsverfahren für Multimedia-Werke nach Anspruch 2, wobei das Audioverständnismodell eine erste Merkmalsextraktionsschicht und eine erste Klassifizierungsschicht umfasst; und
ein Verfahren zum Trainieren des Audioverständnismodells umfasst:Initialisieren von Parametern der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht;Heranziehen von Audiomerkmalen einer bestimmten Anzahl von Musikbeispielen als Trainingsbeispiele, Heranziehen eines Musiktyps jedes Musikbeispiels als Beispielbezeichnung für jedes Trainingsbeispiel, Eingeben des Trainingsbeispiels und der Beispielbezeichnung in die erste Merkmalsextraktionsschicht und Erhalten eines Audioverständnismerkmals des Trainingsbeispiels, das von der ersten Merkmalsextraktionsschicht ausgegeben wird;Eingeben des Audioverständnismerkmals des Trainingsbeispiels in die erste Klassifizierungsschicht, um ein Vorhersageergebnis eines Musiktyps des Trainingsbeispiels zu erhalten, das von der ersten Klassifizierungsschicht ausgegeben wird; undBerechnen einer Abweichung zwischen dem Vorhersageergebnis und der dem Trainingsbeispiel entsprechenden Beispielbezeichnung und Anpassen der Parameter der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht mittels umgekehrter Rückkopplung, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um dadurch das trainierte Audioverständnismodell zu erhalten. - Herstellungsverfahren für Multimedia-Werke nach Anspruch 3, wobei Erhalten des Audioverständnismerkmals eines Musikstücks, das von dem Audioverständnismodell ausgegeben wird, umfasst:
Eingeben des Musikstücks in das Audioverständnismodell und Erhalten des Audioverständnismerkmals des Musikstücks, das von der ersten Merkmalsextraktionsschicht des Audioverständnismodells ausgegeben wird. - Herstellungsverfahren für Multimedia-Werke nach einem der Ansprüche 2 bis 4, wobei ein Verfahren zum Trainieren des Videoverständnismodells Folgendes umfasst:Übertragen eines trainierten Ausgangsmodells und Anpassen eines Parameters und einer Struktur des Ausgangsmodells in Kombination mit einem Einzelbildextraktionsergebnis aus Beispiel-Multimediainformationen, um ein Transferlernmodell zu erhalten; undgemäß einem Backpropagation-Verfahren, Trainieren des Transferlernmodells unter Verwendung des Einzelbildextraktionsergebnisses der Beispiel-Multimedia-Informationen und eines Themas der Beispiel-Multimedia-Informationen und Heranziehen des trainierten Transferlernmodells als das Videoverständnismodell.
- Herstellungsverfahren für Multimedia-Werke nach Anspruch 5, wobei das Videoverständnismodell eine zweite Merkmalsextraktionsschicht und eine zweite Klassifizierungsschicht umfasst; und
Trainieren des Transferlernmodells unter Verwendung des Einzelbildextraktionsergebnisses der Beispiel-Multimedia-Informationen und des Themas der Beispiel-Multimedia-Informationen gemäß dem Backpropagation-Verfahren umfasst:Initialisieren von Parametern der zweiten Merkmalsextraktionsschicht und der zweiten Klassifizierungsschicht;Heranziehen des Einzelbildextraktionsergebnisses der Beispiel-Multimedia-Informationen als ein Trainingsbeispiel, Heranziehen des Themas der Beispiel-Multimedia-Informationen als eine Beispielbezeichnung, Eingeben des Trainingsbeispiels und der Beispielbezeichnung in die zweite Merkmalsextraktionsschicht und Erhalten eines Videoverständnismerkmals des Trainingsbeispiels, das von der zweiten Merkmalsextraktionsschicht ausgegeben wird;Eingeben des Videoverständnismerkmals des Trainingsbeispiels in die zweite Klassifizierungsschicht, um ein Vorhersageergebnis des Themas des Trainingsbeispiels zu erhalten, das von der zweiten Klassifizierungsschicht ausgegeben wird; undBerechnen einer Abweichung zwischen dem Vorhersageergebnis und der dem Trainingsbeispiel entsprechenden Beispielbezeichnung und Anpassen der Parameter der zweiten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht mittels umgekehrter Rückkopplung, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um dadurch das trainierte Transferlernmodell zu erhalten. - Herstellungsverfahren für Multimedia-Werke nach Anspruch 6, wobei Eingeben des Einzelbildextraktionsergebnisses in das vortrainierte Videoverständnismodell und Erhalten des Videoverständnismerkmals der Multimedia-Informationen, das vom Videoverständnismodell ausgegeben wird, umfasst:
Eingeben des Einzelbildextraktionsergebnisses in das Videoverständnismodell, um das Videoverständnismerkmal der Multimedia-Information zu erhalten, das von der zweiten Merkmalsextraktionsschicht des Videoverständnismodells ausgegeben wird. - Herstellungsverfahren für Multimedia-Werke nach einem der Ansprüche 1 bis 7, wobei Bestimmen der Bildqualität jeweiliger M Bilder in der Ziel-Multimedia-Information Folgendes umfasst:
Eingeben der M Bilder in ein vortrainiertes Bildqualitätsvorhersagemodell, um Bildqualität der M Bilder zu erhalten, die vom Bildqualitätsvorhersagemodell ausgegeben wird. - Herstellungsverfahren für Multimedia-Werke nach Anspruch 8, wobei ein Verfahren zum Trainieren des Bildqualitätsvorhersagemodells Folgendes umfasst:Initialisieren eines Parameters des Bildqualitätsvorhersagemodells;Heranziehen einer bestimmten Anzahl von Beispielbildern als Trainingsbeispiele, Heranziehen von Bildqualitätswerten der Beispielbilder als Beispielbezeichnungen, Eingeben der Trainingsbeispiele in das Bildqualitätsvorhersagemodell, um Vorhersageergebnisse der Bildqualitätswerte der Trainingsbeispiele zu erhalten, die vom Bildqualitätsvorhersagemodell ausgegeben werden;Berechnen einer Abweichung zwischen einer ersten und einer zweiten Differenz, wobei die erste Differenz eine Differenz zwischen den Vorhersageergebnissen von Bildqualitätswerten zweier beliebiger Trainingsbeispiele ist und die zweite Differenz eine Differenz zwischen Trainingsbeispielen ist, die den beliebigen zwei Beispiel bezeichnungen entsprechen; undAnpassen des Parameters des Bildqualitätsvorhersagemodells durch umgekehrte Rückkopplung, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um so das trainierte Bildqualitätsvorhersagemodell zu erhalten.
- Produktionseinrichtung für Multimedia-Werke, umfassend:ein Materialerfassungsmodul (101), das so konfiguriert ist, dass es ein Zielaudio und eine Vielzahl von Multimedia-Informationen erfasst, wobei jede der Vielzahl von Multimedia-Informationen ein Bild oder ein Video umfasst;ein Übereinstimmungsmodul (102), das so konfiguriert ist, dass es einen Übereinstimmungsgrad zwischen dem Zielaudio und jeder der Vielzahl von Multimedia-Informationen bestimmt, um eine Vielzahl von Übereinstimmungsgraden zu erhalten, eine Vielzahl der Multimedia-Informationen in der Reihenfolge der Vielzahl von Übereinstimmungsgraden von hoch nach niedrig sortiert und eine erste voreingestellte Anzahl von Multimedia-Informationen, die in der obersten Reihenfolge rangieren, als Ziel-Multimedia-Information heranzieht, wobei die Ziel-Multimedia-Information M Bilder enthält, wobei M eine positive ganze Zahl größer als eins ist;ein Zielbilderfassungsmodul (103), das so konfiguriert ist, dass es Bildqualität jedes der M Bilder in der Ziel-Multimedia-Information bestimmt, die M Bilder in der Ziel-Multimedia-Information in einer Reihenfolge ihrer Bildqualität von hoch nach niedrig sortiert und obere N Bilder aus den M Bildern in der Reihenfolge ihrer Bildqualität von hoch nach niedrig als Zielbilder zum Synthetisieren eines Multimedia-Werks auswählt, wobei alle anderen Bilder in den M Bildern außer den oberen N Bildern von den Zielbildern zum Synthetisieren des Multimedia-Werks ausgeschlossen werden, N eine positive ganze Zahl größer als eins ist und M größer als N; undein Musiksynthesemodul (104), das so konfiguriert ist, dass es das Multimedia-Werk gemäß den Zielbildern und dem Zielaudio synthetisiert,wobei Synthetisieren des Multimedia-Werks gemäß den Zielbildern und dem Zielaudio Folgendes umfasst:zufälliges Auswählen einer dritten voreingestellten Anzahl P von Bildern aus den Zielbildern, die mit dem Zielaudio synthetisiert werden sollen, um ein erstes Multimedia-Werk zu erhalten, wobei P eine positive ganze Zahl kleiner oder gleich N ist; oderzufälliges Neuanordnen der mit dem Zielaudio zu synthetisierenden Zielbilder und zufälliges Auswählen der dritten voreingestellten Anzahl P von Bildern aus den neu angeordneten Zielbildern, um ein zweites Multimedia-Werk zu erhalten.
- Computerlesbares Speichermedium, wobei eine Computeranweisung auf dem computerlesbaren Speichermedium gespeichert ist, wobei die Computeranweisung, wenn sie von einem Prozessor ausgeführt wird, die Schritte des Herstellungsverfahrens für Multimedia-Werke nach einem der Ansprüche 1 bis 9 implementiert.
- Produktionseinrichtung für Multimedia-Werke nach Anspruch 10, wobei das Übereinstimmungsmodul Folgendes umfasst:eine Audioverständniseinheit, die so konfiguriert ist, dass sie ein Audiomerkmal des Zielaudios erfasst, das Audiomerkmal in ein vortrainiertes Audioverständnismodell eingibt und ein Audioverständnismerkmal des Zielaudios erhält, das von dem Audioverständnismodell ausgegeben wird;eine Videoanalyseeinheit, die so konfiguriert ist, dass sie eine Einzelbildextraktion an der Vielzahl von Multimedia-Informationen durchführt, ein Einzelbildextraktionsergebnis in ein vortrainiertes Videoanalysemodell eingibt und ein Videoanalysemerkmal jeder der Vielzahl von Multimedia-Informationen erhält, das von dem Videoverständnismodell ausgegeben wird; undÜbereinstimmungsgrad-Bestimmungseinheit, die so konfiguriert ist, dass sie das Audioverständnismerkmal und das Videoverständnismerkmal jeder der Vielzahl von Multimedia-Informationen in ein vortrainiertes Übereinstimmungsmodell eingibt und einen Übereinstimmungsgrad zwischen dem Audioverständnismerkmal und dem Videoverständnismerkmal, der von dem Übereinstimmungsmodell ausgegeben wird, als die Vielzahl von Übereinstimmungsgraden zwischen dem Zielaudio und der Vielzahl von Multimedia-Informationen erhält.
- Produktionseinrichtung für Multimedia-Werke nach Anspruch 12, wobei das Audioverständnismodell eine erste Merkmalsextraktionsschicht und eine erste Klassifizierungsschicht umfasst;das Übereinstimmungsmodul weiter eine Audioverständnistrainingseinheit umfasst, die so konfiguriert ist, dass sie das Audioverständnismodell trainiert; unddie Audioverständnistrainingseinheit weiter umfasst:eine erste Parameterinitialisierungsuntereinheit, die so konfiguriert ist, dass sie Parameter der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht initialisiert;eine erste Merkmalserfassungsuntereinheit, die so konfiguriert ist, dass sie Audiomerkmale einer bestimmten Anzahl von Musikbeispielen als Trainingsbeispiele heranzieht, einen Musiktyp jedes Musikbeispiels als eine Beispielbezeichnung für jedes Trainingsbeispiel heranzieht, das Trainingsbeispiel und die Beispielbezeichnung in die erste Merkmalsextraktionsschicht eingibt und ein Audioverständnismerkmal des Trainingsbeispiels erhält, das von der ersten Merkmalsextraktionsschicht ausgegeben wird;eine erste Vorhersageergebniserfassungsuntereinheit, die so konfiguriert ist, dass sie das Audioverständnismerkmal des Trainingsbeispiels in die erste Klassifizierungsschicht eingibt und ein Vorhersageergebnis eines Musiktyps Trainingsbeispiels erhält, das von der ersten Klassifizierungsschicht ausgegeben wird; undeine erste Feedback-Untereinheit, die so konfiguriert ist, dass sie eine Abweichung zwischen dem Vorhersageergebnis und der dem Trainingsbeispiel entsprechenden Beispielbezeichnung berechnet und die Parameter der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht mittels umgekehrter Rückkopplung anpasst, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um so das trainierte Audioverständnismodell zu erhalten.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010901767.7A CN114117086A (zh) | 2020-08-31 | 2020-08-31 | 多媒体作品的制作方法、装置及计算机可读存储介质 |
| PCT/SG2021/050470 WO2022045968A1 (zh) | 2020-08-31 | 2021-08-11 | 多媒体作品的制作方法、装置及计算机可读存储介质 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| EP4171045A1 EP4171045A1 (de) | 2023-04-26 |
| EP4171045A4 EP4171045A4 (de) | 2023-10-11 |
| EP4171045B1 true EP4171045B1 (de) | 2026-04-08 |
Family
ID=80353748
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP21862207.4A Active EP4171045B1 (de) | 2020-08-31 | 2021-08-11 | Herstellungsverfahren und -vorrichtung für multimedia-arbeiten und computerlesbares speichermedium |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US12306867B2 (de) |
| EP (1) | EP4171045B1 (de) |
| JP (1) | JP7502553B2 (de) |
| CN (1) | CN114117086A (de) |
| WO (1) | WO2022045968A1 (de) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114117086A (zh) | 2020-08-31 | 2022-03-01 | 脸萌有限公司 | 多媒体作品的制作方法、装置及计算机可读存储介质 |
| PL4032419T3 (pl) | 2021-01-26 | 2025-09-01 | Jt International Sa | Wskaźnik poziomu naładowania baterii dla urządzenia wytwarzającego aeorozol |
| CN114610429B (zh) * | 2022-03-14 | 2025-02-11 | 北京达佳互联信息技术有限公司 | 多媒体界面显示方法、装置、电子设备及存储介质 |
| CN114758638B (zh) * | 2022-04-18 | 2025-04-08 | 杭州网易云音乐科技有限公司 | 动物音乐的制作方法、推荐方法、介质、装置和计算设备 |
| CN117093745A (zh) * | 2022-05-12 | 2023-11-21 | 北京字跳网络技术有限公司 | 视频记录的展示方法、装置、电子设备、介质和程序产品 |
| CN115034331A (zh) * | 2022-06-28 | 2022-09-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 音视频匹配方法、计算机设备及计算机可读存储介质 |
| CN117009847A (zh) * | 2022-10-19 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 标签处理模型训练方法、标签确定方法及装置 |
| CN116229332B (zh) * | 2023-05-06 | 2023-08-04 | 浪潮电子信息产业股份有限公司 | 一种视频预训练模型的训练方法、装置、设备及存储介质 |
| CN117035117A (zh) * | 2023-08-15 | 2023-11-10 | 支付宝(杭州)信息技术有限公司 | 内容生成方法及系统 |
| CN117253168B (zh) * | 2023-09-19 | 2026-03-27 | 英特灵达信息技术(深圳)有限公司 | 一种火焰检测方法、火焰检测模型训练方法及装置 |
| CN118485123B (zh) * | 2024-06-11 | 2025-02-25 | 广州逸虎网络科技有限公司 | 一种模型训练和信息推荐方法、装置、存储介质及设备 |
| US12444195B1 (en) * | 2024-06-12 | 2025-10-14 | Beacon Street Technologies, LLC | Audio data selection for video matching using generative artificial intelligence model |
| CN118644411A (zh) * | 2024-06-17 | 2024-09-13 | 腾讯科技(深圳)有限公司 | 视频生成方法、装置、电子设备及存储介质 |
| CN119364147B (zh) * | 2024-12-26 | 2025-04-18 | 北京生数科技有限公司 | 基于多视频片段生成视频的方法、装置、设备、介质 |
| CN120673731A (zh) * | 2025-08-15 | 2025-09-19 | 北京红棉小冰科技有限公司 | 音乐生成方法、装置、电子设备及存储介质 |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20090307207A1 (en) * | 2008-06-09 | 2009-12-10 | Murray Thomas J | Creation of a multi-media presentation |
| US8867891B2 (en) * | 2011-10-10 | 2014-10-21 | Intellectual Ventures Fund 83 Llc | Video concept classification using audio-visual grouplets |
| CN103793446B (zh) * | 2012-10-29 | 2019-03-01 | 汤晓鸥 | 音乐视频的生成方法和系统 |
| JP6159989B2 (ja) | 2013-06-26 | 2017-07-12 | Kddi株式会社 | シナリオ生成システム、シナリオ生成方法およびシナリオ生成プログラム |
| WO2015153867A1 (en) * | 2014-04-04 | 2015-10-08 | Starkey Laboratories, Inc. | Fitter defined user controlled adaptation tool for a hearing assistance device |
| US9898847B2 (en) * | 2015-11-30 | 2018-02-20 | Shanghai Sunson Activated Carbon Technology Co., Ltd. | Multimedia picture generating method, device and electronic device |
| CN111784615A (zh) * | 2016-03-25 | 2020-10-16 | 北京三星通信技术研究有限公司 | 多媒体信息处理的方法和装置 |
| US10642893B2 (en) * | 2016-09-05 | 2020-05-05 | Google Llc | Generating theme-based videos |
| CN117499658A (zh) * | 2016-09-30 | 2024-02-02 | 渊慧科技有限公司 | 使用神经网络生成视频帧 |
| US10332001B2 (en) * | 2016-12-15 | 2019-06-25 | WaveOne Inc. | Enhanced coding efficiency with progressive representation |
| CN109147804B (zh) * | 2018-06-05 | 2024-08-20 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
| CN109068070A (zh) * | 2018-07-10 | 2018-12-21 | Oppo广东移动通信有限公司 | 视频生成方法及相关装置 |
| CN109063163B (zh) | 2018-08-14 | 2022-12-02 | 腾讯科技(深圳)有限公司 | 一种音乐推荐的方法、装置、终端设备和介质 |
| KR102579452B1 (ko) * | 2018-09-05 | 2023-09-15 | 삼성전자주식회사 | 영상 표시 장치 및 그 동작방법 |
| GB2580937B (en) * | 2019-01-31 | 2022-07-13 | Sony Interactive Entertainment Europe Ltd | Method and system for generating audio-visual content from video game footage |
| CN110209844B (zh) * | 2019-05-17 | 2021-08-31 | 腾讯音乐娱乐科技(深圳)有限公司 | 多媒体数据匹配方法、装置和存储介质 |
| US11295171B2 (en) * | 2019-10-18 | 2022-04-05 | Google Llc | Framework for training machine-learned models on extremely large datasets |
| CN111191054B (zh) * | 2019-12-18 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 媒体数据的推荐方法、装置 |
| CN111415677B (zh) * | 2020-03-16 | 2020-12-25 | 北京字节跳动网络技术有限公司 | 用于生成视频的方法、装置、设备和介质 |
| CN114117086A (zh) | 2020-08-31 | 2022-03-01 | 脸萌有限公司 | 多媒体作品的制作方法、装置及计算机可读存储介质 |
-
2020
- 2020-08-31 CN CN202010901767.7A patent/CN114117086A/zh active Pending
-
2021
- 2021-08-11 WO PCT/SG2021/050470 patent/WO2022045968A1/zh not_active Ceased
- 2021-08-11 JP JP2023504467A patent/JP7502553B2/ja active Active
- 2021-08-11 EP EP21862207.4A patent/EP4171045B1/de active Active
-
2022
- 2022-12-20 US US18/069,031 patent/US12306867B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP7502553B2 (ja) | 2024-06-18 |
| US20230131850A1 (en) | 2023-04-27 |
| EP4171045A4 (de) | 2023-10-11 |
| JP2023535047A (ja) | 2023-08-15 |
| CN114117086A (zh) | 2022-03-01 |
| US12306867B2 (en) | 2025-05-20 |
| EP4171045A1 (de) | 2023-04-26 |
| WO2022045968A1 (zh) | 2022-03-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP4171045B1 (de) | Herstellungsverfahren und -vorrichtung für multimedia-arbeiten und computerlesbares speichermedium | |
| US20250190234A1 (en) | Modifying digital images utilizing a language guided image editing model | |
| CN114282047B (zh) | 小样本动作识别模型训练方法、装置、电子设备及存储介质 | |
| CN109685121B (zh) | 图像检索模型的训练方法、图像检索方法、计算机设备 | |
| CN116601626B (zh) | 个人知识图谱构建方法、装置及相关设备 | |
| CN117217284A (zh) | 一种数据处理方法及其装置 | |
| US12445677B2 (en) | Small and fast video processing networks via neural architecture search | |
| WO2025256268A1 (zh) | 多模态数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
| US20250272978A1 (en) | Machine learning models for video object segmentation | |
| CN113570509B (zh) | 数据处理方法以及计算机设备 | |
| CN120744074B (zh) | 问答模型训练方法以及问答任务处理方法 | |
| CN120283271A (zh) | 利用从对比式解说词进行的零样本迁移的视频-文本建模 | |
| CN118365917A (zh) | 图像序列的检测方法和装置、存储介质及电子设备 | |
| CN114049634B (zh) | 一种图像识别方法、装置、计算机设备和存储介质 | |
| CN109740743A (zh) | 一种分层神经网络查询推荐方法及装置 | |
| CN117808067A (zh) | 神经网络剪枝方法及装置 | |
| CN117056595A (zh) | 一种交互式的项目推荐方法、装置及计算机可读存储介质 | |
| CN115187665A (zh) | 点云数据处理方法、装置、电子设备及存储介质 | |
| CN115017413A (zh) | 推荐方法、装置、计算设备及计算机存储介质 | |
| CN117729391B (zh) | 一种视频分割方法、装置、计算机设备、介质及产品 | |
| CN119377489B (zh) | 基于知识图谱的儿童教育内容智能推荐方法及系统 | |
| CN118364275B (zh) | 大模型微调方法、装置、电子设备、存储介质和程序产品 | |
| Terauchi et al. | Pose sequence generation with a gcn and an initial pose generator | |
| Okwu | Automated Model Fine-Tuning and Deployment Using AWS SageMaker: A Scalable Workflow for Image Generation | |
| CN114281947A (zh) | 试题搜索方法、装置、存储介质及电子设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE |
|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE |
|
| 17P | Request for examination filed |
Effective date: 20230118 |
|
| AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
| A4 | Supplementary search report drawn up and despatched |
Effective date: 20230908 |
|
| RIC1 | Information provided on ipc code assigned before grant |
Ipc: H04N 21/854 20110101ALI20230904BHEP Ipc: H04N 21/466 20110101ALI20230904BHEP Ipc: G06N 3/02 20060101ALI20230904BHEP Ipc: G06F 16/14 20190101ALI20230904BHEP Ipc: H04N 21/44 20110101AFI20230904BHEP |
|
| DAV | Request for validation of the european patent (deleted) | ||
| DAX | Request for extension of the european patent (deleted) | ||
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: EXAMINATION IS IN PROGRESS |
|
| 17Q | First examination report despatched |
Effective date: 20240605 |
|
| GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: GRANT OF PATENT IS INTENDED |
|
| INTG | Intention to grant announced |
Effective date: 20251104 |
|
| GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
| GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE PATENT HAS BEEN GRANTED |
|
| P01 | Opt-out of the competence of the unified patent court (upc) registered |
Free format text: CASE NUMBER: UPC_APP_0006150_4171045/2026 Effective date: 20260219 |
|
| AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
| REG | Reference to a national code |
Ref country code: CH Ref legal event code: F10 Free format text: ST27 STATUS EVENT CODE: U-0-0-F10-F00 (AS PROVIDED BY THE NATIONAL OFFICE) Effective date: 20260408 Ref country code: GB Ref legal event code: FG4D |
|
| REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 602021051830 Country of ref document: DE |