EP4171045B1

EP4171045B1 - Herstellungsverfahren und -vorrichtung für multimedia-arbeiten und computerlesbares speichermedium

Info

Publication number: EP4171045B1
Application number: EP21862207.4A
Authority: EP
Inventors: Xiaojuan Cai; Xuchen SONG; Gen LI; Haoyuan ZHONG; Weishu MO; Hui Li
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2020-08-31
Filing date: 2021-08-11
Publication date: 2026-04-08
Anticipated expiration: 2041-08-11
Also published as: JP7502553B2; US20230131850A1; EP4171045A4; JP2023535047A; CN114117086A; US12306867B2; EP4171045A1; WO2022045968A1

Claims

Herstellungsverfahren für Multimedia-Werke, umfassend:
(S101) Erfassen eines Zielaudios und einer Vielzahl von Multimedia-Informationen, wobei jede der Vielzahl von Multimedia-Informationen ein Bild oder ein Video umfasst;

(S102) Bestimmen eines Übereinstimmungsgrades zwischen dem Zielaudio und jeder der Vielzahl von Multimedia-Informationen, um eine Vielzahl von Übereinstimmungsgraden zu erhalten, Sortieren der Vielzahl von Multimedia-Informationen in einer Reihenfolge der Vielzahl von Übereinstimmungsgraden von hoch nach niedrig und Heranziehen einer ersten voreingestellten Anzahl von Multimedia-Informationen, die oben gereiht sind, als Ziel-Multimedia-Information, wobei die Ziel-Multimedia-Information M Bilder enthält, wobei M eine positive ganze Zahl größer als eins ist;

(S103) Bestimmen einer Bildqualität jedes der M Bilder in der Ziel-Multimedia-Information, Sortieren der M Bilder in der Ziel-Multimedia-Information in einer Reihenfolge ihrer Bildqualität von hoch nach niedrig und Auswählen von oberen N Bildern aus den M Bildern in der Reihenfolge ihrer Bildqualität von hoch nach niedrig als Zielbilder zum Synthetisieren eines Multimedia-Werks, wobei alle anderen Bilder in den M Bildern außer den oberen N Bildern von den Zielbildern zum Synthetisieren des Multimedia-Werks ausgeschlossen werden, N eine positive ganze Zahl größer als eins ist und M größer als N ist; und

(S104) Synthetisieren des Multimedia-Werks gemäß den Zielbildern und dem Zielaudio,

wobei Synthetisieren des Multimedia-Werks gemäß den Zielbildern und dem Zielaudio Folgendes umfasst:
zufälliges Auswählen einer dritten voreingestellten Anzahl P von Bildern aus den Zielbildern, die mit dem Zielaudio synthetisiert werden sollen, um ein erstes Multimedia-Werk zu erhalten, wobei P eine positive ganze Zahl kleiner oder gleich N ist; oder

zufälliges Neuanordnen der mit dem Zielaudio zu synthetisierenden Zielbilder und zufälliges Auswählen der dritten voreingestellten Anzahl P von Bildern aus den neu angeordneten Zielbildern, um ein zweites Multimedia-Werk zu erhalten.
Herstellungsverfahren für Multimedia-Werke nach Anspruch 1, wobei Bestimmen des Übereinstimmungsgrads zwischen dem Zielaudio und jeder der Vielzahl von Multimedia-Informationen, um eine Vielzahl von Übereinstimmungsgraden zu erhalten, umfasst:
Erfassen eines Audiomerkmals des Zielaudios, Eingeben des Audiomerkmals in ein vortrainiertes Audioverständnismodell und Erhalten eines Audioverständnismerkmals des vom Audioverständnismodell ausgegebenen Zielaudios;

Durchführen einer Einzelbildextraktion an der Vielzahl von Multimedia-Informationen, Eingeben des Einzelbildextraktionsergebnisses in ein vortrainiertes Videoverständnismodell und Erhalten eines Videoverständnismerkmals für jede der von dem Videoverständnismodell ausgegebenen Vielzahl von Multimedia-Informationen;

Eingeben des Audioverständnismerkmals und Videoverständnismerkmals jeder der Vielzahl von Multimedia-Informationen in ein vortrainiertes Matching-Modell, um einen Übereinstimmungsgrad zwischen dem Audioverständnismerkmal und dem Videoverständnismerkmal, der vom Matching-Modell ausgegeben wird, als die Vielzahl von Übereinstimmungsgraden zwischen dem Zielaudio und der Vielzahl von Multimedia-Informationen zu erhalten.
Herstellungsverfahren für Multimedia-Werke nach Anspruch 2, wobei das Audioverständnismodell eine erste Merkmalsextraktionsschicht und eine erste Klassifizierungsschicht umfasst; und
ein Verfahren zum Trainieren des Audioverständnismodells umfasst:
Initialisieren von Parametern der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht;

Heranziehen von Audiomerkmalen einer bestimmten Anzahl von Musikbeispielen als Trainingsbeispiele, Heranziehen eines Musiktyps jedes Musikbeispiels als Beispielbezeichnung für jedes Trainingsbeispiel, Eingeben des Trainingsbeispiels und der Beispielbezeichnung in die erste Merkmalsextraktionsschicht und Erhalten eines Audioverständnismerkmals des Trainingsbeispiels, das von der ersten Merkmalsextraktionsschicht ausgegeben wird;

Eingeben des Audioverständnismerkmals des Trainingsbeispiels in die erste Klassifizierungsschicht, um ein Vorhersageergebnis eines Musiktyps des Trainingsbeispiels zu erhalten, das von der ersten Klassifizierungsschicht ausgegeben wird; und

Berechnen einer Abweichung zwischen dem Vorhersageergebnis und der dem Trainingsbeispiel entsprechenden Beispielbezeichnung und Anpassen der Parameter der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht mittels umgekehrter Rückkopplung, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um dadurch das trainierte Audioverständnismodell zu erhalten.
Herstellungsverfahren für Multimedia-Werke nach Anspruch 3, wobei Erhalten des Audioverständnismerkmals eines Musikstücks, das von dem Audioverständnismodell ausgegeben wird, umfasst:
Eingeben des Musikstücks in das Audioverständnismodell und Erhalten des Audioverständnismerkmals des Musikstücks, das von der ersten Merkmalsextraktionsschicht des Audioverständnismodells ausgegeben wird.
Herstellungsverfahren für Multimedia-Werke nach einem der Ansprüche 2 bis 4, wobei ein Verfahren zum Trainieren des Videoverständnismodells Folgendes umfasst:
Übertragen eines trainierten Ausgangsmodells und Anpassen eines Parameters und einer Struktur des Ausgangsmodells in Kombination mit einem Einzelbildextraktionsergebnis aus Beispiel-Multimediainformationen, um ein Transferlernmodell zu erhalten; und

gemäß einem Backpropagation-Verfahren, Trainieren des Transferlernmodells unter Verwendung des Einzelbildextraktionsergebnisses der Beispiel-Multimedia-Informationen und eines Themas der Beispiel-Multimedia-Informationen und Heranziehen des trainierten Transferlernmodells als das Videoverständnismodell.
Herstellungsverfahren für Multimedia-Werke nach Anspruch 5, wobei das Videoverständnismodell eine zweite Merkmalsextraktionsschicht und eine zweite Klassifizierungsschicht umfasst; und
Trainieren des Transferlernmodells unter Verwendung des Einzelbildextraktionsergebnisses der Beispiel-Multimedia-Informationen und des Themas der Beispiel-Multimedia-Informationen gemäß dem Backpropagation-Verfahren umfasst:
Initialisieren von Parametern der zweiten Merkmalsextraktionsschicht und der zweiten Klassifizierungsschicht;

Heranziehen des Einzelbildextraktionsergebnisses der Beispiel-Multimedia-Informationen als ein Trainingsbeispiel, Heranziehen des Themas der Beispiel-Multimedia-Informationen als eine Beispielbezeichnung, Eingeben des Trainingsbeispiels und der Beispielbezeichnung in die zweite Merkmalsextraktionsschicht und Erhalten eines Videoverständnismerkmals des Trainingsbeispiels, das von der zweiten Merkmalsextraktionsschicht ausgegeben wird;

Eingeben des Videoverständnismerkmals des Trainingsbeispiels in die zweite Klassifizierungsschicht, um ein Vorhersageergebnis des Themas des Trainingsbeispiels zu erhalten, das von der zweiten Klassifizierungsschicht ausgegeben wird; und

Berechnen einer Abweichung zwischen dem Vorhersageergebnis und der dem Trainingsbeispiel entsprechenden Beispielbezeichnung und Anpassen der Parameter der zweiten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht mittels umgekehrter Rückkopplung, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um dadurch das trainierte Transferlernmodell zu erhalten.
Herstellungsverfahren für Multimedia-Werke nach Anspruch 6, wobei Eingeben des Einzelbildextraktionsergebnisses in das vortrainierte Videoverständnismodell und Erhalten des Videoverständnismerkmals der Multimedia-Informationen, das vom Videoverständnismodell ausgegeben wird, umfasst:
Eingeben des Einzelbildextraktionsergebnisses in das Videoverständnismodell, um das Videoverständnismerkmal der Multimedia-Information zu erhalten, das von der zweiten Merkmalsextraktionsschicht des Videoverständnismodells ausgegeben wird.
Herstellungsverfahren für Multimedia-Werke nach einem der Ansprüche 1 bis 7, wobei Bestimmen der Bildqualität jeweiliger M Bilder in der Ziel-Multimedia-Information Folgendes umfasst:
Eingeben der M Bilder in ein vortrainiertes Bildqualitätsvorhersagemodell, um Bildqualität der M Bilder zu erhalten, die vom Bildqualitätsvorhersagemodell ausgegeben wird.
Herstellungsverfahren für Multimedia-Werke nach Anspruch 8, wobei ein Verfahren zum Trainieren des Bildqualitätsvorhersagemodells Folgendes umfasst:
Initialisieren eines Parameters des Bildqualitätsvorhersagemodells;

Heranziehen einer bestimmten Anzahl von Beispielbildern als Trainingsbeispiele, Heranziehen von Bildqualitätswerten der Beispielbilder als Beispielbezeichnungen, Eingeben der Trainingsbeispiele in das Bildqualitätsvorhersagemodell, um Vorhersageergebnisse der Bildqualitätswerte der Trainingsbeispiele zu erhalten, die vom Bildqualitätsvorhersagemodell ausgegeben werden;

Berechnen einer Abweichung zwischen einer ersten und einer zweiten Differenz, wobei die erste Differenz eine Differenz zwischen den Vorhersageergebnissen von Bildqualitätswerten zweier beliebiger Trainingsbeispiele ist und die zweite Differenz eine Differenz zwischen Trainingsbeispielen ist, die den beliebigen zwei Beispiel bezeichnungen entsprechen; und

Anpassen des Parameters des Bildqualitätsvorhersagemodells durch umgekehrte Rückkopplung, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um so das trainierte Bildqualitätsvorhersagemodell zu erhalten.
Produktionseinrichtung für Multimedia-Werke, umfassend:
ein Materialerfassungsmodul (101), das so konfiguriert ist, dass es ein Zielaudio und eine Vielzahl von Multimedia-Informationen erfasst, wobei jede der Vielzahl von Multimedia-Informationen ein Bild oder ein Video umfasst;

ein Übereinstimmungsmodul (102), das so konfiguriert ist, dass es einen Übereinstimmungsgrad zwischen dem Zielaudio und jeder der Vielzahl von Multimedia-Informationen bestimmt, um eine Vielzahl von Übereinstimmungsgraden zu erhalten, eine Vielzahl der Multimedia-Informationen in der Reihenfolge der Vielzahl von Übereinstimmungsgraden von hoch nach niedrig sortiert und eine erste voreingestellte Anzahl von Multimedia-Informationen, die in der obersten Reihenfolge rangieren, als Ziel-Multimedia-Information heranzieht, wobei die Ziel-Multimedia-Information M Bilder enthält, wobei M eine positive ganze Zahl größer als eins ist;

ein Zielbilderfassungsmodul (103), das so konfiguriert ist, dass es Bildqualität jedes der M Bilder in der Ziel-Multimedia-Information bestimmt, die M Bilder in der Ziel-Multimedia-Information in einer Reihenfolge ihrer Bildqualität von hoch nach niedrig sortiert und obere N Bilder aus den M Bildern in der Reihenfolge ihrer Bildqualität von hoch nach niedrig als Zielbilder zum Synthetisieren eines Multimedia-Werks auswählt, wobei alle anderen Bilder in den M Bildern außer den oberen N Bildern von den Zielbildern zum Synthetisieren des Multimedia-Werks ausgeschlossen werden, N eine positive ganze Zahl größer als eins ist und M größer als N; und

ein Musiksynthesemodul (104), das so konfiguriert ist, dass es das Multimedia-Werk gemäß den Zielbildern und dem Zielaudio synthetisiert,

wobei Synthetisieren des Multimedia-Werks gemäß den Zielbildern und dem Zielaudio Folgendes umfasst:
zufälliges Auswählen einer dritten voreingestellten Anzahl P von Bildern aus den Zielbildern, die mit dem Zielaudio synthetisiert werden sollen, um ein erstes Multimedia-Werk zu erhalten, wobei P eine positive ganze Zahl kleiner oder gleich N ist; oder

zufälliges Neuanordnen der mit dem Zielaudio zu synthetisierenden Zielbilder und zufälliges Auswählen der dritten voreingestellten Anzahl P von Bildern aus den neu angeordneten Zielbildern, um ein zweites Multimedia-Werk zu erhalten.
Computerlesbares Speichermedium, wobei eine Computeranweisung auf dem computerlesbaren Speichermedium gespeichert ist, wobei die Computeranweisung, wenn sie von einem Prozessor ausgeführt wird, die Schritte des Herstellungsverfahrens für Multimedia-Werke nach einem der Ansprüche 1 bis 9 implementiert.
Produktionseinrichtung für Multimedia-Werke nach Anspruch 10, wobei das Übereinstimmungsmodul Folgendes umfasst:
eine Audioverständniseinheit, die so konfiguriert ist, dass sie ein Audiomerkmal des Zielaudios erfasst, das Audiomerkmal in ein vortrainiertes Audioverständnismodell eingibt und ein Audioverständnismerkmal des Zielaudios erhält, das von dem Audioverständnismodell ausgegeben wird;

eine Videoanalyseeinheit, die so konfiguriert ist, dass sie eine Einzelbildextraktion an der Vielzahl von Multimedia-Informationen durchführt, ein Einzelbildextraktionsergebnis in ein vortrainiertes Videoanalysemodell eingibt und ein Videoanalysemerkmal jeder der Vielzahl von Multimedia-Informationen erhält, das von dem Videoverständnismodell ausgegeben wird; und

Übereinstimmungsgrad-Bestimmungseinheit, die so konfiguriert ist, dass sie das Audioverständnismerkmal und das Videoverständnismerkmal jeder der Vielzahl von Multimedia-Informationen in ein vortrainiertes Übereinstimmungsmodell eingibt und einen Übereinstimmungsgrad zwischen dem Audioverständnismerkmal und dem Videoverständnismerkmal, der von dem Übereinstimmungsmodell ausgegeben wird, als die Vielzahl von Übereinstimmungsgraden zwischen dem Zielaudio und der Vielzahl von Multimedia-Informationen erhält.
Produktionseinrichtung für Multimedia-Werke nach Anspruch 12, wobei das Audioverständnismodell eine erste Merkmalsextraktionsschicht und eine erste Klassifizierungsschicht umfasst;
das Übereinstimmungsmodul weiter eine Audioverständnistrainingseinheit umfasst, die so konfiguriert ist, dass sie das Audioverständnismodell trainiert; und

die Audioverständnistrainingseinheit weiter umfasst:
eine erste Parameterinitialisierungsuntereinheit, die so konfiguriert ist, dass sie Parameter der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht initialisiert;

eine erste Merkmalserfassungsuntereinheit, die so konfiguriert ist, dass sie Audiomerkmale einer bestimmten Anzahl von Musikbeispielen als Trainingsbeispiele heranzieht, einen Musiktyp jedes Musikbeispiels als eine Beispielbezeichnung für jedes Trainingsbeispiel heranzieht, das Trainingsbeispiel und die Beispielbezeichnung in die erste Merkmalsextraktionsschicht eingibt und ein Audioverständnismerkmal des Trainingsbeispiels erhält, das von der ersten Merkmalsextraktionsschicht ausgegeben wird;

eine erste Vorhersageergebniserfassungsuntereinheit, die so konfiguriert ist, dass sie das Audioverständnismerkmal des Trainingsbeispiels in die erste Klassifizierungsschicht eingibt und ein Vorhersageergebnis eines Musiktyps Trainingsbeispiels erhält, das von der ersten Klassifizierungsschicht ausgegeben wird; und

eine erste Feedback-Untereinheit, die so konfiguriert ist, dass sie eine Abweichung zwischen dem Vorhersageergebnis und der dem Trainingsbeispiel entsprechenden Beispielbezeichnung berechnet und die Parameter der ersten Merkmalsextraktionsschicht und der ersten Klassifizierungsschicht mittels umgekehrter Rückkopplung anpasst, bis ein Konvergenzgrad der Abweichung unter einem voreingestellten Schwellenwert liegt, um so das trainierte Audioverständnismodell zu erhalten.