EP3640935B1

EP3640935B1 - Verfahren zur ausgabe von benachrichtigungsinformationen, server und überwachungssystem

Info

Publication number: EP3640935B1
Application number: EP18817001.3A
Authority: EP
Inventors: Zhi Cui
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-06-12
Filing date: 2018-06-08
Publication date: 2024-02-14
Anticipated expiration: 2038-06-08
Also published as: US20200364097A1; EP3640935A4; US11275628B2; WO2018228280A1; CN109036461A; EP3640935A1

Claims

Verfahren zum Ausgeben von Benachrichtigungsinformationen, wobei das Verfahren umfasst:
Erfassen (S101, S201, S301) von Audioinformationen;

Extrahieren (S102) eines Merkmalswerts der Audioinformationen;

Abgleichen (S103) des extrahierten Merkmalswerts mit Merkmalswertmodellen in einer voreingestellten Datenbank; wobei die Datenbank eine Entsprechung zwischen den Merkmalswertmodellen und Vorwarnstufen speichert;

Bestimmen (S104) einer Vorwarnstufe, die den Audioinformationen entspricht, auf Grundlage eines Abgleichsergebnisses;

Bestimmen (S105, S207, S311), ob die Vorwarnstufe eine voreingestellte Bedingung erfüllt; wenn die Vorwarnstufe die voreingestellte Bedingung erfüllt, Bestimmen (S106, S208, S312) von Benachrichtigungsinformationen, die den Audioinformationen entsprechen; und

Ausgeben (5017, S209, S313) der Benachrichtigungsinformationen, die bestimmt werden;

dadurch gekennzeichnet, dass

nach dem Erfassen der Audioinformationen das Verfahren weiter umfasst:
Bestimmen (S202, S302), ob es sich bei den Audioinformationen um Mehrtyp-Audioinformationen handelt; wobei die Mehrtyp-Audioinformationen mehrere Klangtypen umfassen;

wenn es sich bei den Audioinformationen um die Mehrtyp-Audioinformationen handelt, zunächst Zerlegen (S203) der Mehrtyp-Audioinformationen in mindestens eine Einzeltyp-Audioinformation; wobei jede Einzeltyp-Audioinformation einen Klangtyp umfasst; Durchführen des Schritts des Extrahierens eines Merkmalswerts der Audioinformationen;

wenn es sich bei den Audioinformationen nicht um die Mehrtyp-Audioinformationen handelt, Durchführen des Schritts des Extrahierens eines Merkmalswerts der Audioinformationen;
wobei das Extrahieren eines Merkmalswerts der Audioinformationen umfasst:
Extrahieren (S204, S308) eines Merkmalswerts jeder Einzeltyp-Audioinformation;

wobei das Abgleichen des extrahierten Merkmalswerts mit Merkmalswertmodellen in einer voreingestellten Datenbank umfasst:
für jede Einzeltyp-Audioinformation, Abgleichen (S205, S309) des aus der Einzeltyp-Audioinformation extrahierten Merkmalswerts mit den Merkmalswertmodellen in der voreingestellten Datenbank;

wobei das Bestimmen einer Vorwarnstufe, die den Audioinformationen entspricht, auf Grundlage eines Abgleichsergebnisses umfasst:
wenn es sich bei den Audioinformationen um die Einzeltyp-Audioinformationen handelt, Bestimmen einer Vorwarnstufe, die den Einzeltyp-Audioinformationen entspricht, auf Grundlage des Abgleichsergebnisses;

wenn es sich bei den Audioinformationen um die Mehrtyp-Audioinformationen handelt, Erhalten eines Abgleichsergebnisses, das jeder Einzeltyp-Audioinformation entspricht, die in den Mehrtyp-Audioinformationen umfasst ist; Bestimmen einer Gewichtung, die jeder der Einzeltyp-Audioinformationen entspricht; und Bestimmen, auf Grundlage der bestimmten Gewichtungen und der Abgleichsergebnisse, einer Vorwarnstufe, die den Mehrtyp-Audioinformationen entspricht;

falls die Audioinformationen als die Mehrtyp-Audioinformationen bestimmt werden, das Verfahren weiter umfasst:
Abgleichen (S303) der Mehrtyp-Audioinformationen mit mindestens einem voreingestellten Szenenklangmodell; Bestimmen (S304) eines jeden von Szenenklängen, die in den Mehrtyp-Audioinformationen umfasst sind, auf Grundlage eines Abgleichsergebnisses; Bestimmen (S305) einer Vorwarnstufe und einer Gewichtung, die jedem der Szenenklänge entsprechen;

wobei das Zerlegen der Mehrtyp-Audioinformationen in mindestens eine Einzeltyp-Audioinformation umfasst: Bestimmen (S306) von Sprachinformationen, die in den Mehrtyp-Audioinformationen umfasst sind; wobei es sich bei den Sprachinformationen um eine Sprache handelt, die von einer Person stammt und Semantik aufweist, die in den Mehrtyp-Audioinformationen umfasst ist;

Bestimmen (S307) jeder Einzeltyp-Audioinformation, die den Sprachinformationen entspricht, auf Grundlage der Klangfarbe der Sprachinformationen;

wobei das Bestimmen, auf Grundlage der bestimmten Gewichtungen und der Abgleichsergebnisse, einer Vorwarnstufe, die den Mehrtyp-Audioinformationen entspricht, umfasst:
Bestimmen der Vorwarnstufe, die den Mehrtyp-Audioinformationen entspricht, auf Grundlage der Gewichtung und des Abgleichsergebnisses, die jeder Einzeltyp-Audioinformation entsprechen, und der Vorwarnstufe und der Gewichtung, die jedem der Szenenklänge entsprechen.
Verfahren nach Anspruch 1, wobei die Merkmalswertmodelle ein Szenenklangmodell umfassen und das Szenenklangmodell ein Merkmalswertmodell ist, das für einen voreingestellten Szenenklang erstellt wurde;
wobei das Abgleichen des extrahierten Merkmalswerts mit Merkmalswertmodellen in einer voreingestellten Datenbank umfasst:
Abgleichen des extrahierten Merkmalswerts mit dem Szenenklangmodell.
Verfahren nach Anspruch 1, wobei das Zerlegen der Mehrtyp-Audioinformationen in mindestens eine Einzeltyp-Audioinformation umfasst:
Segmentieren der Mehrtyp-Audioinformationen in mehrere Audiosegmente auf Grundlage einer voreingestellten Segmentierungsregel;

für jedes der mehreren Audiosegmente:
Bestimmen, ob das Audiosegment mehrere Klangtypen umfasst;

wenn das Audiosegment nicht mehrere Klangtypen umfasst, Bestimmen des Audiosegments als eine Einzeltyp-Audioinformation;

wenn das Audiosegment mehrere Klangtypen umfasst, Zerlegen des Audiosegments in mindestens eine Einzeltyp-Audioinformation auf Grundlage eines Klangparameters im Audiosegment; wobei der Klangparameter eines oder mehrere umfasst von: Ton, Lautstärke, Klangfarbe.
Verfahren nach Anspruch 1, wobei das Bestimmen von Benachrichtigungsinformationen, die den Audioinformationen entsprechen, umfasst:
Erfassen eines Videobildes und/oder von geografischen Standortinformationen, die den Audioinformationen entsprechen; und

Bestimmen des Videobildes und/oder der geografischen Standortinformationen als die Benachrichtigungsinformationen, die den Audioinformationen entsprechen.
Verfahren nach Anspruch 1, wobei das Verfahren vor dem Ausgeben der Benachrichtigungsinformationen, die bestimmt werden, weiter umfasst:
Auffordern eines Benutzers dazu, zu bestimmen, ob die Benachrichtigungsinformationen ausgegeben werden sollen;

Bestimmen, ob Ablehnungsinformationen vom Benutzer innerhalb eines voreingestellten Zeitraums empfangen werden; und

wenn innerhalb des voreingestellten Zeitraums keine Ablehnungsinformationen vom Benutzer empfangen werden, Durchführen des Schritts des Ausgebens der Benachrichtigungsinformationen, die bestimmt werden.
Verfahren nach Anspruch 1, wobei die Datenbank erstellt wird durch:
Erfassen von analogen Audioinformationen anormaler Ereignisse;

Extrahieren von Merkmalswerten der analogen Audioinformationen;

Erstellen von Merkmalswertmodellen auf Grundlage der extrahierten Merkmalswerte; und

Speichern der erstellten Merkmalswertmodelle in der Datenbank in Verknüpfung mit entsprechenden, von einem Benutzer eingestellten Vorwarnstufen.
Verfahren nach Anspruch 1, wobei das Verfahren weiter umfasst:
Empfangen einer Hinzufügeanweisung, die von einem Benutzer gesendet wird;

Extrahieren eines Merkmalswerts von Zielaudioinformationen, die der Hinzufügeanweisung entsprechen;

Erstellen eines Zielmerkmalswertmodells auf Grundlage des Merkmalswerts der Zielaudioinformationen; und

Hinzufügen des Zielmerkmalswertmodells zur Datenbank in Verknüpfung mit einer entsprechenden Vorwarnstufe, die in der Hinzufügeanweisung umfasst ist.
Überwachungssystem, wobei das System einen Server umfasst,
wobei der Server konfiguriert ist zum: Erfassen von Audioinformationen; Extrahieren eines Merkmalswerts der Audioinformationen; Abgleichen des extrahierten Merkmalswerts mit Merkmalswertmodellen in einer voreingestellten Datenbank, wobei die Datenbank eine Entsprechung zwischen den Merkmalswertmodellen und Vorwarnstufen speichert; Bestimmen einer Vorwarnstufe, die den Audioinformationen entspricht, auf Grundlage eines Abgleichsergebnisses; Bestimmen, ob die Vorwarnstufe eine voreingestellte Bedingung erfüllt; wenn die Vorwarnstufe die voreingestellte Bedingung erfüllt, Bestimmen von Benachrichtigungsinformationen, die den Audioinformationen entsprechen; und Ausgeben der Benachrichtigungsinformationen, die bestimmt werden;
dadurch gekennzeichnet, dass
wobei der Server nach dem Erfassen der Audioinformationen weiter konfiguriert ist zum:
Bestimmen, ob es sich bei den Audioinformationen um Mehrtyp-Audioinformationen handelt; wobei die Mehrtyp-Audioinformationen mehrere Klangtypen umfassen;

wenn es sich bei den Audioinformationen um die Mehrtyp-Audioinformationen handelt, zunächst Zerlegen der Mehrtyp-Audioinformationen in mindestens eine Einzeltyp-Audioinformation; wobei jede Einzeltyp-Audioinformation einen Klangtyp umfasst; Durchführen des Schritts des Extrahierens eines Merkmalswerts der Audioinformationen;

wenn es sich bei den Audioinformationen nicht um die Mehrtyp-Audioinformationen handelt, Durchführen des Schritts des Extrahierens eines Merkmalswerts der Audioinformationen;
wobei das Extrahieren eines Merkmalswerts der Audioinformationen umfasst:
Extrahieren eines Merkmalswerts jeder Einzeltyp-Audioinformation;

wobei das Abgleichen des extrahierten Merkmalswerts mit Merkmalswertmodellen in einer voreingestellten Datenbank umfasst:
für jede Einzeltyp-Audioinformation, Abgleichen des aus der Einzeltyp-Audioinformation extrahierten Merkmalswerts mit den Merkmalswertmodellen in der voreingestellten Datenbank;

wobei das Bestimmen einer Vorwarnstufe, die den Audioinformationen entspricht, auf Grundlage eines Abgleichsergebnisses umfasst:
wenn es sich bei den Audioinformationen um die Einzeltyp-Audioinformationen handelt, Bestimmen einer Vorwarnstufe, die den Einzeltyp-Audioinformationen entspricht, auf Grundlage des Abgleichsergebnisses;

wenn es sich bei den Audioinformationen um die Mehrtyp-Audioinformationen handelt, Erhalten eines Abgleichsergebnisses, das jeder Einzeltyp-Audioinformation entspricht, die in den Mehrtyp-Audioinformationen umfasst ist; Bestimmen einer Gewichtung, die jeder der Einzeltyp-Audioinformationen entspricht; und Bestimmen, auf Grundlage der bestimmten Gewichtungen und der Abgleichsergebnisse, einer Vorwarnstufe, die den Mehrtyp-Audioinformationen entspricht;

falls die Audioinformationen als die Mehrtyp-Audioinformationen bestimmt werden, das Verfahren weiter umfasst:
Abgleichen der Mehrtyp-Audioinformationen mit mindestens einem voreingestellten Szenenklangmodell; Bestimmen eines jeden von Szenenklängen, die in den Mehrtyp-Audioinformationen umfasst sind, auf Grundlage eines Abgleichsergebnisses; Bestimmen einer Vorwarnstufe und einer Gewichtung, die jedem der Szenenklänge entsprechen;

wobei das Zerlegen der Mehrtyp-Audioinformationen in mindestens eine Einzeltyp-Audioinformation umfasst: Bestimmen von Sprachinformationen, die in den Mehrtyp-Audioinformationen umfasst sind; wobei es sich bei den Sprachinformationen um eine Sprache handelt, die von einer Person stammt und Semantik aufweist, die in den Mehrtyp-Audioinformationen umfasst ist;

Bestimmen jeder Einzeltyp-Audioinformation, die den Sprachinformationen entspricht, auf Grundlage der Klangfarbe der Sprachinformationen;

wobei das Bestimmen, auf Grundlage der bestimmten Gewichtungen und der Abgleichsergebnisse, einer Vorwarnstufe, die den Mehrtyp-Audioinformationen entspricht, umfasst:
Bestimmen der Vorwarnstufe, die den Mehrtyp-Audioinformationen entspricht, auf Grundlage der Gewichtung und des Abgleichsergebnisses, die jeder Einzeltyp-Audioinformation entsprechen, und der Vorwarnstufe und der Gewichtung, die jedem der Szenenklänge entsprechen.
System nach Anspruch 8, wobei das System weiter umfasst: eine Audioaufnahmevorrichtung;
wobei die Audioaufnahmevorrichtung zum Aufnehmen der Audioinformationen und Senden der aufgenommenen Audioinformationen an den Server konfiguriert ist.
System nach Anspruch 8, wobei das System weiter umfasst: eine Videoaufnahmevorrichtung;
wobei die Videoaufnahmevorrichtung zum Aufnehmen eines Videobildes, Bestimmen seiner geografischen Standortinformationen und Senden des aufgenommenen Videobildes und der bestimmten geografischen Standortinformationen an den Server konfiguriert ist;

wobei der Server während eines Prozesses zum Bestimmen der Benachrichtigungsinformationen, die den Audioinformationen entsprechen, weiter konfiguriert ist zum Bestimmen eines Videobildes und von geografischen Standortinformationen, die den Audioinformationen entsprechen, und Hinzufügen des Videobildes und der geografischen Standortinformationen zu den Benachrichtigungsinformationen.
System nach Anspruch 8, wobei der Server weiter umfasst: einen Datenbankserver, der konfiguriert ist zum Erfassen von analogen Audioinformationen anormaler Ereignisse; Extrahieren von Merkmalswerten der analogen Audioinformationen; Erstellen von Merkmalswertmodellen auf Grundlage der extrahierten Merkmalswerte; und Speichern der erstellten Merkmalswertmodelle mit entsprechenden, von einem Benutzer eingestellten Vorwarnstufen in einer Datenbank des Datenbankservers;
wobei die voreingestellte Datenbank die Datenbank des Datenbankservers ist.
Computerlesbares Speichermedium, das ein Computerprogramm speichert; wobei das Computerprogramm das Verfahren zum Ausgeben von Benachrichtigungsinformationen nach einem der Ansprüche 1-7 implementiert, wenn es von einem Prozessor ausgeführt wird.