WO2012025439A1

WO2012025439A1 - Verfahren zum suchen in einer vielzahl von datensätzen und suchmaschine

Info

Publication number: WO2012025439A1
Application number: PCT/EP2011/064163
Authority: WO
Inventors: Emin Karayel; Carsten Heinz; Matthias Krings
Original assignee: Omikron Data Quality GmbH
Current assignee: Omikron Data Quality GmbH
Priority date: 2010-08-25
Filing date: 2011-08-17
Publication date: 2012-03-01
Anticipated expiration: 2013-02-25
Also published as: US20130151499A1; CN103098052A; JP5890413B2; RU2013112783A; US9087119B2; BR112013004243A2; EP2423830A1; CN103098052B; JP2013536519A

Abstract

Die vorliegende Erfindung betrifft ein computerimplementiertes Verfahren zum Suchen in einer Vielzahl (D) von Datensätzen (d_l), bei dem eine Suchanfrage (Q) mit mindestens einem Suchterm (q_i) empfangen wird, aus einer Referenzmenge (T) eine Teilmenge (V) mit Termen (t_j) ermittelt wird, die ähnlich oder identisch mit dem Suchterm (q_i) sind, für jeden Term (t_j) der Teilmenge (V) ein Ähnlichkeitsmaß (A_j) zu dem Suchterm (q_i) bestimmt wird, die Wahrscheinlichkeit (p_j) für das Auftreten des Terms (t_j) bestimmt wird, eine von dem Term (t_i) abhängige Gewichtungsverteilung (X_j) auf die Terme (t_k) der Teilmenge (V) angewandt wird, wobei die Terme (t_k), die ein höheres Ähnlichkeitsmaß besitzen, stärker gewichtet werden als Terme (t_k) mit einem niedrigeren Ähnlichkeitsmaß, und eine modifizierte Wahrscheinlichkeit (p'_j, p"_j) für den Term (t_j) aus den gewichteten Wahrscheinlichkeiten der Terme (t_k) der Teilmenge (V) bestimmt wird. Ferner werden die Datensätze (d_i) im Hinblick auf ihre Relevanz (R) für die Suchanfrage (Q) bewertet, wobei geprüft wird, ob die Terme (t_j) der Teilmenge (V) in dem Datensatz (d_l) vorkommen, und, wenn ein Term (tj) der Teilmenge (V) in dem Datensatz (d_l) vorkommt, eine niedrigere modifizierte Wahrscheinlichkeit (p'_j, p"_j) des Terms (t_j) zu einer höheren Relevanzbewertung des Datensatzes (d_l) führt, und es wird zumindest eine Datensatzteilmenge in Abhängigkeit von ihrer Relevanzbewertung (R) ausgegeben. Außerdem betrifft die Erfindung eine Suchmaschine zum Ausführen dieses Verfahrens.

Description

Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine

Die vorliegende Erfindung betrifft ein computerimplementiertes Verfahren zum Suchen in einer Vielzahl von Datensätzen. Ferner betrifft die Erfindung eine entsprechende, von einem Computer ausführbare Suchmaschine.

Die Suche in einer Vielzahl von Datensätzen ist beispielsweise in sogenannten Online-Shops von großer Bedeutung. Ein Anbieter von einer Vielzahl von Produkten erfasst die angebotenen Produkte anhand von Datensätzen in einer Datenbank. Ein Nutzer kann nun mittels seines Computers über ein Netzwerk, wie beispielsweise dem Internet, eine Verbindung zu dem Online-Shop herstellen und die Datensätze der Datenbank aufrufen. Umfasst die Datenbank einen sehr großen Datenbestand, und sind die einzelnen Datensätze relativ komplex strukturiert, ist es erforderlich, dass der Nutzer in den Datensätzen mittels einer Suchmaschine suchen kann. Dabei übermittelt der Nutzer eine Suchanfrage an den Online-Shop. Der Online-Shop oder ein damit verbundenes System verarbeitet die Suchanfrage und gibt als Suchtreffer in bestimmter Weise geordnete Datensätze an den Nutzer zurück. Dabei ergibt sich das Problem, die Datensätze zu bestimmen, die für die Suchanfrage des Nutzers besonders relevant sind. Des Weiteren ist es bekannt, nicht nur in der Datenbank eines Online-Shops zu suchen, sondern auch nach Daten, die über das Internet empfangbar sind. Derartige Suchmaschinen werden als Internet-Suchmaschinen bezeichnet.

Bei allen Suchmaschinen ergibt sich das Problem, dass die Suchanfrage häufig vage und mit einer Unsicherheit behaftet ist. Die Suchterme der Suchanfrage entsprechen häufig nicht exakt den Begriffen, die in den zu durchsuchenden Datensätzen vorkommen. Außerdem kann es vorkommen, dass die Suchterme Tippfehler enthalten oder sich auch auf grammatikalisch andere Formen des Suchterms beziehen sollen. Bei der Verarbeitung der Suchanfrage ist man daher stets bestrebt, die Vagheit und Unsicherheit der Suchanfrage mit zu berücksichtigen.

Aus der EP 1 095 326 B1 ist ein Suchsystem für die Wiedergewinnung von Informationen beschrieben, die in Form von Text gespeichert ist. Bei dem Suchsystem wird für die Informationswiedergewinnung als Datenstruktur für den Text eine Baumstruktur verwendet. Ferner wird anhand eines Maßes der Grad der Übereinstimmung zwischen einer Anfrage und der wiederge- wonnenen Information bestimmt, wobei das Maß eine Kombination aus einem Abstandsmaß für einen ungefähren Grad an Übereinstimmung zwischen Wörtern bzw. Symbolen in dem Text und der Anfrage bestimmt, und einem anderen Abstandsmaß für einen ungefähren Grad an Über- einstimmung zwischen Sequenzen von Wörtern bzw. Symbolen in dem Text und einer Anfragesequenz bestimmt.

In der EP 1 208 465 B1 ist eine Suchmaschine zum Durchsuchen einer Dokumentensammlung beschrieben. Bei dieser Suchmaschine bilden Datenverarbeitungseinheiten Gruppen von Knoten, die in einem Netzwerk verbunden sind. Die Suchmaschine ist so angepasst, dass sie im Hinblick auf das Datenvolumen und die Anfragerate für Suchanfragen skaliert werden kann.

In der EP 1 341 009 B1 ist ein Verfahren zum Betreiben einer Internet-Suchmaschine beschrie- ben. Bei dem Verfahren werden Links zwischen Websites im Internet mittels eines intelligenten Agenten durchlaufen. Die Inhalte der besuchten Websites werden gefiltert, um die Relevanz des Inhalts zu bestimmen. Die dabei ermittelten relevanten Websites werden indexiert und die indexierte, gegenstandsspezifische Information wird in einer Datenbank gespeichert. Bei den Filtern werden die Inhalte einer Website durch ein gegenstandsspezifisches Filter auf Lexikon- basis durchgelassen, wobei das Filter Inhalte der Website mit im Lexikon gefundener Terminologie vergleicht.

In der EP 1 459 206 B1 ist ein computerimplementiertes Verfahren zum Suchen einer Sammlung von Posten beschrieben, wobei jeder Posten in der Sammlung einen Satz von Eigenschaf- ten aufweist. Bei dem Verfahren wird eine Abfrage empfangen, welche aus einem ersten Satz von zwei oder mehr Eigenschaften gebildet ist. Es wird daraufhin eine Distanzfunktion auf ein oder mehrere der Posten in der Sammlung angewandt und ein Ergebnisposten oder mehrere Ergebnisposten werden auf Grundlage der Distanzfunktion identifiziert. Dabei bestimmt die Distanzfunktion eine Distanz zwischen der Abfrage und einen Posten in der Sammlung, und zwar auf Grundlage der Anzahl von Posten in der Sammlung, welche alle Eigenschaften in der Schnittmenge des ersten Satzes von Eigenschaften und des Satzes von Eigenschaften für den Posten aufweisen.

Schließlich sind in der EP 1 622 054 A1 , der WO 2008/085637 A2 und der WO 2008/137395 A1 weitere Suchverfahren und Suchmaschinen für eine Suche in Datensätzen beschrieben.

Schließlich ist aus der Veröffentlichung von Tuan-Quang Nguyen et al.:„Query expansion using augmented terms in an extended Boolean model", Journal of Computing Science and Engineering Korean Institute of Information Scientists and Engineers South Korea, Bd. 2, Nr. 1 , März 2008 (2008-03), Seiten 26-43, ISSN: 1976-4677 ein Suchverfahren bekannt, bei dem die ursprüngliche Suchanfrage zunächst um Terme erweitert wird, die beispielsweise aus einem Thesaurus ausgewählt werden. Bei der Auswahl dieser hinzugefügten Terme wird die Ähnlichkeit zu dem ursprünglichen Suchterm berücksichtigt. Schließlich werden noch weitere Terme (aug- mented terms) hinzugefügt, bei denen das gemeinsame Auftreten der Suchterme in den Dokumenten berücksichtigt wird. Die Terme der auf diese Weise erweiterten Suchanfrage werden dann mit Gewichtungen versehen, wobei der ursprüngliche Suchterm die Gewichtung 1 erhält und die hinzugefügten Terme eine Gewichtung erhalten, welche von der Ähnlichkeit mit dem ursprünglichen Suchterm abhängt. Nachteilhafterweise löst das Verfahren dieser Druckschrift jedoch unter anderem nicht das Problem, dass falsch geschriebene Wörter in einer Suchanfrage zu einer sehr hohen Relevanz des falsch geschriebenen Wortes führen, da falsch geschriebene Wörter gar nicht oder selten in Dokumenten auftreten. Der vorliegenden Erfindung liegt das technische Problem zugrunde, ein computerimplementiertes Verfahren zum Suchen in einer Vielzahl von Datensätzen und eine entsprechende von einem Computer ausführbare Suchmaschine bereitzustellen, die aus der Vielzahl von Datensätzen bestimmte Datensätze ausgibt, die für eine empfangene Suchanfrage so relevant wie möglich sind.

Erfindungsgemäß wird dieses technische Problem durch ein Verfahren mit den Merkmalen des Anspruchs 1 und eine Suchmaschine mit den Merkmalen des Anspruchs 12 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den abhängigen Ansprüchen. Bei dem erfindungsgemäßen Verfahren wird eine Suchanfrage mit mindestens einem Suchterm empfangen. Anschließend wird aus einer Referenzmenge eine Teilmenge mit Termen ermittelt, die ähnlich oder identisch mit dem Suchterm sind. Enthält die Suchanfrage mehrere Suchterme, wird für jeden Suchterm gesondert eine Referenzmenge ermittelt. Für jeden Term der Teilmenge wird dann ein Ähnlichkeitsmaß zu dem Suchterm bestimmt und die Wahrscheinlichkeit für das Auftreten des Terms bestimmt. Nun wird eine von dem Term abhängige Gewichtungsverteilung auf die Terme der Teilmenge angewandt, wobei die Terme, die ein höheres Ähnlichkeitsmaß besitzen, stärker gewichtet werden als Terme mit einem niedrigeren Ähnlichkeitsmaß. Danach wird eine modifizierte Wahrscheinlichkeit für den Term aus den gewichteten Wahrscheinlichkeiten der Terme der Teilmenge bestimmt.

Anschließend werden bei dem erfindungsgemäßen Verfahren die Datensätze im Hinblick auf ihre Relevanz für die Suchanfrage bewertet. Bei dieser Bewertung wird geprüft, ob die Terme der Teilmenge in dem Datensatz vorkommen, und, wenn ein Term der Teilmenge in dem Datensatz vorkommt, führt eine niedrigere modifizierte Wahrscheinlichkeit des Terms zu einer hö- heren Relevanzbewertung des Datensatzes. Schließlich wird zumindest eine Datensatzteilmenge in Abhängigkeit von ihrer Relevanzbewertung ausgegeben. Für die Relevanz eines Suchterms einer Suchanfrage ist es von Bedeutung, wie häufig dieser Suchterm in Mengen mit derartigen Termen vorkommt. Wenn ein Term üblicherweise sehr häufig vorkommt, ist er bei der Verarbeitung der Suchanfrage weniger relevant als ein Suchterm der Suchanfrage, der üblicherweise in Termmengen sehr selten vorkommt. Bei dem erfindungsge- mäßen Verfahren werden die unterschiedlichen Häufigkeiten, mit denen Suchterme vorkommen, dadurch berücksichtigt, dass eine Auftretenswahrscheinlichkeit jedes Terms der Teilmenge bestimmt wird. Diese Termwahrscheinlichkeiten können beispielsweise vorab anhand von bestimmten Mengen mit Termen bestimmt werden, zum Beispiel anhand von vorab ausgewählten Texten, bei denen die Worthäufigkeiten bestimmt worden sind. Die Menge, auf weiche sich die Auftretenswahrscheinlichkeit der Terme bezieht, kann außerdem von der Gesamtheit der Terme gebildet sein, die in den zu durchsuchenden Datensätzen vorkommen. Diese Datensätze können vorab durchsucht und indexiert werden. Dabei kann für jeden Term in einem Datensatz außerdem die Häufigkeit bestimmt werden, mit welcher dieser Term in den Datensätzen aufgetreten ist.

Dabei kann sich jedoch das Problem ergeben, dass zum einen die zu durchsuchenden Datensätze Fehler enthalten können und zum anderen auch die Suchterme der Suchanfrage Fehler enthalten können. Bei den Fehlern kann es sich beispielsweise um Schreib- oder Tippfehler handeln. Ein Wort kann beispielsweise in einer nicht korrekten Schreibweise in einem Daten- satz enthalten sein. Wird nun die Auftretenshäufigkeit der Terme bestimmt, würde sich bei einem nicht korrekt geschriebenen Wort eines Suchterms ergeben, dass dieses Wort für die Suchanfrage eine besonders hohe Relevanz hat, da es sehr selten vorkommt. Die gleiche Situation ergibt sich, wenn die Wahrscheinlichkeit des Auftretens eines Terms anhand der Gesamtheit der Terme bestimmt wird, die in den Datensätzen vorkommen. Enthalten die Datensätze ein nicht korrekt geschriebenes Wort, tritt dieses Wort sehr selten auf, so dass die Auftretenswahrscheinlichkeit dieses Wortes sehr gering ist und damit die Relevanz des Wortes für eine Suchanfrage sehr hoch ist.

Bei dem erfindungsgemäßen Verfahren wird dieses Problem dadurch gelöst, dass nicht nur die Auftretenswahrscheinlichkeit bzw. die Häufigkeit eines Terms einer Suchanfrage berücksichtigt wird, sondern für jeden Suchterm in der Suchanfrage eine Teilmenge mit Termen aus einer Referenzmenge ermittelt wird, die bei der anschließenden Relevanzbewertung der Datensätze im Hinblick auf diesen Suchterm berücksichtigt wird. Die Teilmenge kann beispielsweise anhand eines Lexikons bestimmt werden. In diesem Fall ergibt sich, dass ein Suchterm mit einem nicht korrekt geschriebenen Wort nicht in der Teilmenge enthalten wäre, sondern nur ähnliche Wörter, die korrekt geschrieben sind. Um auch andere grammatikalische Formen eines Wortes eines Suchterms zu berücksichtigen, enthält die Referenzmenge insbesondere alle grammatikalischen Formen von Wörtern. Die Teilmenge wird daher nicht nur ein Wort eines Suchterms enthalten, sondern auch andere grammatikalische Formen dieses Wortes, da diese Formen ähnlich mit dem Suchterm sind.

Bei dem erfindungsgemäßen Verfahren wird nun nicht nur jeder Term dieser auf diese Weise bestimmten Teilmenge bei der Relevanzbewertung der Datensätze im Hinblick auf den Suchterm berücksichtigt, sondern die Terme dieser Teilmenge werden erfindungsgemäß in besonderer Weise berücksichtigt:

Da für jeden Term der Teilmenge ein Ähnlichkeitsmaß zu dem zugehörigen Suchterm bestimmt wird, können die Terme der Teilmenge nach ihrem Ähnlichkeitsmaß geordnet werden. Mittels einer Gewichtungsverteilung wird nun in Abhängigkeit von dem Term bestimmt, wie die anderen Terme der Teilmenge bei der Bestimmung der modifizierten Wahrscheinlichkeit berücksichtigt werden. Dabei werden Terme, die ein höheres Ähnlichkeitsmaß besitzen, stärker gewichtet als Terme mit einem niedrigeren Ähnlichkeitsmaß. Auf diese Weise ist es möglich, auch bei einem Suchterm, der beispielsweise einen Tippfehler enthält, zu einer angemessenen modifizierten Wahrscheinlichkeit für diesen Term zu gelangen, auf deren Basis schließlich die Relevanz der Datensätze bestimmt wird. In der zu einem Suchterm mit einem Tippfehler gehörigen Teilmenge ist nämlich mit hoher Wahrscheinlichkeit auch der korrekt geschriebene Term sowie Abwandlungen davon enthalten. Diese Terme, die in der Teilmenge enthalten sind, werden dann bei der Bestimmung der modifizierten Wahrscheinlichkeit mit berücksichtigt, so dass das seltene Auftreten des Suchterms mit dem Tippfehler nicht zu einer sehr hohen Relevanz dieses Terms für die Bewertung der Datensätze führt. Auf die gleiche Weise kann auch verhindert werden, dass Tippfehler, die in den zu durchsuchenden Datensätzen vorkommen, zu nicht geeigneten Ergebnissen bei der Bewertung eines solchen Datensatzes führen.

Gemäß einer Ausgestaltung des erfindungsgemäßen Verfahrens ist die Gewichtungsverteilung so ausgebildet, dass bei der Bestimmung der modifizierten Wahrscheinlichkeit eines Terms nur die Wahrscheinlichkeit des Terms selbst sowie die Wahrscheinlichkeiten anderer Terme berücksichtigt werden, die ein höheres Ähnlichkeitsmaß als der eine Term besitzen. Die Gewichtungsverteilung kann in diesem Fall somit beispielsweise eine Stufenfunktion sein, welche für den Term der Teilmenge selbst sowie für andere Terme, die ein höheres Ähnlichkeitsmaß haben als dieser Term, die Gewichtung 1 ausgibt und für Terme der Teilmenge mit einem geringe- ren Ähnlichkeitsmaß die Gewichtung 0 ausgibt, so dass diese Terme mit geringerem Ähnlichkeitsmaß bei der Bestimmung der modifizierten Wahrscheinlichkeit unberücksichtigt bleiben. Bei der Bestimmung der modifizierten Wahrscheinlichkeit für einen Term wird somit zum einen die Wahrscheinlichkeit des Terms selbst berücksichtigt, sowie die Wahrscheinlichkeit jedes anderen Terms der Teilmenge, der ein höheres Ähnlichkeitsmaß als dieser Term hat.

Gemäß einer bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens wird die Gewich- tung, mit der die Wahrscheinlichkeit eines zweiten Terms t_k in die modifizierte Wahrscheinlichkeit eines ersten Terms t eingeht, durch die Auswertung einer Sigmoid-Funktion bestimmt, wobei die Auswertungsstelle die Subtraktion des Ähnlichkeitsmaßes des ersten Terms t_j vom Ähnlichkeitsmaß des zweiten Terms t_k ist. Da die Sigmoid-Funktion im Gegensatz zu einer unstetigen Stufenfunktion einen stetigen Übergang vom Wert 0 zum Wert 1 hat, können bei dieser Ausgestaltung des erfindungsgemäßen Verfahrens auch Terme der Teilmenge berücksichtigt werden, die ein geringfügig niedrigeres Ähnlichkeitsmaß haben als der Term, dessen modifizierte Wahrscheinlichkeit bestimmt wird. Auf diese Weise kann die auf Basis der modifizierten Wahrscheinlichkeit bewertete Relevanz der Datensätze weiter verbessert werden. Gemäß einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens ist die Gewichtungsverteilung so ausgebildet, dass bei der Bestimmung der modifizierten Wahrscheinlichkeit eines Terms ferner Wahrscheinlichkeiten von anderen Termen mit einer geringeren Gewichtung berücksichtigt werden, die ein niedrigeres Ähnlichkeitsmaß besitzen, wobei die Gewichtung eines anderen Terms mit niedrigerem Ähnlichkeitsmaß von der Differenz des Ähnlichkeitsmaßes des Terms, für den die modifizierte Wahrscheinlichkeit bestimmt wird, und des Ähnlichkeitsmaßes des anderen Terms abhängt. Insbesondere wird die Gewichtung eines anderen Terms mit niedrigerem Ähnlichkeitsmaß umso höher sein, desto geringer der Absolutbetrag der Differenz zu dem Ähnlichkeitsmaß des Terms ist, für den die modifizierte Wahrscheinlichkeit bestimmt wird. Auf diese Weise können durch Anwendung beliebiger anderer Funktionen Terme mit niedrige- rem Ähnlichkeitsmaß für die Bestimmung der modifizierten Wahrscheinlichkeit jedes Terms der Teilmenge und damit für die Bewertung der Relevanz der Datensätze berücksichtigt werden.

Die modifizierte Termwahrscheinlichkeit eines gegebenen Terms stellt die Wahrscheinlichkeit der Vereinigung aller Terme dar, deren Ähnlichkeit (in einem verallgemeinerten Sinne) zum Suchterm größer sind, als die Ähnlichkeit des gegebenen Terms. Für die Bewertung eines Datensatzes ist es jedoch sinnvoll die Wahrscheinlichkeit zu ermitteln, dass ein Datensatz einen solchen enthält. Da ein Datensatz viele Terme enthält, ist diese Wahrscheinlichkeit größer. Hierzu wird gemäß einer Weiterbildung des erfindungsgemäßen Verfahrens bei der Berechnung der modifizierten Wahrscheinlichkeit außerdem, ein Zwischenschritt eingeführt, der die Verteilung der Anzahl der Terme je Datensatz der zu durchsuchenden Datensätze berücksichtigt. Dabei wird insbesondere berücksichtigt, dass ein Datensatz mehrere ähnliche Terme gleichzeitig enthalten könnte. Die Bewertung eines Datensatzes kann sich beispielsweise aus dem Absolutbetrag des Logarithmus der modifizierten Wahrscheinlichkeit des zugehörigen Terms ergeben. Auf diese Weise lassen sich die verschiedenen Wahrscheinlichkeiten der zu berücksichtigenden Terme für die Bestimmung der modifizierten Wahrscheinlichkeit eines Terms leichter zusammenführen.

Die Wahrscheinlichkeit für das Auftreten des Terms der Teilmenge wird insbesondere dadurch bestimmt, dass die dem Term zugeordnete Wahrscheinlichkeit vorab aus der Häufigkeit des Terms in der Referenzmenge oder in den Datensätzen ermittelt und in einem Speicher gespeichert wird, und die gespeicherte Wahrscheinlichkeit für den Term später aus dem Speicher ausgelesen wird. Durch diese vorherige Bestimmung der Wahrscheinlichkeiten kann die Ausführung des Verfahrens beschleunigt und vereinfacht werden. Außerdem kann man durch die Wahl der Referenzmenge auf allgemeine Analysen zur Auftretenshäufigkeit von Termen in Mengen, d.h. zum Beispiel von Wörtern in Texten, zurückgreifen. Schließlich kann man durch die Berücksichtigung der Auftretenshäufigkeit der Terme in den Datensätzen Wahrscheinlichkei- ten ermitteln, welche an die speziellen Datensätze angepasst sind. Handelt es sich bei den Datensätzen beispielsweise um eine Produktdatenbank, dann können die Auftretenshäufigkeiten bestimmter Wörter von den Häufigkeiten abweichen, die aus allgemeinen Texten anderer Art bestimmt worden sind.

Gemäß einer Weiterbildung des erfindungsgemäßen Verfahrens enthält die Suchanfrage mehrere Suchterme. In diesem Fall wird für jeden Suchterm gesondert eine Teilbewertung bestimmt. Ferner wird eine weitere Teilbewertung für die aus den Suchtermen zusammengesetzte Suchanfrage bestimmt. Die Bewertung der Suchanfrage wird dann aus den Teilbewertungen bestimmt.

Des Weiteren kann bei dem Verfahren bei der Relevanzbewertung der Datensätze ein Datensatz höher bewertet werden, wenn ein Term der Teilmenge häufiger in diesem Datensatz vorkommt. Beispielsweise kann ein Datensatz umso höher bewertet werden, je häufiger ein Term der Teilmenge in diesem Datensatz vorkommt. Auf diese Weise kann nicht nur die Auftretenswahrscheinlichkeit eines Terms sowie weiterer Terme der Teilmenge in die Relevanzbewertung der Datensätze einfließen, sondern auch die konkrete Auftretenshäufigkeit eines Terms in dem zu bewertenden Datensatz. Auch diese Maßnahme führt zu einer weiteren Verbesserung der Relevanzbewertung der Datensätze. Ein Datensatz kann beispielsweise jeweils mehrere Felder enthalten. Dies ist beispielsweise insbesondere dann der Fall, wenn die Datensätze eine Produktdatenbank betreffen. In diesem Fall sind bei der Relevanzbewertung der Datensätze bestimmte Felder wichtiger, andere Felder hingegen weniger wichtig. Aus diesem Grund wird in diesem Fall bei dem erfindungsgemäßen Verfahren bevorzugt die Relevanz eines Datensatzes außerdem in Abhängigkeit davon bewertet, in welchem Feld ein Term der Teilmenge in dem Datensatz vorkommt. Kommt ein Term in einem besonders wichtigen Feld vor, führt dies zu einer höheren Bewertung des Datensatzes, als wenn der Term in einem weniger wichtigen Feld vorkommt.

Die Erfindung betrifft außerdem ein Computerprogrammprodukt mit Programmcodes zur Durchführung des vorstehend beschriebenen Verfahrens, wenn der Programmcode von einem Computer ausgeführt wird. Bei dem Computerprogrammprodukt kann es sich insbesondere um ein beliebiges Speichermedium für Computersoftware handeln.

Die erfindungsgemäße, von einem Computer ausführbare Suchmaschine umfasst eine Empfangseinheit zum Empfangen einer Suchanfrage mit mindestens einem Suchterm. Die Suchanfrage kann beispielsweise über ein Netzwerk, wie das Internet, empfangen werden. Des Weiteren umfasst die Suchmaschine Mittel zum Ermitteln einer Teilmenge mit Termen, die ähnlich oder identisch mit dem Suchterm sind. Diese Teilmenge wird insbesondere aus einer Referenzmenge ermittelt.

Des Weiteren umfasst die erfindungsgemäße Suchmaschine Mittel zum Bestimmen einer modifizierten Wahrscheinlichkeit für jeden Term der Teilmenge. Diese Mittel zum Bestimmen der modifizierten Wahrscheinlichkeit sind so ausgebildet, dass ein Ähnlichkeitsmaß des jeweiligen Terms zu dem Suchterm bestimmbar ist, die Wahrscheinlichkeit für das Auftreten des Terms bestimmbar ist, eine von dem Term abhängige Gewichtungsverteilung auf die Terme der Teilmenge anwendbar ist, wobei die Terme, die ein höheres Ähnlichkeitsmaß zum Suchterm besitzen, stärker gewichtet werden als Terme mit einem niedrigeren Ähnlichkeitsmaß, und die modi- fizierte Wahrscheinlichkeit für den Term aus den gewichteten Wahrscheinlichkeiten der Terme der Teilmenge bestimmbar ist.

Des Weiteren umfasst die erfindungsgemäße Suchmaschine eine Bewertungseinheit zum Bewerten von Datensätzen im Hinblick auf ihre Relevanz für die Suchanfrage. Mittels dieser Be- wertungseinheit ist insbesondere prüfbar, ob die Terme der Teilmenge in dem Datensatz vorkommen, und, wenn ein Term der Teilmenge in dem Datensatz vorkommt, eine niedrigere modifizierte Wahrscheinlichkeit des Terms zu einer höheren Bewertung des Datensatzes führt.

Schließlich umfasst die erfindungsgemäße Suchmaschine eine Ausgabeeinheit zum Ausgeben einer Datensatzteilmenge in Abhängigkeit von ihrer Relevanzbewertung. Die erfindungsgemäße Suchmaschine ist insbesondere so ausgebildet, dass sie das vorstehend beschriebene Verfahren ausführen kann. Sie weist somit auch dieselben Vorteile wie das vorstehend angegebene Verfahren auf. Gemäß einer Ausgestaltung der erfindungsgemäßen Suchmaschine umfasst diese einen Speicher, in dem die Referenzmenge mit Termen oder eine Menge mit den Termen, die in den Datensätzen vorkommen, sowie die den Termen zugeordneten Wahrscheinlichkeiten gespeichert sind. Die Wahrscheinlichkeiten ergeben sich dabei insbesondere aus der Auftretenshäufigkeit der Terme in der Referenzmenge bzw. in den Datensätzen, die zu durchsuchen sind.

Die Erfindung wird nun anhand der Ausführungsbeispiele mit Bezug zu den Zeichnungen erläutert.

Figur 1 zeigt schematisch den prinzipiellen Aufbau der Suchmaschine gemäß einem

Ausführungsbeispiel der Erfindung und

Figur 2 zeigt die Schritte bei der Durchführung eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens. Das im Folgenden beschriebene Ausführungsbeispiel betrifft die Suche in einer Produktdatenbank D. Für jedes Produkt ist in dieser Produktdatenbank D ein Datensatz d| gespeichert. Jeder Datensatz d| kann wiederum in mehrere Felder unterteilt sein, die sich beispielsweise auf den Preis des Produkts, die Farbe des Produkts, das Material des Produkts oder andere relevante Merkmale des Produkts beziehen können.

Die Produktdatenbank D wird einem Nutzer in Verbindung mit einem Online-Shop bereitgestellt. Wie schematisch in Figur 1 gezeigt, kann der Nutzer mittels seines Computers 3 über das Internet 2 auf eine Website zugreifen, die von einer Zentraleinheit 1 des Online-Shops bereitgestellt wird. Der Nutzer kann mittels seines Computers 3 über das Internet 2 dem Online-Shop eine Suchanfrage Q übermitteln, welche von einer Empfangseinheit 4 der Zentraleinheit 1 des Online-Shops empfangen wird. Die Empfangseinheit 4 überträgt die Suchanfrage Q an eine Einrichtung 5 zum Ermitteln einer Teilmenge V mit Termen, die ähnlich oder identisch mit einem Such- term q, der Suchanfrage Q sind. Hierfür ist die Zentraleinheit 1 mit einem Speicher 1 1 gekoppelt. Dieser Speicher 1 1 kann zum einen die Produktdatenbank D enthalten. Zum anderen ent- hält der Speicher 1 1 eine Referenzmenge T mit Termen t. Die Referenzmenge T ist beispielsweise eine Wortdatenbank, in der im Wesentlichen alle Worte einer Sprache oder mehrerer Sprachen enthalten sind, oder alle Worte enthalten sind, die in einer Produktdatenbank vor- kommen können. Bei den Termen t handelt es sich in diesem Fall somit insbesondere um Wörter.

Außerdem ist in dem Speicher 1 1 für jeden Term t eine Wahrscheinlichkeit p_j gespeichert. Die- se Wahrscheinlichkeit p_j eines Terms t gibt an, wie die Wahrscheinlichkeit ist, dass dieser Term t_j in einer Menge mit Termen auftritt. Diese Wahrscheinlichkeiten p_j können insbesondere aus den Häufigkeiten abgeleitet werden, mit denen ein bestimmtes Wort in Texten einer bestimmten Sprache auftritt. Diese Auftretenshäufigkeiten sind an sich bekannt und können vorab in dem Speicher 11 gespeichert werden. Alternativ könnte bestimmt werden, wie häufig ein bestimmter Term t_j in der Datenbank D auftritt. Aus dieser Auftretenshäufigkeit könnte dann die Wahrscheinlichkeit p_j dafür bestimmt werden, dass der Term t_j in der Datenbank D vorkommt.

Nachdem von der Einrichtung 5 eine Teilmenge V mit Termen t_j bestimmt worden ist, wird für jeden Term t_j der Teilmenge V mittels der Einrichtung 6 ein Ähnlichkeitsmaß für den jeweiligen Term t_j bestimmt. Das Ähnlichkeitsmaß gibt an, wie ähnlich der Term t_j zu einem Suchterm q, der Suchanfrage Q ist.

Die Einrichtung 6 ist mit einer Einrichtung 7 gekoppelt, welche die Wahrscheinlichkeit p_j für das Auftreten des Terms t_j bestimmen kann. Diese Wahrscheinlichkeit p_j kann die Einrichtung 7 bei- spielsweise einfach aus dem Speicher 1 1 auslesen, in dem diese vorab ermittelten Wahrscheinlichkeiten, wie vorstehend erläutert, gespeichert sind.

Die Einrichtung 7 ist mit einer Einrichtung 8 gekoppelt, in welcher eine von einem Term t_j der Teilmenge V abhängige Gewichtungsverteilung X_j auf alle Terme t_k der Teilmenge V anwendbar ist. Durch Anwendung der Gewichtungsverteilung X_j ergeben sich gewichtete Wahrscheinlichkeiten für die Terme t_k der Teilmenge V. Aus diesen gewichteten Wahrscheinlichkeiten kann die Einrichtung 8 modifizierte Termwahrscheinlichkeiten p"_j bestimmen. Des Weiteren kann die Einrichtung die Anzahl der Terme je Datensatz berücksichtigen (zum Beispiel durch Zugriff auf den Speicher 1 1). Daraus ergibt sich die modifizierte Wahrscheinlichkeit p'_j dafür, dass ein Term t_j oder ein noch ähnlicherer in einem Datensatz auftritt.

Die modifizierten Wahrscheinlichkeiten p'_j werden von der Einrichtung 8 an eine Bewertungseinheit 9 übertragen. Die Bewertungseinheit 9 bewertet die Datensätze d| im Hinblick auf ihre Relevanz für die Suchanfrage Q. Hierfür greift die Bewertungseinheit 9 auf den Speicher 11 zu und prüft für jeden Datensatz d| der Produktdatenbank D, ob die Terme t_j der Teilmenge V in dem Datensatz d| vorkommen. Wenn ein Term t_j der Teilmenge V in dem Datensatz d| vorkommt, führt die Bewertungseinheit 9 eine Bewertung des Datensatzes d| unter Berücksichtigung der modifizierten Wahrscheinlichkeiten p'_j der vorkommenden Terme t_j durch. Die Relevanzbewertung überträgt die Bewertungseinheit 9 an eine Ausgabeeinheit 10. Die Ausgabeeinheit 10 bestimmt eine Datensatzteilmenge in Abhängigkeit von ihrer Relevanzbewertung. Beispielsweise kann die Ausgabeeinheit eine bestimmte Anzahl an Datensätzen d|, welche die höchsten Relevanzbewertungen erhalten haben, in der Reihenfolge ihrer Relevanzbewertung ausgeben. Diese Ausgabe kann über das Internet 2 dem Computer 3 des Nutzers zur Verfügung gestellt werden, zum Beispiel durch eine Anzeige auf einer Website, die auf dem Computer 3 des Nutzers angezeigt wird. Details zu den vorstehend beschriebenen Einrichtungen der Zentraleinheit 1 werden im Folgenden in Verbindung mit der Erläuterung eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens beschrieben:

Es wird im Folgenden davon ausgegangen, dass die Produktdatenbank D Datensätze d| zu Kleidungsstücken enthält. Die Produktdatenbank D kann beispielsweise 300 Datensätze enthalten. Die Produktdatenbank D umfasst somit die Datensätze di , d₂, d₃₀o.

Des Weiteren wird im Folgenden davon ausgegangen, dass 15 Datensätze der Produktdatenbank D das Wort„Shirt" enthalten und 60 Datensätze der Produktdatenbank das Wort„blaues" enthalten. Es enthalten somit 5% der Datensätze das Wort„Shirt" und 20% der Datensätze das Wort„blaues". Außerdem wird zur Vereinfachung zunächst davon ausgegangen, dass diese Wörter in jedem Datensatz d| höchstens einmal vorkommen.

Es ist in solch einem Fall bei Suchmaschinen bekannt, die inverse Dokumenthäufigkeit (inverse document frequency) zu betrachten. Dabei werden Datensätze d|, die ein selteneres Wort enthalten, mit einer höheren Relevanz belegt, als die Datensätze d|, die ein häufiger vorkommendes Wort enthalten. In dem vorherigen Beispiel werden somit die Datensätze, die das Wort „Shirt" enthalten, mit einer höheren Relevanz belegt, als die Datensätze d|, die das Wort„blaues" enthalten. Außerdem wird ermittelt, welche Datensätze d| die beiden Wörter„blaues" und „Shirt" enthalten. Unter der Voraussetzung, dass diese beiden Wörter nicht korrelieren, ist zu erwarten, dass es genau drei Datensätze sind. Dies errechnet sich aus dem Produkt der beiden Wahrscheinlichkeiten dafür, dass die Wörter in den Datensätzen d| vorkommen, d.h. die Wahrscheinlichkeit ps_hirt = 0,05, multipliziert mit der Wahrscheinlichkeit p_biaues = 0,2. Die Wahrscheinlichkeit, dass diese beiden Wörter in einem Datensatz d| enthalten sind, ist somit 0,01 (1 %).

Die Relevanz eines Datensatzes d| für eine Suchanfrage Q ist gerade dann hoch, wenn das Produkt der Wahrscheinlichkeiten der Wörter, die in diesem Datensatz d| vorkommen und für welche die Suchanfrage relevant sind, klein ist. Je spezifischer ein Datensatz d ist, desto höher ist seine Relevanz. Um die einzelnen Wahrscheinlichkeiten einfacher verknüpfen zu können, wird daher bevorzugt der Absolutbetrag des Logarithmus der Wahrscheinlichkeit gebildet. Dieser Absolutbetrag steigt mit der Relevanz und verhält sich additiv gegenüber den Einzelwahrscheinlichkeiten. Bei dem vorherigen Beispiel ist die logarithmische Wahrscheinlichkeit dafür, dass ein Datensatz d| das Wort„blaues" enthält, 0,7, dass ein Datensatz d| das Wort„Shirt" enthält, 1 ,3 und die logarithmische Wahrscheinlichkeit dafür, dass ein Datensatz d| beide Wörter enthält, 2.

Im Folgenden wird nun mit Bezug zu Figur 2 das erfindungsgemäße Verfahren im Detail erläu- tert, welches eine Modifikation eines bekannten Verfahrens darstellt, welches die inverse Auftretenshäufigkeit von Termen betrachtet:

Ein Nutzer generiert im Schritt 20 eine Suchanfrage Q, welche die Suchterme q, enthält, wobei i eine natürliche Zahl ist. Wie in dem vorstehend beschriebenen Beispiel kann der Suchterm „Shirt" sein und der Suchterm q₂„blaues" sein.

Es wird nun im Schritt 21 aus der Referenzmenge T eine Teilmenge V mit Termen t ermittelt, die ähnlich oder identisch mit dem ersten Suchterm sind. Die Referenzmenge T kann wie vorstehend erläutert, eine Wortdatenbank sein, die alle Wörter einer Sprache enthält. Verfahren zum automatischen Bewerten der Ähnlichkeit von zwei Zeichenketten sind an sich bekannt. In diesem Fall wird für die Ermittlung der Teilmenge V die Ähnlichkeit eines Suchterms q, mit allen Termen t der Referenzmenge T ermittelt. Die Terme t , die in einem bestimmten Ähnlichkeitsbereich liegen, werden in die Teilmenge V aufgenommen. Ein Verfahren zur automatischen Bewertung der Ähnlichkeit ist beispielsweise in der WO 2007/144199 A1 beschrieben, deren Of- fenbarungsgehalt hiermit durch Bezugnahme aufgenommen wird.

Die Teilmenge V kann somit beispielsweise drei Terme t_x, t_y und t_z enthalten. Bei dem vorstehend beschriebenen Beispiel kann zu dem Suchterm„Shirt" die folgende Teilmenge V ermittelt werden: {Shirt, Shirts, T-Shirt}. Zu dem zweiten Suchterm„blaues" kann folgende Teilmenge V ermittelt werden: {blaues, blau, blaue}.

Es wird darauf hingewiesen, dass die Teilmenge V nur Elemente der Referenzmenge T enthalten kann. Enthält die Suchanfrage Q somit ein falsch geschriebenes Wort, so wird dieses Wort nicht in die Telmenge V aufgenommen, da es nicht in der Referenzmenge T enthalten ist. Auf diese Weise können falsch geschriebene Wörter einer Suchanfrage Q so aussortiert werden, dass sie nicht mit einer sehr hohen Relevanz belegt werden, da sie sehr selten vorkommen. Trotzdem werden auch falsch geschriebene Wörter bei der Relevanzbewertung der Produktdatenbank D berücksichtigt, da statt des falsch geschriebenen Wortes eine Teilmenge V berück- sichtigt wird, die Terme enthält, die ähnlich zu dem falsch geschriebenen Wort sind. Insofern ist das erfindungsgemäße Verfahren fehlertolerant.

Die Terme t_x, t_y und t_z der Teilmenge V werden bei dem Verfahren für die Relevanzbewertung der Datensätze d| der Produktdatenbank D berücksichtigt, jedoch wird die Relevanz jedes Terms t der Teilmenge V für diese Bewertung gesondert bestimmt, so dass nicht jeder Term t der Teilmenge V die gleiche Relevanz für die Bewertung der Produktdatenbank D haben muss. Hierfür wird im Schritt 22 für jeden Term t_j der Teilmenge V ein Ähnlichkeitsmaß A, bestimmt, das dieser Term t_j zu dem zugrundeliegenden Suchterm q, hat. Auch dieses Ähnlichkeitsmaß A kann beispielsweise anhand ei nes Verfahrens besti m mt werden , wie es i n der WO 2007/144199 A1 beschrieben ist. Die Teilmenge V kann somit in Abhängigkeit von dem Ähnlichkeitsmaß Aj_j der enthaltenen Terme t_j bzgl. eines Suchterms q, sortiert werden. Ist der Suchterm q, selbst in der Teilmenge V enthalten, wird dieser Term t_j der Teilmenge V das höchste Ähnlichkeitsmaß A haben, da er identisch mit dem Suchterm q, ist. Es folgen mit absteigendem Ähnlichkeitsmaß A die weiteren Terme t_j der Teilmenge V.

Für den Suchterm„blaues" kann sich somit beispielsweise die folgende sortierte Teilmenge V ergeben: 1. blaues, 2. blaue, 3. blau. Es werden nun im Schritt 23 die Wahrscheinlichkeiten p_j der Terme t_j der Teilmenge V bestimmt. Diese stellt die Wahrscheinlichkeit p_j dar, dass der Term t_j aus der Datenbank D gezogen wird, falls einer zufällig ausgewählt wird. Im Gegensatz dazu wurde bei dem oben beschriebenen Relevanzmaß (inverse Dokumenthäufigkeit) die Häufigkeit der Dokumente, d.h. Datensätze, betrachtet. Wie vorstehend erläutert, wird hierfür aus dem Speicher 1 1 die vorab gespeicherte Wahrscheinlichkeit p_j dafür ausgelesen, dass der Term t_j der Teilmenge T auftritt, d.h. z.B. in bestimmten Texten oder in den Datensätzen d|. Bei dem hier konkret beschriebenen Beispiel kann sich beispielsweise ergeben, dass das Wort„blaues" mit einer Wahrscheinlichkeit von 0,02 auftritt, das Wort„blaue" mit einer Wahrscheinlichkeit von 0,01 auftritt und das Wort „blau" ebenfalls mit einer Wahrscheinlichkeit von 0,01 auftritt. Des Weiteren ist es möglich, zu- sätzlich die Wahrscheinlichkeit dafür zu bestimmen, dass eines der Wörter„blaues",„blaue", "blau" auftritt. Diese Wahrscheinlichkeit ist 0,04.

Im Schritt 24 wird für jeden Term t_j der Teilmenge V nun eine Gewichtungsverteilung X_j angewandt. Die Art der Gewichtungsverteilung X_j ist dabei von dem Term t_j der Teilmenge V, den man betrachtet, abhängig. Im einfachsten Fall ist die Gewichtungsverteilung X_j eine Stufenfunktion, welche die Gewichtung 1 ausgibt für den Term t_j, den man betrachtet, so wie für solche anderen Terme t_k der Teilmenge V, die ein höheres Ähnlichkeitsmaß A_ik besitzen als der Term t_j, den man aktuell betrachtet. Die Gewichtungsverteilung X_j wirkt in diesem Fall somit als Filter, der alle Terme t_k der Teilmenge V herausfiltert, die ein geringeres Ähnlichkeitsmaß A als der betrachtete Term t haben.

Aus den gewichteten Wahrscheinlichkeiten wird dann im Schritt 25 eine modifizierte Termwahr- scheinlichkeit p"_j bestimmt, d.h. für den Term t_j wird die modifizierte Wahrscheinlichkeit p'_j bestimmt.

Betrachtet man in dem konkreten Beispiel das Wort„blaues", ergibt sich, dass dieses Wort das höchste Ähnlichkeitsmaß A besitzt, da es identisch mit dem Suchterm„blaues" ist. Die modifi- zierte Termwahrscheinlichkeit p"_x des Wortes„blaues" entspricht somit der Wahrscheinlichkeit p_x des Wortes„blaues".

Betrachtet man andererseits das Wort„blaue", ergibt sich, dass das Wort„blaues" ein höheres Ähnlichkeitsmaß A hat, das Wort„blau" hingegen ein niedrigeres Ähnlichkeitsmaß A. Bei der Bestimmung der modifizierten Termwahrscheinlichkeit p"_y für das Wort„blaue" wird somit die mit 1 gewichtete Wahrscheinlichkeit p_y für das Wort„blaue" und ferner die mit 1 gewichtete Wahrscheinlichkeit p_x für das Wort„blaues" bei der Bestimmung der modifizierten Termwahrscheinlichkeit p"_y für das Wort„blaue" berücksichtigt. Wrd schließlich die modifizierte Termwahrscheinlichkeit p"_z für das Wort„blau" bestimmt, ergibt sich, dass die Worte„blaues" und„blaue" ein höheres Ähnlichkeitsmaß A haben als das Wort „blau", so dass bei der Bestimmung der modifizierten Termwahrscheinlichkeit p"_z für das Wort „blau" alle Wahrscheinlichkeiten der Worte„blau",„blaue" und„blaues", jeweils mit 1 gewichtet, berücksichtigt werden.

Somit ergibt sich als modifizierte Termwahrscheinlichkeit p"_x für das Wort„blaues" zu 0,02 (Wahrscheinlichkeit für das Wort„blaues"), die modifizierte Wahrscheinlichkeit p"_y für das Wort „blaue" zu 0,03 (Wahrscheinlichkeit für das Wort„blaue" oder„blaues") und die modifizierte Wahrscheinlichkeit p"_z für das Wort„blau" zu 0,04 (Wahrscheinlichkeit für das Wort„blau", „blaue" oder„blaues").

Schritt 26: Für die Bewertung von Datensätzen ist es sinnvoll, die Wahrscheinlichkeit zu berechnen, dass ein Datensatz einen Term enthält, hierzu ist es sinnvoll die Anzahl der Terme je Datensatz zu berücksichtigen. Diese hat eine Verteilung, die im voraus ermittelt und gespeichert werden kann. Zum Beispiel kann die durchschnittliche Anzahl der Terme je Datensatz ermittelt werden. Aber auch eine genaue Berechnung ist möglich. Betrachtet man für das Beispiel mit 300 Datensätzen den Fall, dass 150 davon 5 Terme besitzen und weitere 150 davon 10 Terme. Die Wahrscheinlichkeit, dass eine Kombination von 5 Termen eine gegebenen Term zum Bei- spiel .blaues' enthält, lässt sich berechnen durch: 1 - (1 - ρ'_χ)^Λ5. Der Ausdruck in Klammern gibt die Wahrscheinlichkeit an, dass ein Term gerade nicht .blaues' ist. Die 5-te Potenz liefert, dann die Wahrscheinlichkeit, dass eine Kombination von 5 Termen, den Term .blaues' nicht enthält. Der gesamte Ausdruck liefert, dann die entsprechende Wahrscheinlichkeit, dass ein Datensatz der Länge 5 den Term enthält. Für Datensätze der Länge 10 ergibt sich der Ausdruck zu: 1 - (1 - ρ )^Λ10. In dem Beispiel haben aber jeweils 150 Datensätze die Länge 5 und jeweils 150 Datensätze die Länge 10. Daraus folgt dann eine Gesamtwahrscheinlichkeit, dass ein beliebiger Datensatz den Term .blaues' enthält zu: , _ 150(l - (l - ^" )⁵) + 150(l - (l - ^' )¹⁰)

300

Daraus ergibt sich die modifizierte Wahrscheinlichkeit, dass ein Datensatz den Term .blaues' enthält zu: 0,14. Nach dem gleichen Verfahren werden die modifizierten Wahrscheinlichkeiten: p"_y (=0,20)

und p"_z (=0,26) berechnet. Anschließend wird im Schritt 27 eine Bewertung der Relevanz η der Datensätze d| für die Suchanfrage Q durchgeführt. Dabei wird für jeden Term t_j der Teilmenge V geprüft, ob er in einem Datensatz d| vorkommt. Wenn ein Term t_j der Teilmenge V in einem Datensatz d| vorkommt, erhält dieser Datensatz d| eine höhere Relevanz η als ein Datensatz d_m, in dem der Term t_j der Teilmenge V nicht vorkommt. Außerdem erhält ein Datensatz d|, in dem ein Term t_j vorkommt, der eine niedrigere modifizierte Wahrscheinlichkeit p'_j hat, eine höhere Relevanzbewertung η als ein Datensatz d_m, in welchem ein Term t_j vorkommt, der eine höhere modifizierte Wahrscheinlichkeit p'_j hat. Außerdem wird die Relevanzbewertung η eines Datensatzes d| höher, wenn ein Term t_j der Teilmenge V häufiger in diesem Datensatz d| vorkommt. Schließlich können die einzelnen Felder der Datensätze d| noch unterschiedlich gewichtet werden. Wenn ein Term t_j in einem Feld eines Datensatzes d| vorkommt, kann dies zu einer höheren Relevanzbewertung η des Datensatzes d| führen, als wenn derselbe Term t_j in einem anderen, weniger wichtigen Feld des Datensatzes d| vorkommt.

Die vorstehend beschriebene Relevanzbewertung η wird für alle Suchterme q, durchgeführt, wenn die Suchanfrage Q mehrere Suchterme q, enthält. In dem konkreten Beispiel wird somit auch eine Teilmenge V mit Termen t_j für das Wort„Shirt" ermittelt. Wie vorstehend erläutert, kann diese Teilmenge V beispielsweise die Wörter„Shirt",„Shirts",„T-Shirt" enthalten. Danach wird, wie vorstehend beschrieben, die modifizierte Wahrscheinlichkeit p'_j für jeden Term t dieser Teilmenge V zu dem Suchwort„Shirt" bestimmt. Es ergibt sich in diesem Fall beispielsweise für das Wort „Shirt" die modifizierte Wahrscheinlichkeit 0,05 (Wahrscheinlichkeit für das Wort „Shirt"), für das Wort „Shirts" dieser Teilmenge V die modifizierte Wahrscheinlichkeit 0,07 (Wahrscheinlichkeit für das Wort„Shirt" oder„Shirts") und für das Wort„T-Shirt" dieser Teilmenge V die modifizierte Wahrscheinlichkeit 0, 14 (Wahrscheinlichkeit für das Wort„Shirt",„T-Shirt" oder„Shirts"). Nun kann für die ursprüngliche Suchanfrage„blaues Shirt" eine Relevanzbewertung durchgeführt werden. Die Wahrscheinlichkeit dafür, dass ein Datensatz d| den Term„blaues Shirt" enthält, ist 0,007 und dies führt zu einer Relevanzbewertung von 2,14. Enthält ein Datensatz d| den Term„blaue Shirts", ergibt sich eine modifizierte Wahrscheinlichkeit von 0,015. (Dies ist das Produkt aus der modifizierten Wahrscheinlichkeiten für„blaue" (0,20) und ,,Shirts"(0,07)) Daraus ergibt sich eine Relevanzbewertung von 1 ,84 (der Absolutwert des Logarithmus von 0,015) für diesen Datensatz d|. Enthält ein Datensatz d| den Term„T-Shirt blau", ergibt sich eine modifizierte Wahrscheinlichkeit von 0,036. Dies führt zu einer Relevanzbewertung von 1 ,4 des Datensatzes d|. Schließlich ist es bei mehreren Suchtermen q, noch möglich, die Reihenfolge und die Positionen des Auftretens der Terme t der jeweiligen Teilmenge V in einem Datensatz d| zu berücksichtigen. Enthält die Suchanfrage Q die Suchterme q₂ in dieser Reihenfolge, wird ein Datensatz d|, welcher Terme t der Teilmenge V, welche zu dem ersten Suchterm q^ gehören, als erstes und danach Terme t_k der anderen Teilmenge V, die zu dem zweiten Suchterm q₂ gehören, als zweites, führt dies zu einer höheren Relevanzbewertung, als wenn die Terme in umgekehrter Reihenfolge auftreten. Des Weiteren wird ein Datensatz d| mit einer höheren Relevanz bewertet, wenn die Terme t_j der beiden Teilmengen nah beieinander auftreten. Eine besonders hohe Relevanzbewertung ergibt sich, wenn die Terme t_j der beiden Teilmengen zu den beiden Suchtermen q^ und q₂ aufeinanderfolgend, insbesondere in der richtigen Reihenfolge, auftreten. Je weiter die Terme t_j der beiden Teilmengen zu den beiden Suchtermen voneinander entfernt in einem Datensatz d| auftreten, desto größer ist die Wahrscheinlichkeit, dass sie in unterschiedlichen sprachlichen Kontexten, zum Beispiel in der Produktbeschreibung, vorkommen, so dass das Auftreten der Terme t_j dann zu einer niedrigeren Relevanzbewertung führt. Auch in diesem Fall kann dasselbe vorstehend beschriebene Prinzip angewandt werden, die Wahrscheinlichkeit für einen Datensatz zu ermitteln, der die Suchterme bzw. Terme t_j der Teilmenge V in der gleichen oder einer besseren Lage enthält. Dabei wird angenommen, dass die Positionen der Terme t_j in den Datensätzen d| unabhängige Zufallsvariablen sind. Nachdem für jeden Datensatz d| eine Relevanzbewertung η durchgeführt worden ist, wird im Schritt 28 eine Liste mit den Datensätzen d_u, d_v, d_w, ... erzeugt, welche die höchste Relevanzbewertung η haben. Diese Liste wird dann in der Reihenfolge der Relevanzbewertungen η ausgegeben.

Im Folgenden wird ein zweites Ausführungsbeispiel des erfindungsgemäßen Verfahrens beschrieben:

Das zweite Ausführungsbeispiel unterscheidet sich von dem vorstehend beschriebenen ersten Ausführungsbeispiel in der Gewichtungsverteilung X. Bei dem zweiten Ausführungsbeispiel ist die Wahrscheinlichkeitsverteilung X eine Sigmoid-Funktion. Bei der Sigmoid-Funktion ergibt sich ein stetiger Übergang zwischen den beiden Werten 0 und 1. Hierdurch wird erreicht, dass Terme t_k der Teilmenge V, welche ein kleineres Ähnlichkeitsmaß A besitzen, aber deren Ähnlichkeitsmaße sich sehr nah bei dem Term t_j befinden, für den die modifizierte Wahrscheinlich- keit p'_j ermittelt wird, nicht - wie beim ersten Ausführungsbeispiel - unberücksichtigt bleiben, sondern noch mit einer geringeren Gewichtung berücksichtigt werden.

Terme t_k, die ein sehr viel geringeres Ähnlichkeitsmaß A als der betrachtete Term t, haben, bleiben jedoch weiterhin praktisch unberücksichtigt, da die aus der Sigmoid-Funktion ermittelte Gewichtung nahe 0 ist.

Bei dem zweiten Ausführungsbeispiel wird die Gewichtung, mit der die Wahrscheinlichkeit p_j eines zweiten Terms t_k in die modifizierte Termwahrscheinlichkeit p"_j eines ersten Terms t_j eingeht, durch die Auswertung einer Sigmoid-Funktion bestimmt, wobei die Auswertungsstelle die Subtraktion des Ähnlichkeitsmaßes A des ersten Terms t_j vom Ähnlichkeitsmaß A_ik des zweiten Terms t_k ist. Im Folgenden wird das am Beispiel des Suchterms (qi)„Sympathie" erläutert. Die Einrichtung 5 (Schritt 21) habe hierzu eine Menge von ähnlichen Termen (V) ermittelt, und die Einrichtung 6 und 7 (Schritt 22, 23) haben die zugehörigen Ähnlichkeiten und Termwahrschein- lichkeiten ermittelt.

Die Einrichtung 8 (Schritt 24) ermittelt die Gewichtungsverteilung nun anhand einer Sigmoid- funktion. Eine mögliche solche Funktion ist die kumulierte Gaußsche Normalverteilung. Im Folgenden werden die Ähnlichkeitsdifferenzen (mit der zugehörigen Gewichtung), wie sie die Einrichtung 8 berechnet dargestellt:

Die modifizierten Termwahrscheinlichkeiten ergeben sich nun durch Anwendung der Gewichtung auf die ursprünglichen Termwahrscheinlichkeiten:

Hierdurch ergibt sich die erfindungsgemäße Eigenschaft, dass Terme deren Ähnlichkeitsmaß größer ist, stärker in die modifizierte Termwahrscheinlichkeit eingehen, als Terme deren modifizierte Termwahrscheinlichkeit kleiner ist. Unter der Annahme, dass die Datenbank die gleiche Verteilung an Termen pro Datensatz, wie im vorherigen Ausführungsbeispiel hat, d.h. 150 Datensätze haben 5 Terme und 150 Datensätze haben 10 Terme, können die jeweiligen modifizierten Wahrscheinlichkeiten ρ^, ρ₂', ρ₃', p₄', p₅' durch die bereits ermittelte Formel berechnet (Schritt 26) werden.

300

Diese modifizierten Wahrscheinlichkeiten werden nun wie im vorherigen erfindungsgemäßen Ausführungsbeispiel an die Bewertungseinheit 9 übermittelt. Die vorstehend beschriebenen Verfahrensschritte können als Hardwarekomponenten oder als Software implementiert werden. Die Software kann auf einem Datenträger, d.h. auf einem Computerprogrammprodukt, gespeichert sein. Der in der Software enthaltene Programmcode ist zur Durchführung des vorstehend beschriebenen Verfahrens geeignet, wenn der Programm- code von einem Computer ausgeführt wird.

Claims

Patentansprüche Computerimplementiertes Verfahren zum Suchen in einer Vielzahl (D) von Datensätzen (d|), bei dem eine Suchanfrage (Q) mit mindestens einem Suchterm (q,) empfangen wird, aus einer Referenzmenge (T) eine Teilmenge (V) mit Termen (tj) ermittelt wird, die ähnlich oder identisch mit dem Suchterm (q,) sind, für jeden Term (tj) der Teilmenge (V) ein Ähnlichkeitsmaß (Aj) zu dem Suchterm (q,) bestimmt wird, die Wahrscheinlichkeit (pj) für das Auftreten des Terms (tj) bestimmt wird, eine von dem Term (tj) abhängige Gewichtungsverteilung (Xj) auf die Terme (tk) der Teilmenge (V) angewandt wird, wobei die Terme (tk), die ein höheres Ähnlichkeitsmaß (Ak) besitzen, stärker gewichtet werden als Terme (tk) mit einem niedrigeren Ähnlichkeitsmaß (Ak), und eine modifizierte Wahrscheinlichkeit (p'j, p"j) für den Term (tj) aus den gewichteten Wahrscheinlichkeiten der Terme (tk) der Teilmenge (V) bestimmt wird, die Datensätze (d|) im Hinblick auf ihre Relevanz (R) für die Suchanfrage (Q) bewertet werden, wobei geprüft wird, ob die Terme (tj) der Teilmenge (V) in dem Datensatz (d|) vorkommen, und, wenn ein Term (tj) der Teilmenge (V) in dem Datensatz (d|) vorkommt, eine niedrigere modifizierte Wahrscheinlichkeit (p'j, p"j) des Terms (tj) zu einer höheren Relevanzbewertung des Datensatzes (d|) führt, und zumindest eine Datensatzteilmenge in Abhängigkeit von ihrer Relevanzbewertung (R) ausgegeben wird. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die Gewichtungsverteilung (Xj) so ausgebildet ist, dass bei der Bestimmung der modifizierten Wahrscheinlichkeit (p'j, p"j) eines Terms (tj) nur die Wahrscheinlichkeit (pj) des Terms (tj) selbst sowie die Wahrscheinlichkeit (pk) anderer Terme (tk) berücksichtigt werden, die ein höheres Ähnlichkeitsmaß (Ak) als der eine Term (tj) besitzen. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die Gewichtung (Xj), mit der die Wahrscheinlichkeit (pk) eines zweiten Terms (tk) in die modifizierte Wahrscheinlichkeit (ρ',, p" ) eines ersten Terms (t,) eingeht, durch die Auswertung einer Sigmoid-Funktion bestimmt wird, wobei die Auswertungsstelle die Subtraktion des Ähnlichkeitsmaßes (Ak) des ersten Terms (tj) vom Ähnlichkeitsmaß (Aj) des zweiten Terms Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Gewichtungsverteilung (Xj) so ausgebildet ist, dass bei der Bestimmung der modifizierten Wahrscheinlichkeit (p'j, p"j) eines Terms (tj) ferner Wahrscheinlichkeiten (pk) von anderen Termen (tk) mit einer geringerer Gewichtung berücksichtigt werden, die ein niedrigeres Ähnlichkeitsmaß (Ak) besitzen, wobei die Gewichtung eines anderen Terms (tk) mit niedrigerem Ähnlichkeitsmaß von der Differenz des Ähnlichkeitsmaßes (Aj) des Terms (tj) für den die modifizierte Wahrscheinlichkeit (p'j, p"j) bestimmt wird, und des Ähnlichkeitsmaßes (Ak) des anderen Terms (tk) abhängt. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei der Bestimmung der modifizierten Wahrscheinlichkeit (p'j, p"j), ein Zwischenschritt eingefügt wird, bei dem die Verteilung der Anzahl der Terme je Datensatz berücksichtigt wird. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass sich die Bewertung eines Datensatzes (d|) aus dem Absolutbetrag des Logarithmus der modifizierten Wahrscheinlichkeit (p'j, p"j) des zugehörigen Terms (tj) ergibt. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Wahrscheinlichkeit (pj) eines Terms (tj) der Teilmenge (V) dadurch bestimmt wird, dass die dem Term (tj) zugeordnete Wahrscheinlichkeit (pj) vorab aus der Häufigkeit des Auftretens des Terms (tj) in der Referenzmenge (T) oder in den Datensätzen (d|) ermittelt und in einem Speicher (11) gespeichert wird und die gespeicherte Wahrscheinlichkeit (pj) für den Term (tj) aus dem Speicher (11) ausgelesen wird. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei der Relevanzbewertung der Datensätze (d|) ein Datensatz höher bewertet wird, wenn ein Term (tj) der Teilmenge (V) häufiger in diesem Datensatz vorkommt. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Datensätze (d|) jeweils mehrere Felder enthalten und dass die Relevanz (η) eines Datensatzes (d|) außerdem in Abhängigkeit davon bewertet wird, in welchem Feld ein Term (tj) der Teilmenge (V) in dem Datensatz (d|) vorkommt. 0. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Suchanfrage (Q) mehrere Suchterme (q,) enthält, dass für jeden Suchterm (q,) gesondert eine Teilbewertung bestimmt wird, dass eine weitere Teilbewertung für die aus den Suchtermen (q,) zusammengesetzte Suchanfrage (Q) bestimmt wird und dass die Bewertung (R) der Suchanfrage (Q) aus den Teilbewertungen bestimmt wird.

1. Computerprogrammprodukt mit Programmcode zur Durchführung des Verfahrens gemäß einem der Ansprüche 1 bis 10, wenn der Programmcode von einem Computer ausgeführt wird.

2. Suchmaschine, ausführbar von einem Computer, mit

einer Empfangseinheit (4) zum Empfangen einer Suchanfrage (Q) mit mindestens einem Suchterm (q,),

Mitteln (5) zum Ermitteln einer Teilmenge (V) mit Termen (t_j), die ähnlich oder identisch mit dem Suchterm (q,) sind,

Mitteln (6 bis 8) zum Bestimmen der modifizierten Wahrscheinlichkeit (p'_j, p"_j) für jeden

Term (t_j) der Teilmenge (V), mit denen

ein Ähnlichkeitsmaß (A_j) zu dem Suchterm (q,) bestimmbar ist,

die Wahrscheinlichkeit (p_j) für das Auftreten des Terms (t_j) bestimmbar ist, eine von dem Term (t,) abhängige Gewichtungsverteilung (X) auf die Terme (t_k) der Teilmenge (V) anwendbar ist, wobei die Terme (t_k), die ein höheres Ähnlichkeitsmaß (A_k) besitzen, stärker gewichtet werden als Terme (t_k) mit einem niedrigeren Ähnlichkeitsmaß (A_k), und

die modifizierte Wahrscheinlichkeit (p'_j, p"_j) für den Term (t_j) aus den gewichteten Wahrscheinlichkeiten der Terme (t_k) der Teilmenge (V) bestimmbar ist, einer Bewertungseinheit (9) zum Bewerten von Datensätzen (d|) im Hinblick auf ihre Relevanz für die Suchanfrage (Q), wobei

prüfbar ist, ob die Terme (t_j) der Teilmenge (V) in dem Datensatz (d|) vorkommen, und,

wenn ein Term (t_j) der Teilmenge (V) in dem Datensatz (d,) vorkommt, eine niedrigere modifizierte Wahrscheinlichkeit (p'_j, p"_j) des Terms (t_j) zu einer höheren Bewertung (η) des Datensatzes (d|) führt, und

einer Ausgabeeinheit (10) zum Ausgeben zumindest einer Datensatzteilmenge in Abhängigkeit von ihrer Relevanzbewertung (R).

Suchmaschine nach Anspruch 12,

dadurch gekennzeichnet, dass

die Suchmaschine einen Speicher (1 1) umfasst, in dem die Referenzmenge (T) mit Termen (t_j) oder eine Menge mit den Termen (t_j), die in den Datensätzen (d|) vorkommen, sowie die den Termen (t_j) zugeordneten Wahrscheinlichkeiten (p_j) gespeichert sind.