[0001] Die Erfindung betrifft sowohl ein Verfahren zum Erkennen als auch zum Auswählen einer
Tonfolge, insbesondere eines Musikstücks.
[0002] Die heutigen Multimediadienste ermöglichen es ihren Benutzern, Musikstücke, Videoclips
und auch graphische Informationen auf entsprechende Anforderung aus entsprechenden
Datenbanken abzurufen, um die gewünschten Musikstücke oder dergleichen wiedergeben
und/oder speichern zu können. Bei weitersteigenden Datenübertragungsgeschwindigkeiten
und sinkenden Speicherplatzkosten werden in Zukunft auch Filme von entsprechenden
Anbietern abrufbar sein.
[0003] Beispielsweise ist es derzeit im Internet möglich, daß ein Benutzer sich von einem
entsprechenden Anbieter Musiktitel oder dergleichen übertragen läßt, die dann entweder
in einer benutzerseitigen Datenbank gespeichert oder zum Herstellen einer CD verwendet
werden. Eine derartige Anforderung von Musikstücken oder dergleichen ist jedoch auch
über Mobilfunkdienste möglich.
[0004] Um einen bestimmten Musiktitel zu erhalten, muß der Benutzer den Namen oder die Bezeichnung
des Musikstücks eingeben und an den entsprechenden Diensteanbieter übertragen. Die
Musiktiteldatenbank des Diensteanbieters wird dann auf das angeforderte Musikstück
hin durchsucht um dieses, falls es in der Datenbank verfügbar ist, zum anfordernden
Benutzer zu übertragen.
[0005] Um einem Benutzer auch dann einen gewünschten Musiktitel liefern zu können, wenn
dieser die Bezeichnung des Musikstücks nicht ganz genau kennt, werden bei der Suche
in der Datenbank des Diensteanbieters auch assoziative Suchalgorithmen verwendet,
die trotz geringer Abweichungen der eingegebenen Bezeichnung vom tatsächlichen Namen
des Musikstücks dieses identifizieren können oder zumindest eine Auswahl von mehreren
Musikstücken mit ähnlichen Bezeichnungen anbieten.
[0006] Möchte jedoch ein Benutzer ein Musikstück anfordern, das ihm sehr gut gefällt, dessen
Titel er jedoch nicht oder allenfalls nur sehr vage kennt, so ist es für ihn derzeit
praktisch unmöglich dieses Musikstück anzufordern.
[0007] Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, Verfahren zum Erkennen
und zum Auswählen einer Tonfolge, insbesondere eines Musikstückes bereitzustellen,
die es einem Benutzer ermöglichen, eine Tonfolge oder ein Musikstück aufzufinden und
auszuwählen, dessen Bezeichnung er nicht kennt.
[0008] Diese Aufgabe wird hinsichtlich des Erkennens einer Tonfolge durch das Verfahren
nach Anspruch 1 und hinsichtlich des Auswählens einer Tonfolge durch das Verfahren
nach Anspruch 2 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung
sind in den Unteransprüchen beschrieben.
[0009] Erfindungsgemäß werden also zum Erkennen einer Tonfolge zunächst die Töne der zu
erkennenden Tonfolge in eine Notenfolge umgesetzt, anschließend wird zum Suchen der
zu erkennenden Tonfolge deren Notenfolge nacheinander mit entsprechenden Notenfolgen
einer Vielzahl von Tonfolgen verglichen und dann werden Bezeichnungen der Tonfolge
oder -folgen ausgegeben, deren Notenfolge bzw. -folgen mit der Notenfolge der zu erkennenden
Tonfolge in vorbestimmter Weise übereinstimmt bzw. übereinstimmen.
[0010] Das erfindungsgemäße Verfahren zum Auswählen einer Tonfolge nutzt dieses Erkennungsverfahren
und zeichnet sich dadurch aus, daß eine zumindest einem Abschnitt der auszuwählenden
Tonfolge zumindest teilweise entsprechende Tonfolge eingegeben wird, die Töne der
eingegebenen Tonfolge in eine Notenfolge umgesetzt werden, zum Suchen der auszuwählenden
Tonfolge deren Notenfolge nacheinander mit entsprechenden Notenfolgen einer Vielzahl
von Tonfolgen verglichen wird, um Bezeichnungen einer oder mehrerer Tonfolgen zu ermitteln,
deren Notenfolge oder -folgen mit der Notenfolge der auszuwählenden Tonfolge in vorbestimmter
Weise übereinstimmt, und die ermittelten Bezeichnungen als Liste ausgegeben werden,
so daß ein Benutzer anhand der Bezeichnungsliste die gewünschte Tonfolge auswählen
kann.
[0011] Der Grundgedanke der vorliegenden Erfindung liegt also darin, daß eine Tonfolge,
wie sie sich akustisch dem Benutzer darbietet und von diesem mehr oder weniger genau
reproduziert werden kann, zunächst in eine Notenfolge, also in eine Darstellung umgesetzt
wird, wie sie beispielsweise auch zum Niederschreiben von Musikstücken verwendet wird,
und diese Darstellung der gewünschten Tonfolge mit entsprechenden Notenfolgen, die
einzelnen Musikstücken in einer Datenbank eines Diensteanbieters zugeordnet sind,
zu vergleichen, so daß der Grad der Übereinstimmung zwischen der eingegebenen, gewünschten
Tonfolge und den Musikstücken ermittelt werden kann, um dann die Bezeichnungen der
Tonfolge oder -folgen auszugeben, die mit der gewünschten oder auszuwählenden Tonfolge
in vorbestimmter Weise übereinstimmen.
[0012] Die Erfindung ermöglicht es somit einem Benutzer, auch Tonfolgen, insbesondere Musikstücke,
Videoclips und gegebenenfalls auch Filme über deren Soundtrack anzufordern, wenn ihm
nur deren Melodie bekannt ist. Das erfindungsgemäße Verfahren ermöglicht somit eine
intuitive Suche in Datenbanken von Musikstücken oder dergleichen, und erleichtert
damit deren Nutzung.
[0013] Bei einer ersten Ausgestaltung der Erfindung ist vorgesehen, daß die in einem Benutzerendgerät
eingegebene der auszuwählenden Tonfolge entsprechende Tonfolge zu einer Datenbankstation
übertragen wird, in der die Liste der Bezeichnungen einer oder mehrerer der auszuwählenden
Tonfolge ähnlichen Tonfolgen ermittelt wird, und die Bezeichnungsliste zur Ausgabe
an das Benutzerendgerät übertragen wird.
[0014] Wird als Benutzerendgerät beispielsweise ein Mobiltelefon benutzt, um über Funkkanäle
ein bestimmtes Musikstück bei einem Diensteanbieter auszuwählen, so ist es insbesondere
im Hinblick auf eine gute Ausnutzung der Übertragungsstrecke vorteilhaft, wenn die
in ein Benutzerendgerät eingegebene, der auszuwählenden Tonfolge entsprechende Tonfolge
im Benutzerendgerät in eine Notenfolge umgesetzt wird, die Notenfolge zu einer Datenbankstation
übertragen wird, in der die Liste der Bezeichnungen einer oder mehrerer der auszuwählenden
Tonfolge ähnlichen Tonfolgen ermittelt wird, und die Bezeichnungsliste zur Ausgabe
an das Benutzerendgerät übertragen wird.
[0015] Um es dem Benutzer zu ermöglichen, auch ein Musikstück, dessen Titel er überhaupt
nicht kennt, auswählen zu können, ist bei einer besonders vorteilhaften Ausgestaltung
der Erfindung vorgesehen, daß zusammen mit jeder Bezeichnung ein für die jeweilige
Tonfolge charakteristischer kurzer Ausschnitt der Tonfolge zur Ausgabe an das Benutzerendgerät
übertragen wird. Dem Benutzer wird somit nicht nur die Bezeichnung der jeweiligen
Tonfolge also der oder die Titel des erkannten Musikstücks oder in Frage kommender
Musikstücke angeboten, sondern es wird ihm auch ermöglicht, einen kurzen charakteristischen
Auszug aus dem Musikstück, zum Beispiel das Grundthema oder den Refrain abzuhören,
so daß er aufgrund der wiedergegebenen charakteristischen Tonfolge seine Auswahl treffen
kann.
[0016] Besonders zweckmäßig ist es, wenn bei dem erfindungsgemäßen Verfahren die Tonfolge
zur Eingabe in das Benutzerendgerät vom Benutzer gesungen wird.
[0017] Eine besonders vorteilhafte Ausgestaltung des erfindungsgemäßen Verfahrens zeichnet
sich dadurch aus, daß zum Umsetzen einer Tonfolge in eine Notenfolge für jeden Ton
der Tonfolge die Tonhöhenfrequenz f
p' und die Tondauer d'ermittelt wird, und jedem Ton eine musikalische Note entsprechend
seiner Tonhöhenfrequenz f
p und eine musikalisch quantisierte Notendauer d entsprechend einer Tondauerverteilung
der Tonfolge zugeordnet wird.
[0018] Hierbei ist es zweckmäßig, wenn zur Festlegung der Notendauer der Töne zunächst der
Median der Tondauerverteilung ermittelt wird, und die Tondauer des Medians mit der
Notendauer einer 1/4-Note gleichgesetzt wird, sowie jedem Ton durch Vergleich seiner
Tondauer mit der ermittelten Notendauer einer 1/4-Note eine entsprechende musikalische
quantisierte Notendauer zugeordnet wird.
[0019] Erfindungsgemäß wird also aus dem zeitlichen Verlauf der Tonhöhenfrequenz der jeweilige
musikalische Ton bzw. die Note, also beispielsweise C, D, E, F, G, A, H und die Notendauer
d ermittelt. Da insbesondere beim Singen der gewünschten Tonfolge die Notendauer d
nicht absolut meßbar ist, wird aus der Tondauerverteilung der Median ermittelt und
der Notendauer einer 1/4-Note gleichgesetzt. Davon ausgehend lassen sich dann Tondauerintervalle
angeben, denen dann die anderen gebräuchlichen Notendauern, also Insbesondere 1/32,
1/16, 1/8, 1/2 und 1 zugeordnet werden können.
[0020] Für die Durchführung des Vergleichs zur Feststellung eines Übereinstimmungsgrades
in einer Datenverarbeitungsanlage ist es besonders zweckmäßig, wenn jede Tonfolge
durch einen Tonhöhenvektor
h, der sich aus den einzelnen Noten oder musikalischen Tönen zusammensetzt, und einen
Tondauervektor
d dargestellt wird, der sich aus den musikalischen quantitierten Notendauern d der
einzelnen Töne zusammensetzt.
[0021] Um die Notenfolge einer eingegebenen Tonfolge auch dann erfolgreich mit den Notenfolgen
der gespeicherten Musikstücke vergleichen zu können, wenn die eingegebene Tonfolge
bewußt oder unbewußt in eine andere Stimmlage transponiert wurde, ist bei einer zweckmäßigen
Weiterbildung der Erfindung vorgesehen, daß zum Feststellen eines Übereinstimmungsfaktors
F
i,l zwischen einer eingegebenen und einer gespeicherten Tonfolge die Differenz der Tonhöhen
h und Tondauern d der jeweiligen Notenfolgen miteinander verglichen werden.
[0022] Eine praktische Ausgestaltung der Erfindung zeichnet sich dadurch aus, daß beim Vergleich
der Notenfolgen einer eingegebenen und einer gespeicherten Tonfolge die Notenfolge
der eingegebenen Tonfolge nacheinander mit entsprechenden Teil-Notenfolgen der gespeicherten
Tonfolgen verglichen wird, um jeweils einen Übereinstimmungsfaktor f
i (x) zu ermitteln und daß der den höchsten Übereinstimmungsgrad anzeigenden Übereinstimmungsfaktor

der gespeicherten Tonfolge als Übereinstimmungsfaktor zugeordnet wird.
[0023] Für die Durchführung der Erfindung mittels Datenverarbeitungsanlagen ist es besonders
zweckmäßig, wenn als Übereinstimmungsfaktor der kleinste Wert einer Funktion f
i (x) ermittelt wird, die durch die folgende Gleichung gegeben ist:

wobei α und β Gewichtsfaktoren sind, für die gilt: 0 < α, β und

; h (l) die Tonhöhe des l-ten Tons einer eingegebenen Tonfolge, m
h der Median der Tonhöhen der eingegebenen Tonfolge, d (l) die Tondauer des l-ten Tons
einer eingegebenen Tonfolge, m
d der Median der Tondauern der eingegebenen Tonfolge, h
i (x) die Tonhöhe des x-ten Tons einer gespeicherten Tonfolge, d
i (x) die Tondauer des x-ten Tons dieser eingespeicherten Tonfolge, m
hi (x) der Median der Tonhöhen im Intervall h
i (x) bis

, m
di (x) der Median der Tondauern im Intervall d
i (x) bis

.
[0024] Um dem Benutzer die Auswahl des gesuchten Musikstücks weiter zu erleichterten, ist
bei einer zweckmäßigen Weiterbildung der Erfindung vorgesehen, daß die auszugebenden
Bezeichnungen der Tonfolgen entsprechend einem Übereinstimmungsgrad zwischen den zugehörigen
gespeicherten Tonfolgen und der eingegebenen Tonfolge sortiert werden und daß die
Ausgabe mit der Bezeichnung beginnt, deren Tonfolge der eingegebenen Tonfolge am ähnlichsten
ist, wobei nur Bezeichnungen solcher Tonfolgen ausgegeben werden, deren Übereinstimmungsgrad
größer als ein vorgegebener Wert ist.
[0025] Eine besonders vorteilhafte Ausgestaltung der Erfindung zeichnet sich dadurch aus,
daß die Notenfolgen der Vielzahl von Tonfolgen zusammen mit entsprechenden Bezeichnungen
der Tonfolgen in einer Datenbankdatei gespeichert sind, wobei zusammen mit den in
der Datenbankdatei gespeicherten Notenfolgen kurze charakteristische Ausschnitte der
jeweiligen Tonfolgen gespeichert sind.
[0026] Erfindungsgemäß wird also eine besondere Datenbankdatei bereitgestellt, in der die
Notenfolgen der in einer Datenbank zur Verfügung stehenden Musikstücke zusammen mit
entsprechenden Bezeichnungen, also mit den Titeln der Musikstücke, gespeichert sind,
so daß bei dem Vergleich der Notenfolge der eingegebenen Tonfolge die Notenfolgen
der Musikstücke nicht jedesmal neu erzeugt werden müssen, so daß die Suche nach dem
gewünschten Musikstück wesentlich vereinfacht und beschleunigt werden kann. Neben
der Bezeichnung des Musikstücks kann in dieser besonderen Datenbankdatei auch jeder
Notenfolge noch ein kurzer charakteristischer Ausschnitt des jeweiligen Musikstücks
zugeordnet sein, zum Beispiel im MIDI-Format, so daß auf die Datenbankdatei, in der
Musikstücke als solche gespeichert sind, erst zugegriffen zu werden braucht, wenn
der Benutzer sich für ein konkretes Musikstück entschieden hat.
[0027] Die Erfindung wird im folgenden beispielsweise unter Bezugnahme auf die Zeichnung
näher erläutert. Es zeigen:
Figur 1 ein schematisches Blockschaltbild eines Kommunikationssysterns zur Durchführung der
erfindungsgemäßen Verfahren,
Figur 2 den zeitlichen Verlauf einer geglätteten Tonhöhenfrequenz und
Figur 3 den zeitlichen Verlauf einer entsprechend dem musikalischen Noten oder Tönen quantisierten
Tonhöhenfrequenz.
[0028] Figur 1 zeigt beispielsweise ein Kommunikationssystem, bei dem ein Benutzer mit Hilfe
eines Benutzerendgeräts, das beispielsweise als Mobiltelefon 10 ausgebildet ist, über
eine Übertragungsstrecke 11 mit einer Datenbankstation 12 eines Diensteanbieters,
die eine Musikstückdatenbank 13 umfaßt, kommunizieren kann, um Musikstücke, Videoclips
und gegebenenfalls Filme oder dergleichen geliefert zu bekommen.
[0029] Das Mobiltelefon 10 besitzt in üblicher Weise ein Mikrofon 14 zur Sprach- und Toneingabe,
dessen Ausgang über einen Analog/Digital-Wandler 15 an eine zentrale Verarbeitungsschaltung
16 angelegt ist. Die zentrale Verarbeitungsschaltung 16, die beispielsweise als Mikroprozessor
ausgebildet sein kann, gibt an die Datenbankstation 12 des Diensteanbieters zu übertragende
Daten an eine Sende- und Empfangseinheit 17 aus, an die eine Sende- und Empfangsantenne
18 angeschlossen ist, um Informationen über die Übertragungsstrecke 11 zu senden und
von dieser zu empfangen.
[0030] Die Datenbankstation 12 des Diensteanbieters weist eine Sende- und Empfangseinheit
19 mit einer Sende- und Empfangsantenne 20 auf, um Daten von bzw. über die Übertragungsstrecke
11 empfangen bzw. senden zu können. Die Sende- und Empfangs einheit 19 ist mit einer
zentralen Verarbeitungsschaltung 21 verbunden, die auf die Musikstückdatenbank 13
zugreifen kann, um ein angefordertes Musikstück zu dem Mobiltelefon 10 zu übertragen.
[0031] Für die Erkennung von Musikstücken ist eine Datenbankdatei 22 vorgesehen, in der
zusammen mit den Bezeichnungen oder Titeln der einzelnen Musikstücke in der Musikstückdatenbank
13 den Musikstücken entsprechende Notenfolgen gespeichert sind. Zusammen mit den Bezeichnungen
und Notenfolgen der Musikstücke können dabei noch charakteristische Ausschnitte aus
den Musikstücken gespeichert sein.
[0032] Zur akustischen und optischen Ausgabe von Information weist das Mobiltelefon 10 einen
Lautsprecher 23 und eine Anzeigevorrichtung 24 auf, die über entsprechende Treiberschaltungen
25 bzw. 26 mit der zentralen Verarbeitungsschaltung 16 verbunden sind.
[0033] Um ein bestimmtes Musikstück von einem Diensteanbieter anzufordern, gibt der Benutzer
zunächst einen Ausschnitt des auszuwählenden bzw. gewünschten Musikstücks ein, in
dem er einfach die ihm bekannte Melodie in das Mikrofon 14 singt. Die vom Mikrofon
aufgezeichnete menschliche Stimme wird über den Analog/Digital-Wandler 15 digitalisiert
und an die zentrale Verarbeitungsschaltung 16 geliefert, die somit den digitalisierten
Frequenzverlauf der menschlichen Stimme empfängt.
[0034] Aus dem digitalisierten Frequenzverlauf der menschlichen Stimme wird mit Hilfe eines
Tonhöhendetektors in der zentralen Verarbeitungsschaltung 16 der zeitliche Verlauf
der Tonhöhenfrequenz der in das Mikrofon 14 gesungenen Tonfolge ermittelt. Als Tonhöhendetektor
dient dabei beispielsweise der sogenannte SIFT (Simplified inverse filter tracking)
Algorithmus, der besonders gut für relativ hohe Frauenstimmen geeignet ist, oder die
sogenannte Cepstrum Tonhöhenabschätzung (Cepstrum pitch estimation) die sich für relativ
tiefe männliche Stimmen eignet. Diese Verfahren sind dem zuständigen Fachmann vertraut
und beispielsweise in dem Lehrbuch "Voice and Speech Processing", Thomas W. Parsons,
New York, 1986, McGraw-Hill Book Company, erläutert.
[0035] Der ermittelte Verlauf der Tonhöhenfrequenz f
p wird dann mit Hilfe eines geeignete Filters geglättet. Hierbei wird insbesondere
ein Medianfilter verwendet, bei dem ein Filterfenster über die zu glättende Tonhöhenfrequenzkurve
gleitet, um jeweils den Wert im Zentrum des Fensters durch den Median aller Werte
im Fenster zu ersetzen. Eine derartige Medianfilterung ist ebenfalls bekannt und in
dem obengenannten Lehrbuch erläutert.
[0036] Nach dem Glätten ergibt sich ein Verlauf der Tonhöhenfrequenz f
p, wie er in Figur 2 rein schematisch angedeutet ist. Somit liegt also ein geglätteter
Verlauf der Tonhöhenfrequenzen der gesungenen Tonfolge über der Zeit vor, die im Idealfall
mit dem Verlauf der Melodie im Frequenzbereich koinzidiert.
[0037] Da jedoch durch bewußtes und unbewußtes Transponieren der Melodie beim Singen durch
den Benutzer sowie durch Rythmus- und Tempounterschiede Fehler oder Abweichungen der
gesungenen Melodie von der gewünschten Melodie auftreten, wird der in Figur 2 gezeigte
Verlauf der Tonhöhenfrequenzen entsprechend den Frequenzen der musikalischen Töne
oder Noten quantisiert, so daß sich der in Figur 3 gezeigte quantisierte Verlauf der
Tonhöhenfrequenzen f
p über der Zeit ergibt. Figur 3 zeigt dabei beispielsweise fünf verschiedene Töne mit
unterschiedlichen Tondauern, denen jeweils ein bestimmter musikalischer Ton oder eine
Note sowie eine bestimmte Tondauer zugeordnet werden können.
[0038] Nach der Quantisierung des Verlaufs der Tonhöhenfrequenz läßt sich die eingegebene,
gesungene Tonfolge in eine bestimmte Anzahl N von Einzeltönen zerlegen. Jedem dieser
Einzeltöne ist dabei ein musikalischer Ton entsprechend der musikalischen Skala zugeordnet.
Ferner besitzt jeder der Einzeltöne eine bestimmte Tondauer, aus der sich eine entsprechende
Notendauer ermitteln läßt.
[0039] Jeder Ton zeichnet sich also durch zwei Größen aus, nämlich durch die Tonhöhe oder
Tonhöhenfrequenz, die durch den entsprechenden musikalischen Ton bzw. die entsprechende
Note bezeichnet wird, und durch die Tondauer, die in noch zu beschreibender Weise
entsprechend der musikalischen Notendauer quantisiert wird. Damit läßt sich jede Tonfolge
aus N Tönen durch einen Tonhöhenvektor

und durch einen Tondauervektor

beschreiben. Die Werte h
1 können dabei einfach ganze Zahlen sein, die entsprechend der folgenden Tabelle die
jeweiligen musikalischen Töne oder Noten repräsentieren.
| Note |
A' |
Ais' |
H' |
C' |
Cis' |
D' |
Dis' |
E' |
F' |
Fis' |
G' |
Gis' |
A'' |
Ais'' |
H'' |
| Zahl |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
[0040] In entsprechender Weise kann jeder Notendauer 1/32, 1/16, 1/8, 1/4, 1/2, 1 eine entsprechende
Zahl zugeordnet werden, wobei zweckmäßiger Weise für die kürzeste Note die Dauer 1
gesetzt wird. Eine 1/4-Note erhält dann die Dauer 8, eine 1/2-Note die Dauer 16 und
die ganze Note die Dauer 32. Um den einzelnen Tondauern eine musikalische Notendauer
zuordnen zu können, wird der Median der Tondauerverteilung ermittelt und gleich einer
1/4-Note gesetzt. Ausgehend von dem Median werden dann Zeitintervalle festgelegt,
die den einzelnen Notendauern entsprechen.
[0041] Die gesungene Tonfolge liegt nunmehr als Notenfolge vor, die sich durch zwei äußerst
einfache Vektoren beschreiben lassen.
[0042] Die Umsetzung der Tonfolge in die die Notenfolge beschreibenden Vektoren kann dabei
in der zentralen Verarbeitungsschaltung 21 der Datenbankstation 12 des Diensteanbieters
durchgeführt werden. Um jedoch die Übertragungsstrecke 11 möglichst wenig zu belasten,
um also die entsprechenden Sendekanäle möglichst wenig zu blockieren, wird diese Umsetzung
bereits im Mobiltelefon 10 von der zentralen Verarbeitungsschaltung 16 vorgenommen,
so daß nur der Tonhöhenvektor und der Notendauervektor zur Datenbankstation 12 des
Diensteanbieters übertragen zu werden brauchen.
[0043] In der Datenbankstation 12 sind in der Datenbankdatei 22 die Musikstücke als Notenfolgen
gespeichert, die ebenfalls durch einen entsprechenden Tonhöhenvektor
hi = (h
i1, h
i2, ... h
ix, ... h
iM) und Tondauervektoren
di = (d
i1, d
i2, ... d
ix, ... d
iM) beschrieben werden. Der Index i bezeichnet dabei das jeweilige Musikstück und M
die Anzahl der Töne oder Noten.
[0044] Um auch bewußt oder unbewußt transponierte eingegebene Tonfolgen mit den Musikstücken
vergleichen zu können, werden nicht die jeweiligen Notenfolgen unmittelbar miteinander
verglichen, sondern nur der Relativverlauf innerhalb der beiden Notenfolgen. Hierzu
werden jeweils die Differenzen zwischen den einzelnen Tonhöhen miteinander verglichen.
Es wird also für jede Notenfolge der Median festgestellt, um den Abstand der einzelnen
Töne vom Median zu ermitteln und mit dem Abstand des entsprechenden anderen Tons der
anderen Notenfolge von deren Median zu vergleichen. Da die Notenfolge des Musikstücks
typischerweise wesentlich länger ist, als die Notenfolge, die beispielsweise durch
Singen eingegeben wurde, wird für die Notenfolge des Musikstücks jeweils der Median
eines entsprechenden Teilabschnitts dieser Notenfolge verwendet.
[0045] Beim praktischen Vergleich der Notenfolge einer eingegebenen Tonfolge mit den Notenfolgen
der Musikstücke wird eine Funktion f
i (x) berechnet, deren Verlauf anzeigt, wie die Notenfolge der eingegebenen Tonfolge
mit den einzelnen Abschnitten übereinstimmt. Diese Abweichungsfunktion errechnet sich
nach der folgenden Gleichung:

[0046] Hierbei sind α und β Gewichtsfaktoren, die den Einfluß der Melodie bzw. des Rhythmus
auf den Übereinstimmungsfaktor beschreiben. Für α und β gilt dabei: 0 < α, β;

. h
i (x) und d
i (x) bezeichnen die Tonhöhe und die Tondauer des x-ten Tons im Vektor
hi bzw.
di. m
hi (x) und m
di (x) bezeichnen jeweils den Median der Tonhöhen bzw. Tondauern im Intervall von h
i (x) bis

bzw. d
i (x) bis

. h (l) und d (l) bezeichnen die Tonhöhe bzw. Tondauer des l-ten Tons im Vektor
h bzw.
d. In entsprechender Weise bezeichnen m
h und m
d den Median der Tonhöhen bzw. Tondauern im Vektor
h bzw. im Vektor
d.
[0047] Sowohl für die Tonhöhen als auch für die Tondauern wird jeweils die Summe der Differenzen
zwischen den jeweiligen Abständen zum entsprechenden Median berechnet, die im Idealfall,
wenn also die Notenfolgen exakt übereinander passen, gleich 0 wird.
[0048] Nachdem die Funktion f
i (x) für alle Werte x berechnet wurde, wenn also die Notenfolge der eingegebenen Tonfolge
mit sämtlichen möglichen Abschnitten der Notenfolge eines Musikstücks in der durch
die obige Gleichung beschriebene Weise verglichen wurde, wird der kleinste Wert der
Funktion f
i (x) festgestellt. Der zugehörige Wert x
l beschreibt somit den Abschnitt der Notenfolge der den vom Benutzer gesungenen Abschnitt
des Musikstücks (möglicherweise) entspricht. Der zugehörige Wert der Funktion f
i (x) wird dann als Abweichungsfaktor

gespeichert.
[0049] Sobald die Notenfolge der eingegebenen Tonfolge mit sämtlichen Notenfolgen der einzelnen
Musikstücke verglichen wurde, werden die Bezeichnungen oder Titel der Musikstücke
entsprechend den ermittelten Übereinstimmungsfaktoren F
i,l sortiert, wobei mit dem die höchste Übereinstimmung bezeichnenden kleinsten Abweichungsfaktor
begonnen wird.
[0050] Um anschließend dem Benutzer die Musikstücke in der ermittelten Reihenfolge zu präsentieren,
werden diese von der Datenbankstation 12 zum Mobiltelefon 10 übertragen, wo die Titel
auf der Anzelgevorrichtung 24 angezeigt werden während charakteristische Ausschnitte
der Musikstücke über den Lautsprecher 23 ausgegeben werden können. Hierbei wird zweckmäßigerweise
die Anzahl der übertragenen Bezeichnungen begrenzt. Die Begrenzung kann dabei im einfachsten
Falle dadurch erfolgen, daß nur, je nach Anzeige- und Speicherkapazität dem Mobiltelefon
eine begrenzte feste Anzahl von Titeln der Musikstücke übertragen wird. Es ist jedoch
auch möglich, die Begrenzung im Hinblick auf den Abweichungsfaktor vorzunehmen, so
daß nur Titel von Musikstücken zum Mobiltelefon übertragen und dem Benutzer angezeigt
werden, deren Abweichungsfaktor einen vorbestimmten Schwellwert nicht übersteigt.
Ein derartiger Schwellwert kann allgemein festgelegt oder entsprechend der Abweichungsfaktorverteilung
ermittelt werden.
[0051] Die vorliegende Erfindung ermöglicht somit die Erkennung von Musikstücken in der
Datenbankstation eines Diensteanbieters, wobei ein Benutzer nur einen Teil eines gewünschten
Musikstücks singt, wenn ihm der Titel dieses Liedes oder Musikstücks nicht bekannt
ist. Nach der Erkennung des Musikstücks, oder einer Reihe von möglichen Musikstücken
wird oder werden der bzw. die Titel gegebenenfalls zusammen mit charakteristischen
Ausschnitten der Musikstücke zum Benutzer übertragen, so daß dieser daraus das gewünschte
Musikstück auswählen kann. Nach der Auswahl wird dann das komplette Musikstück über
elektronische Kommunikationswege (Internet, zellulares Mobiltelefonnetz, wie im beschriebenen
Ausführungsbeispiel, oder ähnliches) zugesandt und der Benutzer kann sich das Musikstück
dauerhaft auf einem geeigneten Speichermedium (CD, Speicherbaustein, Magnetband usw.)
abspeichern und abspielen.
[0052] Für den Vergleich der eingegebenen Tonfolge, also eines gesungenen Abschnitts des
gewünschten Musikstücks mit den. Musikstücken in der Datenbankstation des Dienstanbieters
ist in der Datenbankstation 12 eine gesonderte Datenbankdatei 22 vorgesehen, in der
die Titel bzw. Bezeichnungen der einzelnen Musikstücke mit den zugeordneten Notenfolgen
gespeichert sind, so daß das Auffinden der gewünschten Musikstücke wesentlich erleichtert
und die Erkennung beschleunigt ist.
1. Verfahren zum Erkennen einer Tonfolge insbesondere eines Musikstücks, bei dem
- die Töne der zu erkennenden Tonfolge in eine Notenfolge umgesetzt werden,
- zum Suchen der zu erkennenden Tonfolge deren Notenfolge nacheinander mit entsprechenden
Notenfolgen einer Vielzahl von Tonfolgen verglichen wird, und
- Bezeichnungen der Tonfolge oder -folgen ausgegeben werden, deren Notenfolge bzw.
- folgen mit der Notenfolge der zu erkennenden Tonfolge in vorbestimmter Weise übereinstimmt
bzw. übereinstimmen.
2. Verfahren zum Auswählen einer Tonfolge, insbesondere eines Musikstücks, bei dem
- eine zumindest einem Abschnitt der auszuwählenden Tonfolge zumindest teilweise entsprechende
Tonfolge eingegeben wird,
- die Töne der eingegebenen Tonfolge in eine Notenfolge umgesetzt werden,
- zum Suchen der auszuwählenden Tonfolge deren Notenfolge nacheinander mit entsprechenden
Notenfolgen einer Vielzahl von Tonfolgen verglichen wird, um Bezeichnungen einer oder
mehrerer Tonfolgen zu ermitteln, deren Notenfolge oder -folgen mit der Notenfolge
der auszuwählenden Tonfolge in vorbestimmter Weise übereinstimmt bzw. übereinstimmen,
und
- die ermittelten Bezeichnungen als Liste ausgegeben werden, so daß ein Benutzer anhand
der Bezeichnungsliste die gewünschte Tonfolge auswählen kann.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die in einem Benutzerendgerät
(10) eingegebene, der auszuwählenden Tonfolge entsprechende Tonfolge zu einer Datenbankstation
(12) übertragen wird, in der die Liste der Bezeichnungen einer oder mehrerer der auszuwählenden
Tonfolge ähnlichen Tonfolgen ermittelt wird, und
- die Bezeichnungsliste zur Ausgabe an das Benutzerendgerät (10) übertragen wird.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die in ein Benutzerendgerät
(10) eingegebene, der auszuwahlenden Tonfolge entsprechende Tonfolge im Benutzerendgerät
(10) in eine Notenfolge umgesetzt wird, die Notenfolge zu einer Datenbankstation (12)
übertragen wird, in der die Liste der Bezeichnungen einer oder mehrerer der auszuwählenden
Tonfolge ähnlichen Tonfolgen ermittelt wird, und
- die Bezeichnungsliste zur Ausgabe an das Benutzerendgerät (10) übertragen wird.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß zusammen mit jeder Bezeichnung
ein für die jeweilige Tonfolge charakteristischer kurzer Ausschnitt der Tonfolge zur
Ausgabe an das Benutzerendgerät (10) übertragen wird.
6. Verfahren nach Anspruch 2 bis 5, dadurch gekennzeichnet, daß die Tonfolge zur Eingabe
in das Benutzerendgerät (10) vom Benutzer gesungen wird.
7. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß zum Umsetzen
einer Tonfolge in eine Notenfolge
- für jeden Ton der Tonfolge die Tonhöhenfrequenz fp und die Tondauer ermittelt wird, und
- jedem Ton eine musikalische Note entsprechend seiner Tonhöhenfrequenz fp und eine musikalisch quantisierte Notendauer entsprechend einer Tondauerverteilung
der Tonfolge zugeordnet wird.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß zur Festlegung der Notendauer
der Töne zunächst der Median der Tondauerverteilung ermittelt wird, und die Tondauer
des Medians mit der Notendauer einer 1/4-Note gleichgesetzt wird, sowie jedem Ton
durch Vergleich seiner Tondauer mit der ermittelten Notendauer einer 1/4-Note eine
entsprechende musikalische quantisierte Notendauer (1/32, 1/16, 1/8, 1/4, 1/2, 1)
zugeordnet wird.
9. Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, daß jede Tonfolge durch
einen Tonhöhenvektor h, der sich aus den einzelnen Noten oder musikalischen Tönen zusammensetzt, und einen
Tondauervektor d dargestellt wird, der sich aus den musikalischen quantisierten Notendauern der einzelnen
Töne zusammensetzt.
10. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß zum Feststellen
eines Abweichungsfaktors Fi, l zwischen einer eingegebenen und einer gespeicherten Tonfolge die Differenz der Tonhöhen
und Tondauern der jeweiligen Notenfolgen miteinander verglichen werden.
11. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß beim
Vergleich der Notenfolgen einer eingegebenen und einer gespeicherten Tonfolge die
Notenfolge der eingegebenen Tonfolge nacheinander mit entsprechenden Teil-Notenfolgen
der gespeicherten Tonfolgen verglichen wird, um jeweils einen Abweichungsfaktor f
i (x) zu ermitteln und daß der den höchsten Übereinstimmungsgrad anzeigende kleinste
Abweichungsfaktor

der gespeicherten Tonfolge als Abweichungsfaktor zugeordnet wird.
12. Verfahren nach Anspruch 10 und 11, dadurch gekennzeichnet, daß als Abweichungsfaktor
der kleinste Wert einer Funktion f
i (x) ermittelt wird, die durch die folgende Gleichung gegeben ist:

wobei α und β Gewichtsfaktoren sind, für die gilt: 0 < α, β und

die Tonhöhe des l-ten Tons einer eingegebenen Tonfolge, m
h der Median der Tonhöhen der eingegebenen Tonfolge, d(l) die Tondauer des l-ten Tons
einer eingegebenen Tonfolge, m
d der Median der Tondauern der eingegebenen Tonfolge, h
i (x) die Tonhöhe des x-ten Tons einer gespeicherten Tonfolge, d
i (x) die Tondauer des x-ten Tons dieser eingespeicherten Tonfolge, m
hi (x) der Median der Tonhöhen im Intervall h
i (x) bis

der Median der Tondauern im Intervall d
i (x) bis

.
13. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß die auszugebenden
Bezeichnungen der Tonfolgen entsprechend einem Übereinstimmungsgrad zwischen den zugehörigen
gespeicherten Tonfolgen und der eingegebenen Tonfolge sortiert werden und daß die
Ausgabe mit der Bezeichnung beginnt, deren Tonfolge der eingegebenen Tonfolge am ähnlichsten
ist.
14. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß nur Bezeichnungen
solcher Tonfolgen ausgegeben werden, deren Übereinstimmungsgrad größer als sein vorgegebener
Wert ist.
15. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß die Notenfolgen
der Vielzahl von Tonfolgen zusammen mit entsprechenden Bezeichnungen der Tonfolgen
in einer Datenbankdatei (22) gespeichert sind.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß zusammen mit den in der Datenbankdatei
(22) gespeicherten Notenfolgen kurze charakteristische Ausschnitte der jeweiligen
Tonfolgen gespeichert sind.