Interactive Studio

Know How

Know How

Information Retrieval

Information Retrieval ist die Möglichkeit, aus einer unstrukturierten großen Menge an Daten spezielle Informationen aufzufinden und bereitzustellen, also bestehendes Wissen zu indexieren und zugänglich zu machen. Der deutsche Begriff lautet ‚Informationsrückgewinnung‘.

Basis für das Information Retrieval ist eine große Menge unsortierter und maschinell gespeicherter Daten. Diese werden kategorisiert, die einzelnen Informationen bewertet, in eine bestimmte Reihenfolge gebracht und dann zugänglich gemacht. Die Suchmaschine Google nutzt das Prinzip, indem es Crawler die Mengen an Daten auf den Websites untersuchen lässt, diese bewertet und gewichtet. Dabei werden bestimmte Informationen aus einer Datenmenge gefiltert. Es werden dadurch aber keine neuen Informationen gewonnen, wie etwa beim Data-Mining, sondern die Informationen werden lediglich sortiert, gewichtet und zugänglich gemacht.

Information Retrieval hilft bspw., wenn die Suchanfragen zu vage sind. Das jeweilige Information-Retrieval-System soll dann die Antwort auf die Frage liefern und nicht einfach alle Dokumente aufzählen, in denen der Begriff vorkommt. Er muss also die Suche und eine Gewichtung vornehmen. Dafür nutzt er etwa die Suchwortdichte (Term Frequency), also wie häufig ein Begriff in einem Dokument vorkommt. Das ist jedoch nur in Maßen sinnvoll. Die Häufigkeit des Suchwortes sollte in Relation zur Textlänge stehen. Hinzukommt beim Information Retrieval die Inverse Document Frequency, also jene Wörter, die in relativ wenigen Dokumenten zu finden sind, in diesem aber verstärkt auftreten. Beide zusammen ergeben eine erste grobe Möglichkeit, bestehende Informationen für den jeweiligen Nutzer aufzubereiten.

Begierde Wissen

insights

insights