Wie funktionieren Suchmaschinen?

Die genaue Funktions- und Arbeitsweise von Suchmaschinen ist extrem komplex und gar nicht so einfach nachzuvollziehen. Wer also verstehen will, wie Suchmaschinen funktionieren und arbeiten, der muss sich mit den einzelnen Bausteinen und deren Zusammenspiel zumindest kurz befassen.
Daher haben wir versucht, die generellen Bestandteile einer Suchmaschine mit ihren jeweiligen Aufgabenbereichen im Zusammenspiel vereinfacht darzustellen.

Wie arbeiten Suchmaschinen

  1. Crawler (= Bot, Robot) und Scheduler
    Der Scheduler bestimmt, wann eine Webadresse (URL) geprüft werden soll und gibt dem Crawler daraufhin entsprechende Anweisungen. Der Crawler besucht dann die Webseite und liest deren Informationen aus dem Code nach definierten Filtern aus. Der Crawler ist also für die Beschaffung von Informationen aus dem Web verantwortlich und übergibt diese an den Storeserver.
  2. Storeserver
    Der Storeserver unterzieht die einkommenden Informationen des Crawlers einer Aufnahmeprüfung und gibt dem Scheduler Rückmeldung zu unerreichbaren, fehlerhaften oder unerwünschten Webseiten. Wichtige Kennzahlen einer Webseite, wie z.B. IP-Adresse, letzte Aktualisierung und Dokumententyp werden anschließend im Dokumentenindex gespeichert. Der Storeserver schickt die geprüften Dokumente schließlich weiter ins Repository, wo – vergleichbar mit einer Datenbank – Kopien der gelieferten Dokumente zusammen mit einer Zeitangabe der Speicherung abgelegt werden.
  3. Indexer (=Parser)
    Der Indexer steht im Zentrum der Informationsverarbeitung einer Suchmaschine. Er greift auf das Repository zu und errechnet eine Liste an relevanten Suchworten aus den dort abgespeicherten Daten eines Dokumentes. In mehreren Arbeitsschritten werden so z.B. der reine Content einer Seite extrahiert, die Sprache identifiziert, Lexeme in ihre Wortstämme zurückgeführt, Füllwörter entfernt und mithilfe komplizierter mathematischer Formeln die Relevanz errechnet. Die strukturierten Daten gibt der Indexer schließlich zur Speicherung an den Suchindex weiter.
  4. Suchindex
    In der Hitlist werden alle relevanten Wörter eines Dokumentes zusammen mit Informationen zu ihrer Position und Wertigkeit innerhalb des Textes (Ist das Wort fett gedruckt oder kommt es in einer Überschrift vor?) nacheinander abgelegt. Im direkten Index werden mehrfach vorkommende Wörter zudem zusammengefasst und jeweiligen Werte aus der Hitlist übernommen. Der Wortindex andererseits enthält eine Liste aller Suchworte in ihrer Normalform, sodass bei einer Suchanfrage über parallel laufende Prozesse vergleichsweise schnell auf das Suchwort und auf eine vorverarbeitete Liste an relevanten Dokumenten zugegriffen werden kann. Dies ist aufgrund der enormen Datenmenge erforderlich, um Suchanfragen im Query-Prozessor zeitnah beantworten zu können, sprich die Suchergebnisse anzeigen zu können.
  5. Query-Prozessor
    Dieser Teil der Suchmaschine beantwortet schließlich die Suchanfragen der Nutzer. Der Query-Prozessor nimmt die Suchworte über die Benutzerschnittstelle auf, zerlegt diese ähnlich dem Indexer in ihre relevanten Bestandteile und holt die dazu passenden Ergebnisse schließlich aus dem Wortindex.

Zusammenfassung

Man sieht, dass der Weg von einer Webseite zum Suchergebnis relativ weit und komplex ist. Daher gliedern Suchmaschinen die einzelnen Aufgaben in spezialisierte Bereiche. Aufgrund der Datenmenge und der begrenzten Zeit von der Suchanfrage zum Suchergebnis werden weitere Aufbereitungsschritte erforderlich. Daher sind für gute Suchergebnisse nicht nur die Sortierungsreglen (Algorithmus) sondern auch Rechenleistung ausschlaggebend.

Weitere FAQ


Bekannt aus:
Suchmaschinen Datenbank ist bekannt u.a. von diesen WebsitesSuchmaschinen Datenbank ist bekannt u.a. von diesen Websites