Web Scraping

Beim Web Scraping suchen Crawler (Bots) Websites nach Begriffen, Kontaktdaten, Telefonnummern, ebenso nach Suchbegriffen, RSS-Feeds und URLs ab, um diese in Datenbanken zu speichern, zu analysieren oder anderweitig zu nutzen. Das sind Daten, die von den Nutzern selbst veröffentlicht werden.

Ziel des Web Scrapings ist also die Informationsgewinnung und das Extrahieren von Daten. Das Scraping, also das „Kratzen“ von Informationen direkt vom Bildschirm, ist vergleichbar mit Copy-and-paste. Dabei wird zwischen dem manuellen und dem automatischen Scraping unterschieden. Beim automatischen Scraping wird eine Software genutzt, die Informationen aus dem Web zieht. Dann wird bspw. aufgrund einer vergleichenden Datenanalyse ein Preisvergleich zwischen mehreren Unternehmen erstellt. Diese werden entweder für andere User bspw. auf einem Vergleichsportal genutzt oder um auf der eigenen Website Preise anzugleichen, also um sich einen Wettbewerbsvorteil zu sichern. Ein bekanntes Beispiel für das Web Scraping ist Google, das Websites indiziert und dadurch Wetter und Preis-Optionen anzeigt.

Auch andere Portale nutzen Web Scraping, das ist je nach Ziel und Weiterverarbeitung legal oder illegal. So steht das Web Scraping auch im Zusammenhang mit Phishing-Attacken oder der Zweckentfremdung und Nutzung von Bildmaterial und persönlichen Daten.