Als erstes müssen wir die Seite, aus der wir die Informationen haben wollen, etwas genauer anschauen. Heutige Webseiten werden zumeist dynamisch erstellt, daher steht hinter jeder Webseite ein Algorithmus, der diese aufbaut und dann an den Browser liefert. Beim Browser kommt dann nur noch der HTML-Code an, der dargestellt wird.
Also ist der erste Schritt beim crawlen, den Quellcode der Seite zu inspizieren.
Wir suchen jetzt nach der Information, die wir gerne weiterverwenden würden im Quelltext. Wenn wir den Bereich gefunden haben, müssen wir herausfinden, welcher HTML-Code diesen Bereich beschreibt.
Kennzeichnung eines Textes zwischen zwei Texten
Und zwar ist es hier wichtig herauszufinden, welches unique (einzigartige) Kennzeichen die Information hat. Damit ist gemeint, welche Zeichenkette wirklich nur unsere gesuchten Informationen kennzeichnet und nicht noch 100 Mal mehr im Quelltext vorkommt. Manchmal sind es Style-Klassen, die eine Information kennzeichnen, machnchmal ist es eine Tabellenzelle oder ein Farbcode.
Als Beispiel wollen wir auf einer Seite die Information NAME finden. NAME wird im Quelltext folgendermaßen dargestellt
<TR><TD class="pers" width="200">NAME</TD>
Kein eindeutiges Kennzeichen ist <TR>, da es mit Sicherheit öfter im Quelltext vorkommt.
Da die Seite dynamisch erstellt wurde, haben in der Regel alle Zellen, in denen der Name steht, die CSS-Style-Klasse "pers". Hier setzen wir an.
Wir holen uns die Webseite und speichern diese in einem String.
Das geht entweder mit der PHP-Funktion CURL oder mit einem einfachen fopen().