dokuwiki:spider

Spidern mit wget

Der Websitekopierer ''wget'' soll die mit Dokuwiki generierten statischen Webseiten einsammeln, um sie auf die Hompage zu übertragen.

Kommando

Der Befehl um wget zu veranlassen, das Gewünschte zu erledigen sieht so aus:

wget -r -l inf -p -P $output -nH -k -E $wikiurl
Option Beschreibung
-r Rekursives Webseitensammeln einschalten.
-l inf Links bis in unendlicher Tiefe folgen.
-p Alle für die Darstellung notwendigen Dateien abrufen und abspeichern.
-P $output Verzeichnis in das gespeichert wird. (Verzeichnisprefix)
-nH Kein Verzeichnis für den Host erzeugen.
-E Dateinamenserweiterungen von HTML- und CSS-Daten anhand des MIME-Typs anpassen.
-k Links in den speicherten Dateien konvertieren sowie an die geänderten Dateinamen anpassen.

Der von Dokuwiki als Namenraumstrenner verwendete Doppelpunkt wird von den Browsern bei den konvertierten Links missinterpretiert, daher wird Dokuwiki so eingestellt, dass als Namenraumstrenner ein Querstrich (/) verwendet wird:

$conf['useslash'] = 1;

Da es auf meinem System keine Steuerdatei für Webroboter (robots.txt) existiert, muss wget in seiner Konfigurationsdatei ~/.wgetrc beigebracht werden selbige zu ignorieren. Ansonsten läd er lediglich eine einzige Seite herunter:

robots = off
dokuwiki/spider.txt · Zuletzt geändert: 2014/09/13 19:12 (Externe Bearbeitung)

Seiten-Werkzeuge