Donnerstag, 1. Mai 2014

Dokumente von issuu.com herunterladen: curl machts möglich

Immer häufiger findet man im Internet interessante Präsentationen und kostenlose Magazine, auf Seiten wie issue.com scribd.com, slideshare.com, etc.
Einige der Inhalte kann man zum offline lesen auch herunterladen. Bei manchen Dokumenten gibt es diese Option allerdings nicht.

Hier hilft uns curl – ein Kommandozeilen-Tool zur Automatisierung von Webaufrufen – und etwas Handarbeit aus der Patsche. Auf Unix-Systemen wie Mac OSX und Linux ist das Tool üblicherweise bereits vorinstalliert.

Als Beispiel möchte ich zeigen, wie man ein Dokument von issuu.com offline verfügbar macht.

1. Bild-URL

Die Dokumente werden i.d.R. mit Hilfe von Flash angezeigt. Das Dokument selbst besteht bei issuu allerdings einfach aus JPG-Bildern.
Den Link zu den Bildern kann man im HTML-Quelltext der Seite finden im Tag:

<link rel="image_src" href="http://image.issuu.com/xxxxxxxxxxxx-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx/jpg/page_X_xxxxx_xxxxx.jpg">

Um die URL zum (ersten) Bild zu bekommen, schneidet man einfach den letzten Teil ab: _xxxxx_xxxxx.jpg

http://image.issuu.com/xxxxxxxxxxxx-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx/jpg/page_1.jpg

2. Download mit curl im Terminal

curl "http://image.issuu.com/140117100359-f1d2ccb1b003c64c30a7fd34f89cbe86/jpg/page_[1-32].jpg" -o "#1.jpg"

Erklärung: Man übergibt curl die Bild-URL. In der geschweiften Klammer gibt man die Nummern der zur ladenden Dokumentseiten an. Mit –o wird angegeben, unter wie die geladenen Bilder sequenziell benannt werden. Die Bilder landen im aktuellen Verzeichnis, in dem curl aufgerufen wird.

Nachdem man die Bilder geladen hat, kann man sie natürlich beliebig weiterverarbeiten, in ein PDF stecken, oder einfach betrachten.

PS: Wem das zu kompliziert ist, der kann auch folgende spanische Seite verwenden, welche einem die Bilder automatisch heraussucht.
Man muss dazu die URL zum gewünschten issuu-Dokument und die Gesamt-Seitenzahl eingeben. Beschreibung hier (automatisch übersetzt).


Keine Kommentare :

Kommentar veröffentlichen