Freitag, 25. Juni 2010

Im Wechselspiel der Willfährigkeit: Tabelleninhalte aus Webseiten sichern

Gerade wollte ich einige Tabellen von Webseiten zur Auswertung aus dem Browser in eine Tabellenkalkulation sichern.

Was sich einfach anhört, hat leider seine Tücken. Denn abhängig von der Formatierung der Tabelle auf der Webseite, dem verwendeten Browser und der eingesetzten Tabellenkalkulation kommt dabei mehr oder - leider öfter als einem lieb ist - weniger das heraus, was man eigentlich wollte: Die korrekte Übernahme der Tabelleninhalte, teilweise mit erhalt der Formatierung.

Einige Kombinationen von Browser / Tabellenkalkulation funktionieren besser, aber es kommt leider immer wieder vor, dass die Ergebnisse, die in der Programm-Kombination, die man gerade noch erfolgreich verwendet hatte, beim nächsten Versuch unbrauchbar sind: sei es weil die es, weil die Formatierung futsch ist oder gar, weil die Daten kaputt ankommen.

Hier einige Beispiele:

Die Ausgangstabelle auf der Webseite in Safari (5.0). Man beachte den Tabellenfehler in der letzten Zeile.

TourisminNewYorkCity-Wikipedia%2Cthefreeencyclopedia-2010-06-25-22-13.jpg

Darunter das Ergebnis von Copy & Paste in Excel 2004. Die Überschriften sind verschoben, die Formatierung ist futsch und die Daten wurden weitestgehend falsch interpretiert (hierbei kann man auch nur teilweise nachträglich Abhilfe schaffen - wenn man nicht vorsorgt.)

Excel2004safari-1-2010-06-25-22-13.jpg

Hier das Ergebnis mit OpenOffice Calc: Die Formatierung wurde weit besser erhalten. Daten werden aber auch falsch erkannt. Zusätzliche Probleme bereite die fehlerhafte HTML-Zelle in der letzten Spalte.

OpenOfficeCalcSafari-1-2010-06-25-22-13.jpg

Hier das Ergebnis mit Numbers. Sieht eigentlich ganz gut aus, aber de facto sind alle Zahlen falsch importiert. Man kann auch nachträglich nichts mehr machen, um die Daten wiederherzustellen.

NumbersSafari-2010-06-25-22-13.jpg

Das Ganze nochmal mit Firefox (3.6.3): Dort sieht auch die Tabelle schon etwas anders aus. Der Fehler in der HTML-Tabelle wurde scheinbar durch eine zusätzliche Spalte ausgeglichen.

TourisminNewYorkCity-WikipediamitFirefox-2010-06-25-22-13.jpg

Das Ergebnis von Kopieren & Einfügen in Excel sieht nun massiv besser aus. Es wurden auch die Grafiken ins Dokument übernommen. Bei den Links hat es nur begrenzt geklappt (aber das ist hier egal). Die Zelleninhalte wurden jedoch wiederum größtenteils falsch erkannt und sind auch durch Veränderung des Zellenformats nicht wiederherstellbar.

Excel2004FF-2010-06-25-22-13.jpg

Hier das Ergebnis mit OO 3.2.1 Calc: Format und Grafiken nebst Links wurden gut erhalten, wie in Excel. Die Zelleninhalte sind aber ebenso hinüber.

OOoCalcFF-2010-06-25-22-13.jpg

Ein Totalausfall ist nun Numbers mit Firefox. Hier wurde beim Einfügen alles in eine Spalte gequetscht.

NumbersFF-2010-06-25-22-13.jpg

Ein akzeptables Endergebnis konnte ich in diesem Fall schließlich mit einer Kombination von Safari für die Rohdaten (nur den Zahlenteil aus der Tabelle) und Firefox für das Format sowohl mit Excel als auch Numbers (ich hatte es schon abgeschrieben) erreichen, wenn ich vor dem Einfügen der Datenfelder die Zellen als Text formatiert hatte. Mit OpenOffice hat es in diesem Fall gar nicht geklappt, obwohl ich in anderen Fällen schon oft das genau gegenteilige Ergebnis beobachten konnte.

Lösung in diesem Fall: Zellen vorformatieren und Firefox & Excel / Numbers verwenden

Am Ende bleibt ein Wirrwarr und Herumprobiererei. Allgemein ist zu sagen, das man lieber gleich die Zellen vorformatieren sollte (entweder nach dem zu erwartenden Inhalt oder als Notnagel einfach erstmal als Text). Ist das erste Einfüge-Ergebnis weitestgehend akzeptabel und vor allem inhaltlich richtig, sollte man den Rest einfach mit per Hand nachformatieren - weil wahrscheinlich klappt es in schwierigen Fällen auch in anderen Programmen bzw. Programmkombinationen nicht besser.

Keine Kommentare :

Kommentar veröffentlichen