Arbeiten mit Daten und digitalen Tools: Die Data Pipeline

Wie fängt man an und worauf muss man beim Arbeiten mit Daten achten? Ob du eine Visualisierung für einen Bericht oder ein umfangreiches datenbasiertes Projekt planst – die Methode der Data Pipeline verschafft dir einen guten Überblick darüber, wie man beim Arbeiten mit Daten von der ersten Fragestellung bis hin zur Kommunikation vorgeht.

Beachte, dass du jederzeit zu den einzelnen Schritten der Data Pipeline zurückkehren kannst und manchmal auch musst, um deine Ergebnisse kritisch zu überprüfen.

1. Fragen und Definieren

Zuerst geht es darum, ein Thema (z.B. Luftverschmutzung) und eine Frage (z.B. Wurde die Luftverschmutzung durch Bikesharing verringert?) zu definieren. Anhand der Frage überlegst du anschließend, welche Daten bzw. Informationen notwendig sind, um sie adäquat zu beantworten. Je spezifischer du die Frage formulierst, desto einfacher kannst du einschätzen, welche Daten wichtig sind. Und das wiederum hilft bei der Planung des Projekts: Sind die benötigten Daten leicht verfügbar oder wird es schwierig werden, sie zu finden?

Tool-Tipp: Offenes Parlament

Umstrittene Gesetzesnovellen, Reden von Politiker*innen oder ein spannender Schlagabtausch im Plenum – OffenesParlament.de sammelt Informationen über die Arbeit des Bundestages aus der gesamten 18. Wahlperiode. Über die gemeinnützige Plattform kannst du herausfinden, mit welchen Themen sich die Abgeordneten des Bundestags beschäftigt haben und selbst nach eigenen Schlagworten suchen. Dieses Tool verschafft dir einen Einblick in das Parlament und kann dir helfen, interessante Aspekte für die Beantwortung deiner Frage zu finden.

2. Finden

Nun geht es um das Recherchieren der zuvor definierten Informationen. Solltest du nicht direkt finden, was du suchst, gib nicht auf! Es gibt viele digitale Tools und Recherchetechniken, die dich bei der Suche nach den passenden Daten unterstützen können: von sozialen Netzwerken, Operatoren für bessere Ergebnisse in Suchmaschinen, über offene Datenportale bis hin zu Behördenanfragen entsprechend dem Informationsfreiheitsgesetz.

Tool-Tipp: Datenportale im Open Data Atlas

Immer mehr Verwaltungen in Deutschland stellen ihre Informationen frei zur Verfügung. Du findest sie online in so genannten Datenportalen. Dort können Daten heruntergeladen und frei weitergenutzt werden. Du findest dort z.B. Änderungen von Schulgesetzen, Angaben zur Wohnraumentwicklung einer Stadt oder Statistiken zu asylsuchenden Menschen. Eine Übersicht über diese Portale zeigt das Open Source-Projekt Open Data Atlas , das von dem Programmierer Thomas Tursics entwickelt wurde.

3. Bekommen

In diesem Schritt geht es darum, die Daten auf deinen Computer zu übertragen, damit du sie später maschinell verarbeiten kannst. Auch hier gibt es praktische digitale Helfer, wie Online-Umfragen, Behördenanfragen entsprechend dem Informationsfreiheitsgesetz und auch technische Ansätze wie Web Scraping (Auslesen von Informationen auf Webseiten).

Tool-Tipp: Frag den Staat

Das Informationsfreiheitsgesetz (IFG) bietet allen Menschen das Recht auf Zugang zu amtlichen Informationen. Die gemeinnützige Plattform FragDenStaat.de der Open Knolwedge Foundation Deutschland macht es einfach, mit wenigen Klicks Anfragen an Behörden auf Bundes-, Landes- und Kommunalebene selbst zu stellen. Mehr als 25.000 IFG-Anfragen und Antworten sind online bereits dokumentiert und können durchsucht werden.

4. Verifizieren

In diesem Schritt geht es darum, die gesammelten Daten zu verifizieren und auf ihren Wahrheitsgehalt und ihre Glaubwürdigkeit hin zu kontrollieren. Hier wird geprüft, ob Details in den Daten gültig sind, wer die Daten in welchem Kontext erhoben hat und welche Aspekte die Daten (nicht) abbilden. Dies ist ein entscheidender Schritt, der oftmals weitere Recherche notwendig macht, um falsche Ergebnisse zu vermeiden.

5. Bereinigen

Daten müssen vor der eigentlichen Analyse vereinheitlicht und bereinigt werden, bevor du Rückschlüsse aus ihnen ziehen kannst. Bei der Bereinigung der Daten werden z.B. Informationslücken recherchiert und Daten in eine strukturierte Form gebracht, damit sie von Maschinen verarbeitet werden können. In diesem Schritt benötigen wir Werkzeuge, die uns helfen, die Daten in ein maschinenlesbares Format zu bringen, damit wir sie analysieren können. Die passenden Tools haben viele bereits: Excel oder die Open Source-Alternativen LibreOffice und OpenOffice.

Tool-Tipp: Open Refine

Das Open Source Tool OpenRefine.org hilft dir dabei, Daten und Tabellen zu bereinigen und in eine einheitliche Form zu bringen. Damit kannst du u.a. Tippfehler korrigieren, Werte abstimmen und auf Inkonsistenzen überprüfen, z.B. auf verschiedene Schreibweisen wie “USA“, “U.S.A.“ und “U.S.“. Open Refine kann heruntergeladen und offline genutzt werden.

6. Analysieren

Bei diesem Schritt erhältst du tiefere Einblicke in deine Frage, die du zu Beginn definiert hast. Es geht hierbei darum, deine Daten zu “nterviewen“, um Antworten zu finden. Für die Analyse kannst du z.B. die Pivot-Funktionen in Excel, Libre Office und Google Spreadsheets oder Programmiersprachen wie Python und R verwenden. Für umfangreiche Analysen von statistischen Daten eignet sich z.B. das Open Source-Tool PSPP.

7. Visualisieren

Visualisierungen können dabei helfen, ein Thema aus anderen Blickwinkeln zu betrachten und gute Geschichten zu erzählen. Hier geht es darum, an dein Publikum zu denken, an deine Frage, die du beantworten möchtest und an das Medium, das dir hilft, ein Gespräch zu beginnen. Visualisierungen sind besonders wirkungsvoll, wenn deine Zielgruppe sie lesen und einfach verstehen kann.

Tool-Tipp: DataWrapper

DataWrapper.de ist ein Open-Source Tool, mit dem Daten einfach und schnell visualisiert werden können. In vier Schritten wirst du durch das Programm geführt, kannst deine Daten hochladen und die passende Darstellung auswählen. Die Visualisierung kannst du im Anschluss über einen iFrame online auf deinen Blog und deine Webseite einbinden.

8. Präsentieren

Neben Datenvisualisierungen gibt es noch weitere Möglichkeiten und digitale Tools, die du für das Erzählen einer guten Geschichte nutzen kannst, um mehr Kontext zu deiner Frage zu geben. So kannst du z.B. verschiedene Medien, wie Texte, Bilder und Videos zusammenstellen und online über deine Lieblingskanäle kommunizieren.

Tool-Tipp: Storytelling

Das Knightlab der Northwestern University in San Francisco stellt verschiedene Storytelling-Tools zur Verfügung, die frei genutzt werden können. Darunter z.B. das Tool TimelineJS, mit dem du interaktive Zeitverläufe erstellen kann oder JuxtaposeJS, das dir hilft zwei Bilder oder GIFs miteinander zu vergleichen und so schöne Vorher-Nachher-Geschichten zu erzählen.

Quelle: Jugendarbeit im digitalen Wandel - Kompetenzen, Daten und digitale Tools, 2017, S. 39-43

Autor*innen: Helene Hahn, Jasmin Helm, Moritz Neujeffski, Knut Perseke

Der Text wurde entwickelt im Kontext der Workshopreihe "Jugendarbeit im digitalen Wandel – Kompetenzen, Daten und digitale Tools“ im Modellprojekt “Demokratielabore“ des gemeinnützigen Vereins Open Knowledge Foundation Deutschland.

Er steht unter der Creative Commons Lizenz CC BY 4.0