News
Ein kleiner Technologiestack für DataScience-Heimprojekte
Ich bin jetzt ziemlich weit damit, den Mailhaufen abzuarbeiten, den ich im Nachgang zu meinem BahnMining-Vortrag gekriegt habe. Die mit Abstand am häufigsten gestellte Frage, die mich erreicht hat, war die nach einer kurzen Beschreibung meines Techstacks, bzw. einer verallgemeinerten kurzen Beschreibung, wie man technisch an sowas herangeht. Also gibt es hierfür vorweg mal einen eigenen Blogpost. Ich unterteile die vier Phasen Download, Parsing, Zusammenführung, und zum Schluss die Analyse an sich. Alsdann:
Wahl-O-Mat-Auswertung Bundestagswahl 2017, Teil 2: Thesen- und Parteienverwandtschaften
Heute geht es noch mal ein bisschen um den Wahl-O-Mat. Wie letztes mal werte ich die Parteien nach ihren Antworten auf die Wahl-O-Mat-Thesen aus, aber diesmal rendere ich daraus keine Landkarte, sondern eine Cluster Heatmap. Diese Art der Grafik ist etwas komplexer. Dafür ist sie sehr Informationstragend. Ich präsentiere sie wieder zuerst, und danach führe ich euch schrittweise heran. Wie immer könnt ihr die Grafik zum Vergrößern klicken.
Auswertung des Bundestags-Wahl-O-Mats 2017 zu einer Parteienlandkarte
Jeder kennt von euch sicherlich den Wahl-O-Mat. Man bekundet seine Zustimmung oder Ablehnung gegenüber verschiedenen Thesen. Das machen auch die Parteien, die sich zur Bundestagswahl stellen. Und daran, wie ähnlich oder unähnlich die eigenen Antworten zu den Antworten der Parteien sind, kriegt man dann Parteien zur Wahl empfohlen.
Das ermöglicht aber auch, die Antworten aller Parteien abzusaugen und gegeneinander auszuwerten. Heraus kommt die folgende Landkarte. Ähnliche Parteien sind miteinander verbunden. Je ähnlicher, desto stärker sind sie verbunden, und desto näher liegen sie beieinander.
Und siehe da, die politischen Richtungen von Links nach Rechts haben sich ganz von alleine ungefähr herauskristallisiert (ich musste die Karte nur noch drehen, so dass Links auch Links und Rechts Rechts ist). Siehe hierzu aber auch einen Edit am Schluss.
Ihr könnt den Graph nutzen, um jetzt auch die kleineren Parteien zu verorten, von deren Existenz ihr vielleicht noch gar nichts wusstet. Interessant ist auch, dass man deutlich sieht, wie sich eine sehr stark verbundene, weil sehr homogene Gruppe aus anscheinend linken Parteien herauskristallisiert hat.
Bild klicken zum Vergrößern. Die Größe der Parteien ist übrigens proportional zu deren Umfragewerten zum Erstellzeitpunkt des Artikels, wobei ich die Kleinstparteien aber hart auf 2% gesetzt habe, damit man die besser sieht.
Im Rest des Artikels findet ihr ein paar Informationen zur Methodik und warum die Landkarte mit Vorsicht zu genießen ist.
SpiegelMining: Rubriken, Unterrubriken, Themen, Keywords. Wie SpiegelOnline seine Artikel verdrahtet
Willkommen zu unserer vierten Runde SpiegelMining! Heute fangen wir an, uns der tatsächlichen, inhaltlichen Thematik der Artikel zu nähern. Wir werden gleich mehrere neue Merkmale aus den Artikeln erfassen. Damit werden wir erforschen, wie SpiegelOnline seine Artikel thematisch einordnet. Wir werden sehen, dass SpiegelOnline mehrere Arten der thematischen Sortierung hat.
In den letzten Artikeln hatten wir ja schon einiges an Aufbauarbeit geleistet und verschiedene Artikel-Merkmale betrachtet. Im ersten Artikel gab es eine Betrachtung von Rubriken, Veröffentlichungszeitpunkten und Textlängen. Im zweiten Artikel haben wir die beteiligten Autoren und Nachrichtenagenturen hinzugenommen und gelernt, wie man Beziehungen unter den Autoren visualisieren kann. Wir hatten uns beim Parsen darüber geärgert, dass die in den Artikeln nicht immer an der gleichen Stelle standen. Im dritten Artikel haben wir dann gemerkt, dass die verschiedenen Plätze, an denen die Autoren in den Artikeln stehen können, ein Ausdruck vom Zweiklassensystem der Artikel bei SpiegelOnline sind.
Die thematische Betrachtung, die wir heute anfangen, wird stark über die reine Betrachtung neuer Merkmale hinausgehen. Ich versuche ja neben den Spiegelforschungen immer, euch ein wenig mit auf die Reise der Data Science und der Visualisierung zu nehmen. Darum werden wir heute versuchen, auf den neuen thematischen Merkmalen Auswertungen zu fahren und daraus Visualisierungen zu erstellen. Dabei werden wir auf Schwierigkeiten stoßen, die sich ganz naturgemäß bei solcher Art Daten ergeben.
Nachdem wir dann ein Gefühl für die Sortierungsmerkmale und die Schwierigkeiten bekommen haben, werden wir die Schwierigkeiten im nächsten Artikel umschiffen. Dieser Artikel bildet also mit dem nächsten eine Einheit. Alles zusammen wäre für einen einzigen Artikel etwas viel gewesen. Auch Nichtinformatiker sollen das noch verdauen können.
In diesem und dem nächsten Artikel zusammen werden wir auch lernen, worauf man achten muss, wenn man über eine riesige und extrem komplexe Datenmenge einen Graphen der Themen rendern will – ähnlich zu dem Graphen, der damals das soziale Netz der Spiegel-Autoren dargestellt hat. Nur viel, viel, viel größer.