News
SpiegelMining: Rubriken, Unterrubriken, Themen, Keywords. Wie SpiegelOnline seine Artikel verdrahtet
Willkommen zu unserer vierten Runde SpiegelMining! Heute fangen wir an, uns der tatsächlichen, inhaltlichen Thematik der Artikel zu nähern. Wir werden gleich mehrere neue Merkmale aus den Artikeln erfassen. Damit werden wir erforschen, wie SpiegelOnline seine Artikel thematisch einordnet. Wir werden sehen, dass SpiegelOnline mehrere Arten der thematischen Sortierung hat.
In den letzten Artikeln hatten wir ja schon einiges an Aufbauarbeit geleistet und verschiedene Artikel-Merkmale betrachtet. Im ersten Artikel gab es eine Betrachtung von Rubriken, Veröffentlichungszeitpunkten und Textlängen. Im zweiten Artikel haben wir die beteiligten Autoren und Nachrichtenagenturen hinzugenommen und gelernt, wie man Beziehungen unter den Autoren visualisieren kann. Wir hatten uns beim Parsen darüber geärgert, dass die in den Artikeln nicht immer an der gleichen Stelle standen. Im dritten Artikel haben wir dann gemerkt, dass die verschiedenen Plätze, an denen die Autoren in den Artikeln stehen können, ein Ausdruck vom Zweiklassensystem der Artikel bei SpiegelOnline sind.
Die thematische Betrachtung, die wir heute anfangen, wird stark über die reine Betrachtung neuer Merkmale hinausgehen. Ich versuche ja neben den Spiegelforschungen immer, euch ein wenig mit auf die Reise der Data Science und der Visualisierung zu nehmen. Darum werden wir heute versuchen, auf den neuen thematischen Merkmalen Auswertungen zu fahren und daraus Visualisierungen zu erstellen. Dabei werden wir auf Schwierigkeiten stoßen, die sich ganz naturgemäß bei solcher Art Daten ergeben.
Nachdem wir dann ein Gefühl für die Sortierungsmerkmale und die Schwierigkeiten bekommen haben, werden wir die Schwierigkeiten im nächsten Artikel umschiffen. Dieser Artikel bildet also mit dem nächsten eine Einheit. Alles zusammen wäre für einen einzigen Artikel etwas viel gewesen. Auch Nichtinformatiker sollen das noch verdauen können.
In diesem und dem nächsten Artikel zusammen werden wir auch lernen, worauf man achten muss, wenn man über eine riesige und extrem komplexe Datenmenge einen Graphen der Themen rendern will – ähnlich zu dem Graphen, der damals das soziale Netz der Spiegel-Autoren dargestellt hat. Nur viel, viel, viel größer.
SpiegelMining: Kassen- und Privat-Artikel. Das Zweiklassensystem von SpiegelOnline
Im letzten Artikel hatten wir uns gewundert, dass bei manchen Spiegelartikeln die Autorennamen ausgeschrieben unter dem Titel zu finden sind und andere Artikel nur eine Kürzelliste unten am Ende haben. Diesem Phänomen rücken wir heute zu Leibe, denn es gibt dahinter einen – für mich überraschenden – Sinn. Eigentlich wollte ich heute über was anderes schreiben, aber das gibt es dann nächstes mal.
Was bisher geschah: Das hier ist der dritte Artikel meiner Serie „SpiegelMining“. Im ersten Artikel haben wir gelernt, wie ich über die letzten 2 Jahre über 70.000 Artikel von SpiegelOnline heruntergeladen habe und nun auswerte. Wir hatten Zusammenhänge zwischen Erscheinungszeitpunkt Rubrik Textlänge gefunden. Im zweiten Artikel haben wir die Autoreninformationen zu jedem Artikel hinzugezogen, das soziale Netzwerk zwischen den Autoren errechnet und analysiert.
Ich hatte mich beim Parsen der Autoren-Informationen rechtschaffen darüber geärgert, dass die Autoren zu den Artikeln manchmal ausgeschrieben direkt unter dem Titel stehen, und sehr oft einfach in einer kursiv geschriebenen Zeile unter dem Haupttext. Stehen die Autoren unten, sind sie auch meist nicht ausgeschrieben, sondern in Kürzeln verschleiert. Das hat mir wirklich Arbeit gemacht. Damit wir wieder reinkommen, wiederhole ich die zwei Beispiele aus dem letzten Artikel:
SpiegelMining: Wer, wann, was, mit wem? Das soziale Netz der SpiegelOnline-Redakteure
Ihr habt bestimmt schon mal beobachtet, dass es im Internet immer genau dann besonders knusprig wird, wenn personenbezogene Daten ins Spiel kommen . Diesem Umstand eingedenk fügen wir unserem SpiegelMining heute die Autoren eines jeden Artikels hinzu. Und dazu führen wir auch gleich noch eine weitere, sehr schöne Art der graphischen Darstellung ein. Ob sich daraus auch überraschende Erkenntnisse ergeben – ihr dürft gespannt sein.
Was bisher geschah: Im letzten Artikel zum Thema haben wir gelernt, wie ich über die letzten 2 Jahre über 70.000 Artikel von SpiegelOnline heruntergeladen habe und nun auswerte. Wir haben besprochen, dass wir aus den Artikeln Merkmale zum Auswerten herausziehen. Letztes mal waren das erstmal einfache Merkmale: Der Erscheinungszeitpunkt eines Artikels, dessen Rubrik und seine Textlänge. Bereits durch das Nebeneinanderhalten und Aufplotten dieser einfachen Merkmale sind wir auf Systematiken gestoßen, die für den einen oder anderen überraschend waren – nämlich, dass SpiegelOnline nach einem offensichtlich festen System lange und kurze Artikel nach Tageszeiten ordnet.
Dies ist erst der zweite Artikel, also bauen wir immer noch langsam unser grundlegendes Auswertungsgebäude auf, von dem wir später bei weiteren Auswertungen zehren werden. Obwohl wir alles noch aufbauen, wird es wie im letzten Artikel auch hier wieder ein paar Resultate geben, sonst macht es ja auch keinen Spaß.
Ich versuche ja immer, euch zumindest auf oberflächliche Weise auch ein bisschen am Technikteil teilhaben zu lassen. Also gibt es vor den eigentlichen Ergebnissen zunächst noch ein paar Anekdötchen des Auswertevorgangs selbst, damit ihr wisst, wie sowas grundlegend ablaufen kann.
SpiegelMining. Auch Spiegelredakteure feiern Weihnachten. Eine Analyse von 70.000 SpiegelOnline-Artikeln
Seit Mitte 2014 habe ich mehr als 70.000 Artikel von SpiegelOnline systematisch gespeichert. Jeden Tag kommen im Schnitt 100 dazu. Diese Artikelmasse werden wir in der nächsten Zeit auswerten und erforschen. Was herauskommt, ist eine tiefgreifende Analyse des Publikationsverhaltens des vielleicht größten Meinungsmachers Deutschlands.
Ich werde über die nächste Zeit in einer losen Blogartikel-Serie unter dem Namen SpiegelMining etwas greifbarer machen, wie SpiegelOnline funktioniert. Geplant ist ein SpiegelMining-Artikel alle zwei bis drei Wochen, bitte seid mir aber nicht böse, wenn das leicht variiert. Vielleicht finden wir sogar ein paar Sachen heraus, bei denen auch die Kollegen von SpiegelOnline zugeben müssen: „krass, das war nicht mal uns selbst so klar“. Zusätzlich werde ich verschiedene Methoden des Daten-Auswertens anhand des SpiegelOnline-Datensatzes plausibel, anschaulich und interessant machen – und zwar auch für Nicht-Informatiker.
Bei einigen der Auswertungen wird vielleicht „nur“ das rauskommen, was man sich schon vorher denken konnte. Bei anderen werden wir überraschende Ergebnisse erhalten. Und manchmal entdeckt man auch Systematiken da, wo man vielleicht überhaupt keine erwartet hat – ein Beispiel dafür findet sich schon in diesem Blogartikel.