News

SpiegelMining: Wer, wann, was, mit wem? Das soziale Netz der SpiegelOnline-Redakteure

Ihr habt bestimmt schon mal beobachtet, dass es im Internet immer genau dann besonders knusprig wird, wenn personenbezogene Daten ins Spiel kommen 8-). Diesem Umstand eingedenk fügen wir unserem SpiegelMining heute die Autoren eines jeden Artikels hinzu. Und dazu führen wir auch gleich noch eine weitere, sehr schöne Art der graphischen Darstellung ein. Ob sich daraus auch überraschende Erkenntnisse ergeben – ihr dürft gespannt sein.

Was bisher geschah: Im letzten Artikel zum Thema haben wir gelernt, wie ich über die letzten 2 Jahre über 70.000 Artikel von SpiegelOnline heruntergeladen habe und nun auswerte. Wir haben besprochen, dass wir aus den Artikeln Merkmale zum Auswerten herausziehen. Letztes mal waren das erstmal einfache Merkmale: Der Erscheinungszeitpunkt eines Artikels, dessen Rubrik und seine Textlänge. Bereits durch das Nebeneinanderhalten und Aufplotten dieser einfachen Merkmale sind wir auf Systematiken gestoßen, die für den einen oder anderen überraschend waren – nämlich, dass SpiegelOnline nach einem offensichtlich festen System lange und kurze Artikel nach Tageszeiten ordnet.

Dies ist erst der zweite Artikel, also bauen wir immer noch langsam unser grundlegendes Auswertungsgebäude auf, von dem wir später bei weiteren Auswertungen zehren werden. Obwohl wir alles noch aufbauen, wird es wie im letzten Artikel auch hier wieder ein paar Resultate geben, sonst macht es ja auch keinen Spaß.

Ich versuche ja immer, euch zumindest auf oberflächliche Weise auch ein bisschen am Technikteil teilhaben zu lassen. Also gibt es vor den eigentlichen Ergebnissen zunächst noch ein paar Anekdötchen des Auswertevorgangs selbst, damit ihr wisst, wie sowas grundlegend ablaufen kann.

SpiegelMining. Auch Spiegelredakteure feiern Weihnachten. Eine Analyse von 70.000 SpiegelOnline-Artikeln

Seit Mitte 2014 habe ich mehr als 70.000 Artikel von SpiegelOnline systematisch gespeichert. Jeden Tag kommen im Schnitt 100 dazu. Diese Artikelmasse werden wir in der nächsten Zeit auswerten und erforschen. Was herauskommt, ist eine tiefgreifende Analyse des Publikationsverhaltens des vielleicht größten Meinungsmachers Deutschlands.

Ich werde über die nächste Zeit in einer losen Blogartikel-Serie unter dem Namen SpiegelMining etwas greifbarer machen, wie SpiegelOnline funktioniert. Geplant ist ein SpiegelMining-Artikel alle zwei bis drei Wochen, bitte seid mir aber nicht böse, wenn das leicht variiert. Vielleicht finden wir sogar ein paar Sachen heraus, bei denen auch die Kollegen von SpiegelOnline zugeben müssen: „krass, das war nicht mal uns selbst so klar“. Zusätzlich werde ich verschiedene Methoden des Daten-Auswertens anhand des SpiegelOnline-Datensatzes plausibel, anschaulich und interessant machen – und zwar auch für Nicht-Informatiker.

Bei einigen der Auswertungen wird vielleicht „nur“ das rauskommen, was man sich schon vorher denken konnte. Bei anderen werden wir überraschende Ergebnisse erhalten. Und manchmal entdeckt man auch Systematiken da, wo man vielleicht überhaupt keine erwartet hat – ein Beispiel dafür findet sich schon in diesem Blogartikel.

Beef Ribs, 6 Stunden im Smoker

Es wird mal wieder Zeit für ein Grillrezept hier. Da bietet es sich natürlich an, dass ich einen ProQ Excel 20 Räuchergrill zum Geburtstag bekommen habe, nebst einigen weiteren Utensilien dafür (hitzefeste Handschuhe und ein Buch übers Smoken). Ein besonderes Grillgericht, was ich schon lange mal machen wollte, sind Rippchen – aber vom Rind!

Der ProQ Excel 20 ist ein Water Smoker (mancherorts auch Vertikalsmoker genannt). Die besondere Stärke an Water Smokern ist, dass dort über dem Platz für die Kohle ein sehr großes Wasserbecken eingelassen ist. Dies wirkt als Temperatur-Tiefpaßfilter und ermöglicht so ein fast gradgenaues Halten der Temperatur über viele, viele Stunden hinweg. Das erlaubt Gerichte wie Pulled Pork oder Beef Brisket, die zwölf Stunden und mehr gesmoked werden müssen, einfach über Nacht, ohne dass man andauernd aufstehen muss (huhu, Volker! 8-) *wink*).

Das Wasser sorgt gleichzeitig dafür, dass das Grillgut nicht austrocknet und der Rauch gut eindringt. Alternativ kann man die Wanne auch mit Sand füllen, da muss man dann auch nicht drauf achten, dass er irgendwann verdampft ist (wenn das beim Wasser passiert, steigt die Temperatur sofort merklich). Was man nimmt, ist je nach Gericht verschieden. Aber genug zu den Vertikalsmoker-Technicals (eine nette Übersicht findet sich übrigens hier), kommen wir zu den Rippchen.

BSI überarbeitet Richtlinie RESISCAN, verbietet JBIG2

Im Nachgang zur Xerox-Saga und meinem 31C3-Vortrag überarbeitet das Bundesamt für Sicherheit in der Informationstechnik seine Richtlinie zum „Ersetzenden Scannen“ (= Rechtssicheres Scannen von Dokumenten unter Vernichtung der Originale). Vorab ist gestern einer der Kernpunkte der Überarbeitung auf der RESISCAN-Webseite des BSI erschienen. Ich zitiere:

Bei der Umsetzung der TR-RESISCAN ist hinsichtlich der Auswahl geeigneter Kompressionsverfahren folgende Regelung zu beachten:

  • Beim Scannen MUSS auf die Auswahl geeigneter Bildkompressionsverfahren geachtet werden.
  • Als grundsätzlich geeignet werden sowohl verlustfreie als auch verlustbehaftete Verfahren angesehen.
  • Verfahren, die zur Bildkompression die sog. „Pattern Matching & Substitution“ - Vorgehensweise nutzen, DÜRFEN NICHT eingesetzt werden. Auch das verwandte „Soft Pattern Matching“ DARF NICHT eingesetzt werden.

[…] Diese Regelung ist ab sofort (16.03.2015) gültig und wird mit dem nächsten Release in die Technische Richtlinie BSI TR-03138 aufgenommen.

Pattern Matching & Substitution ist die Standardvorgehensweise bei lossy JBIG2, und Soft Pattern Matching die bei lossless JBIG2 (Infos hier oder in den Veröffentlichungen von Paul Howard et al.1)). Es werden also sowohl die verlustfreie, als auch die verlustbehaftete Variante des verbreiteten JBIG2-Formats „verboten“. Im JBIG2-Standard heißt das ganze „Symbol Matching“.

Den ein oder anderen Leser mag es überraschen, dass auch Seiten, die mit lossless JBIG2 komprimiert wurden, nun plötzlich nicht mehr rechtssicher sein sollen. Immerhin ist es doch schon etwas wert, wenn mittels lossless JBIG2 sichergestellt ist, dass sich die Bilddaten nicht verändern. Die Krux liegt hier in der rechtlichen Praxis:

1)
vgl. z.B. Howard, P.G.; Kossentini, F.; Martins, B.; Forchhammer, S.; Rucklidge, W.J., „The emerging JBIG2 standard“, IEEE Transactions on Circuits and Systems for Video Technology, vol.8, no.7, pp.838,848, Nov 1998, doi: 10.1109/76.735380.