News

Ein kleiner Technologiestack für DataScience-Heimprojekte

Ich bin jetzt ziemlich weit damit, den Mailhaufen abzuarbeiten, den ich im Nachgang zu meinem BahnMining-Vortrag gekriegt habe. Die mit Abstand am häufigsten gestellte Frage, die mich erreicht hat, war die nach einer kurzen Beschreibung meines Techstacks, bzw. einer verallgemeinerten kurzen Beschreibung, wie man technisch an sowas herangeht. Also gibt es hierfür vorweg mal einen eigenen Blogpost. Ich unterteile die vier Phasen Download, Parsing, Zusammenführung, und zum Schluss die Analyse an sich. Alsdann:

Video und Folien meines 36C3-Vortrags "BahnMining"

Dieser Post enthält das Material zu meinem Vortrag „Bahnmining – Pünktlichkeit ist eine Zier“ vom 36. Communication Congress. Ich muss sagen, dass die Erfahrung dermaßen intensiv war, dass ich das selbst erstmal verdauen muss, und das meine ich ganz positiv. Felix unterstellt hier, dass ich sichtlich gerührt gewesen sei, und das trifft vollumfänglich zu.

Wir hatten den fettesten Saal mit Platz für 5000 Leute, der war komplett voll, und die Stimmung war herrlich. Der Gänsehautmoment für mich persönlich waren in Wirklichkeit zwei: Als ich beim Schlusswort war, war es im Saal so still, man hätte eine Stecknadel fallen hören können. Wow. Und als sich nach Ende des Vortrags die Leute von ihren Sitzen erhoben, musste ich echt schlucken. Danke, danke, danke. Once in a lifetime experience.

Danke auch noch mal an die Leute vom Congress, die den besten und professionellsten Service liefern, den ich je bei einer Konferenz erlebt habe – von Sälen über Technik über Simultanübersetzungsteams bis hin zu sofort-Liveübertragung draußen vor dem Saal, als der wegen Überfüllung dichtgemacht werden musste. Respekt.

Ich habe noch verschiedenste Fragen aus dem Chat vom CCC gemailt bekommen, die es nicht mehr in die Livesendung gepackt haben. Sobald ich Zeit habe, versuche ich einen Blogpost mit Antworten nachzuschieben, sofern technisch und mathematisch möglich. Ich versuche auch, auf die Mails zu antworten, die reingekommen sind, bitte seht mir nach, wenn es etwas dauert.

Hier noch eine Presseschau (lange nicht erschöpfend und da kommen grade diverse nach, ich werde das aber nicht schaffen, alles nachzuhalten): SpiegelOnline, FAZ, Heise, Golem, Zeit.

Zum Material:

  • Hier gibt es die Vortragsfolien als PDF (5.3 MB). Ich habe zwei kleine Fehler direkt korrigert. Zum einen hat ein Pfeil nicht auf Leipzig, sondern auf Riesa gezeigt. Mea Culpa. Ich war schon immer schlecht in Geographie. Zum andern hatte ich mich am Anfang verklickt beim Zählen der Stops pro Bahnhof, ist jetzt auch korrigiert ich habe die Folie jetzt nochmals bearbeitet und gegen Fernverkehrszahlen ausgetauscht, weil ich so einen Didaktikbruch einsparen kann, denn der Rest des Vortrags geht nun mal um Fernverkehr. DANKE an alle, die das gemailt haben (und weiterhin mailen, denn die meisten gucken den Vortrag auf YouTube und sehen diesen Hinweis nicht :-))!
    • Liebe Medienvertreter, aus gegebenem Anlass: Um meine Vorträge ansprechend zu halten, habe ich sehr wenig Text in meinen Folien (man kann entweder Folien lesen, oder mir zuhören). Darum: Es gilt das gesprochene Wort! Wer weder die Zeit für ein Interview aufbringen will, noch 45 Minuten Vortrag zu hören bereit ist, braucht aus meiner Sicht auch nicht darüber berichten. Beispiel: Hört mal genau nach, ob die in den Folien angegebene Requestanzahl real war, oder ob ich daran demonstriert habe, wie man es nicht macht. ;-)
  • Hier könnt ihr wieder Feedback zum Vortrag geben! – Ich würde mich freuen. Achtung: Das sind keine Schulnoten, 5 ist das beste, 1 ist das schlechteste.
  • Der Originalmitschnitt des Vortrages auf media.ccc.de (nutzt den wann immer möglich, der CCC betreibt extra eine eigene Infrastruktur dafür, die nicht abhängig von Google ist).

Und hier die deutsche Youtube-Version im deutschen Originalton direkt eingebettet (war eigentlich die CCC-Version, die zerhaut mir aber das Layout):

Hier noch die Liste an Fragen, die der Signal-Angel meines Vortrages mir auf den Weg gegeben hat:

  1. Möglichkeit der Korrelation von ausgefallenen/verspäteten Stops und Sparpreis-Preisen? Kann ich leider nicht machen, weil ich die Preise nicht habe. Wäre aber interessant :-)
  2. Sind die langstrecken-Fremdanbieter , bspw. #flixtrain, nicht in der IC-Aufstellung enthalten? Nach meiner Kenntnis nein. Die ICs sind explizit ICs.
  3. Es gibt immer wieder Gerüchte, dass Reisende in einem verspäteten Zug sitzen, der DB-Navigator jedoch Pünktlichkeit anzeigt. Hast Du mal stichprobenartig untersucht, ob die von der DB herunter geladenen Daten auch mit der Realität überein stimmen? Stichprobenartig ja. Ich bin in 2019 häufiger auf den verschiedensten Strecken Bahn gefahren und habe diese Fahrten natürlich in der Datenbank angeguckt. Für diese war sie akkurat.
  4. Für den Fahrgast ist ja auch wichtig, Anschlüsse zu kriegen. Geben verfügbare Daten eine Auswertebasis für Verbindungen mit Umsteigen? Indirekt. Man könnte eine generelle Anschlussimulation fahren, indem man guckt, wieviele der züge z.B. in der nächsten halben Stunde nach geplanter Ankunft hätten erreicht werden können. Aber so richtig gut geht das nur, wenn man Passagierdaten hat, die ich leider nicht habe.
  5. Im Ruhrgebiet passiert es schon mal, dass eine verspätete S-Bahn einige Bahnhöfe überspringt, um Zeit aufzuholen. Wie würde man sowas statistisch messen? Ähnlichwie bei der Scheuerwende. Hier kam es darauf an, Serien von fehlenden Halten am Anfang / Ende einer Fahrt zu ausfindig zu machen und zu messen. Das Muster hier wäre ebenfalls sehr charakteristisch: Ausgefallene Halte irgendwo in der Mitte einer Fahrt, und dann gehts wieder weiter.
  6. Die Schweizer Bahn lässt ICEs mit einer gewissen Verspätung nicht mehr ins Land, also nach Interlaken. Wie gross ist da der Beitrag zu den prinzipiellen ICE Ausfällen? Keine Ahnung, ich habe keine Daten aus der Schweiz, und auf dem letzten Deutschen Bahnhof wird der Zug ja noch ankommen, das ist also kein Ausfall.
  7. Ist bekannt, wie viel Prozent der Verspätung im Nahverkehr wirklich Bahnverschuldet sind? Mit der Frage meine ich, wie viel denn Kundenverschuldet sind. Also durch türe offen halten oder ähnliches? Es gibt APIs, über die man auch Verspätungsgründe abrufen kann, das habe ich aber nicht gemacht.
  8. Hast du auch Daten bzgl. Fahrgastzahlen in einzelnen Zügen auswerten können? Nein, ich habe leider keine Fahrgastdaten.

Video und Folien meines 33C3-Vortrags "SpiegelMining"

Dieser Post enthält das Material zu meinem Vortrag „SpiegelMining – Reverse Engineering von SpiegelOnline“ vom 33. Communication Congress. Aber erstmal vorweg: DANKE für die wieder unglaublich krasse Menge an Feedback! Ist wieder der Hammer. Es tut mir übrigens leid, dass so viele nicht mehr in den Raum gekommen sind – aber der Saal war leider bereits 20 Minuten vor Beginn komplett voll, und der CCC steht hier leider auch nicht über dem Brandschutz. Sorry. :-( Ich habe gehört, dass die Leute draußen dann spontan ein Public Viewing auf größeren Bildschirmen auf die Beine gestellt haben. Coole Aktion, das ist das, was den Congress ausmacht! Ich hoffe, es war dann trotzdem okay und keiner wurde enttäuscht.

Es sind drölfzig Mails mit diversen Auswertungsvorschlägen alleine in der ersten Nacht eingegangen. Ich werde auch auf jede antworten, bin aber noch nicht zum Lesen gekommen wegen des ganzen Feedbacks, dass ich hier vor Ort noch kriege. Und: Im Unterschied zum letzten mal ist mir auch dieses mal nicht die Seite mitten im Vortrag weggebrochen (ich habe im März die Infrastruktur ziemlich aufgerüstet). 8-) Sehr schön. Zum Material:

Und hier nun der Mitschnitt im deutschen Originalton direkt eingebettet. Interessanterweise ist der Vortrag gleich wieder mehrfachst auf YouTube, und es gibt Versionen, die deutlich mehr Klicks haben als die Originalversion vom CCC 8-O – ich nehme also hier mal aus Prinzip die vom CCC.

Video meines Xerox-Vortrags auf dem 31C3

Hier ist der Youtube-Videomitschnitt meines Vortrags „Glaube keinem Scan, den du nicht selbst gefälscht hast“ auf dem 31. Chaos Communication Congress (31C3). Die Deutsche Version ist unten eingebettet. Achtung: Im ersten Video des CCC fehlte diese Passage, die quasi den Spannungshöhepunkt darstellte. In den neuen, hier verlinkten Videos ist die Passage drin.

Auf den Videos sieht man auch, wie unheimlich gut die Stimmung war! Ich musste selbst ungehörigerweise immer wieder lachen. Das lag auch daran, dass jemand in der ersten Reihe die ganze Zeit unglaublich ansteckend gelacht hat, da fällt es dann auch schwer, ernst zu bleiben, zumal mir der Vortrag auch Spaß gemacht hat. Seid mir also gnädig. 8-) Es folgt noch etwas mehr Material:

Hier gibt es auch noch mehrere Links auf die Artikel zur Obamasache von den Leuten von Reality Check, die ich im Vortrag erwähnt hatte. Die haben das aber technisch viel netter auseinandergenommen als ich im Vortrag konnte (bei mir war es ja auch nicht Primärthema). Viel Spass :-)