Alle Beiträge von Andreas Heß

Riesige Text- oder XML-Dateien zerteilen mit Python

Manchmal ist es einfacher, große Datenmengen nicht auf einmal zu verarbeiten, sondern sie zuerst in kleine Stücke zu zerteilen. Ein Beispiel, das eine Teilung notwendig macht, ist das Umwandeln von XML mit XSLT, das bei sehr großen Dateien zu viel Speicher beansprucht.

Das Unix-Kommando split kann große Textdateien in kleine zerlegen, aber für manche Anwendungsfälle wie die Teilung von sehr großen XML-Dateien ist das nicht ausreichend. Es gelten dabei folgende Anforderungen:

  • Die Trennung darf nur an bestimmten Stellen erfolgen (d.h. zumeist hinter bestimmten schließenden XML-Tags).
  • Aber nicht an jeder dieser möglichen Trennstellen muss auch tatsächlich getrennt werden.
  • Ein Header/Footer (mit äußeren XML-Tags) muss in jedem Teil erhalten bleiben bzw. kopiert werden.

Das split-Kommando ist dafür zu unflexibel, da es entweder nach einer bestimmten Anzahl Zeilen oder an definierten Trennstellen teilt, aber keine Kombination aus beidem zulässt und außerdem die automatische Übernahme von Kopf- und Fußzeilen nicht zulässt.

Folgendes Python-Skript erledigt den Job (getestet mit Python 3.6):

Riesige Text- oder XML-Dateien zerteilen mit Python weiterlesen

Solr Highlighting geht nicht?

Offenbar war ich zu doof, Solr mit einem ganz einfachen Beispiel zu bedienen, deswegen für mich (und vielleicht für andere, die sich auch für zu doof halten) eine kleine Notiz, was zu tun ist, wenn das Highlighting (in meinem Fall in Solr 6.6.0) zwar im „techproducts“-Beispiel wunderbar funktioniert, mit einem eigenen Korpus aber nicht:

Wenn man eigene Dokumente importiert und sich dabei auf die Standardkonfiguration und darauf, dass die Felder automatisch angelegt werden, verlässt, sind der Field Type für diese Felder möglicherweise auf „StrField“ (anstatt auf „TextField“) und die Optionen auf „Omit Term Frequencies & Positions“ (was für alles außer Text Standard ist) gesetzt. Die Suche an sich funktioniert dann ganz normal, ein bei der Query eingeschaltetes Highlighting liefert dann in der Antwort zwar eine Highlighting-Sektion, aber nur mit den IDs, ohne Text mit Hervorhebungen.

Mögliche Lösung: Die Felder, für die später Highlighting funktionieren soll, von Hand anlegen (geht auch im Admin-Interface unter Schema / Add Field) und dabei auf den korrekten Field Type und darauf, dass die Omit-Options nicht aktiv sind, achten. Eventuell sollte man in Betracht ziehen, die Optionen termPositions=true und termOffsets=true zu aktivieren. Siehe dazu die SchemaXml-Doku.

Bei der Abfrage ist dann hl=on und hl.fl=[Der Name des eben angelegten Feldes] anzugeben. Das kann man bei Bedarf auch in der solrconfig.xml aufnehmen, wenn es dauerhaft aktiv sein soll.

Manchmal (!) klappt das Highlighting auch nur, wenn in der Query nicht einfach nur q=Suchbegriffe, sondern ausdrücklich q=[Feldname:Suchbegriffe] angegeben ist. Da bin ich mir jetzt aber wirklich nicht sicher, ob das nicht doch ein Bug ist.

Mit dem *neuen* E-Bike nach Furtwangen

tl;dr: Zuerst schreibe ich ein wenig über mein neues E-Bike und danach stelle ich noch Tourenvorschläge um Furtwangen vor.

Nach vielen Fahrten mit meinem E-Bike in und um Furtwangen und – zwecks Fahrradtransport – von und zu den Bahnhöfen um Furtwangen hat sich leider herausgestellt, dass mein Pedelec, welches eher unter der Klasse „City-Bike“ verkauft wird, nicht schwarzwaldfest ist, sobald man die geteerten Straßen verlässt und über Waldwege unterwegs ist. Es kam also wie es kommen musste: Bei der Abfahrt über einen Schotterweg im Wald – der in diversen Karten als offizieller Radweg gekennzeichnet ist (!) – kam das Hinterrad bei etwas höherer Geschwindigkeit ungünstig gegen einen Stein, was hernach zu einem Platten und einem Achter führte. Da ich ja zudem, wie man so sagt, multilokal wohne, war der Plan klar: Das alte Rad sollte repariert werden und als Stadtfahrrad nach Frankfurt kommen und für Furtwangen musste ein neues Rad her. Ein reinrassiges E-Mountainbike wäre für Ausfahrten im Wald zwar am besten geeignet gewesen, war für mich aber mangels Licht und Gepäckträger nicht praxistauglich. Also war das, was ich wollte, ein Trekking-Rad. Außer breiteren Reifen sollte es noch ein stärkerer Motor sein. Da eine normale Nabenschaltung die kombinierte Kraft des Radfahrers und stärkeren Motors nicht mehr vernünftig übertragen kann, kommt dann nur eine Kettenschaltung, ein stufenloses Getriebe oder eine Rohloff Speedhub in Frage. Mein Wahl fiel letzlich auf das Charger GT nuvinci von Riese & Müller.

Riese & Müller Charger GT
Riese & Müller Charger GT

Das Charger wird auch als schnelles Pedelec in einer 45 km/h-Version angeboten, aber aus den bekannten Gründen sollte es wieder ein 25 km/h-E-Bike sein. Das Charger kommt mit dem Mittelmotor Bosch Performance CX. Am Berg soll Berichten nach die NuVinci®-Schaltung zwar wegen eines leicht schlechteren Wirkungsgrads und weniger weitem Übersetzungsbereich im Nachteil sein, allerdings ist der Komfort der Stufenlosigkeit nicht zu unterschätzen, ebensowenig die Tatsache, dass man die Schaltung sowohl belastet als auch unbelastet schalten kann. In Verbindung mit dem stärkeren Motor führt der geringere Wirkungsgrad zu etwas geringerer Akkulaufzeit, weswegen der größere 500 Wh-Akku angezeigt ist.

Mit dem *neuen* E-Bike nach Furtwangen weiterlesen

Datenbanken, Teil 2: Das Entity-Relationship-Modell

Im ersten Teil der Serie haben wir festgestellt, dass der Einsatz von Datenbanken eine gute Sache ist, da sich der Entwickler nicht mehr mit den Grundfunktionen der Datenspeicherung befassen muss. Allerdings konnten wir auch schon erkennen, dass eine sinnvolle Datenmodellierung essenziell ist. Oder anders gesagt:

One does not simply create a database

Bevor ein sinnvoller Datenbankentwurf beginnen kann, ist es zunächst entscheidend, sich über den Ausschnitt der realen Welt, der abgebildet werden soll, im Klaren zu sein. Dazu empfiehlt sich das von Peter Chen 1976 vorgestellte Entity-Relationship-Modell, das Entitäten, also Dinge der realen Welt, ihre Eigenschaften und Beziehungen zwischen diesen beschreibt. In diesem Artikel werden wir uns mit den Grundlagen dieses Modells beschäftigen. Im Lehrbuch von Kemper und Eickler wird das Entity-Relationship-Modell in Kapitel 2 besprochen.

Da die eigentliche Datenspeicherung in den gängigen DBMS allerdings nach dem relationalen Modell, also in Tabellenform, erfolgt, müssen wir uns auch damit beschäftigen, wie man ein Entity-Relationship-Modell in das relationale Modell umwandelt. Dies ist in vielen Fällen recht umkompliziert und führt zu guten Datenbankschemata, die die im ersten Artikel der Serie beleuchteten Probleme wie Redundanzen nicht aufweisen.

Datenbanken, Teil 2: Das Entity-Relationship-Modell weiterlesen

Dagebüll, Niebüll und das Sylt Shuttle plus

Letztes Jahr war ich auf einen Kurzurlaub im hohen Norden der Republik. Dabei sind ein paar Fotos entstanden, die ich (komplett ohne aktuellen Anlass) im Blog zeigen möchte.

628 der neg in Dagebüll Mole
628 der neg an der Mole in Dagebüll

Die Norddeutsche Eisenbahngesellschaft Niebüll (neg), die inzwischen eine Tochter der luxemburgischen Staatsbahn CFL ist, betreibt die Strecke und die Züge von Niebüll an der „Marschbahn“ Hamburg-Westerland nach Dagebüll, von wo die Fähren zu den Inseln Amrum und Föhr abfahren.

Dagebüll, Niebüll und das Sylt Shuttle plus weiterlesen

Datenbanken, Teil 1

tl;dr

Datenbanken sind toll, weil sie die Grundaufgaben der Datenspeicherung übernehmen und man sich nicht mehr selber darum kümmern muss.

Datenbanken

Seit einiger Zeit unterrichte ich an der Hochschule Furtwangen im Studiengang Wirtschaftsinformatik das Fach Datenbanken. Im Laufe der Zeit ist dabei einiges an Vorlesungsmaterial, Übungsaufgaben und Notizen zu Eigenheiten von Software angefallen. Auch ein Podcast war dabei. Bisher war mein Material aber nur hochschulöffentlich. Außerdem gibt es bisher – außer den Slides – noch kein Skript zu meiner Vorlesung. Zeit, das alles mal zu ändern und die Notizen zu meiner Vorlesung in Form zu bringen und bei der Gelegenheit ins Blog zu stellen.

Aber ganz zu Anfang gilt es erst mal zu klären, warum man sich denn überhaupt mit Datenbanken befassen sollte. Oder anders gesagt:

Databases – Y U no use simple text file?

Um diese Frage zu klären, schauen wir uns ein – scheinbar – einfaches Beispiel an: eine Adressliste. Was kann da schon schiefgehen?

Datenbanken, Teil 1 weiterlesen

Mit dem Zug zum Montserrat

Unser letzter Urlaub in Katalonien ist jetzt schon über sieben Monate her, der nächste liegt noch vier Monate in der Zukunft. Also eine Zeit, um ein wenig in Erinnerungen zu schwelgen und gleichzeitig Zeit für Vorfreude.

Einer unserer Ausflüge führte uns letzten September mit der Bahn zum heiligen Berg der Katalanen, dem Montserrat. Ausgangspunkt der Reise war Tarragona, nur echt mit Kathedrale, …

Kathedrale von Tarragona
Kathedrale von Tarragona

Mit dem Zug zum Montserrat weiterlesen

MySQL auf dem Mac: Systemdatenbank weg?

Heute wurde ich im Datenbanken-Praktikum auf dem Rechner eines Studenten mit einer MySQL-Installation konfrontiert, deren System-Datenbank (d.h. die Datenbank „mysql“) einfach mal verschwunden war. Diese Datenbank enthält unter anderem die Einstellungen für die Berechtigungen der Benutzer. Das ist recht ungünstig, denn der Server startet dann natürlich auch nicht mehr. Dass die fehlende System-Datenbank dafür der Grund ist, erfährt man nur durch Anschauen der Error-Logs, die im „data“-Verzeichnis der Installation (auf dem Mac normalerweise /usr/local/mysql/data) liegen. In diesem Verzeichnis fehlt dann auch das Unterverzeichnis „mysql“.

Als einfachster Weg, die Installation wieder zum Laufen zu bekommen und evtl. vorhandene Nutzdaten zu retten, erwies sich folgender:

  1. Das data-Verzeichnis umbenennen
  2. MySQL neu initialisieren, ab Version 5.7.6 mit:
    sudo mysqld_safe --initialize
  3. Wenn hier ein von der Intialisierung zufällig gesetztes root-Passwort angezeigt wird, so ist das unbedingt zu notieren. Es muss dann, wie bei einer Neuinstallation auch, beim ersten normalen Login geändert werden. Sollte zwar ein Passwort zufällig gesetzt, aber nicht angezeigt werden (war merkwürdigerweise bei mir so), muss evtl. anschließend die Prozedur zum Zurücksetzen des Passworts durchgeführt werden.
  4. Durch die Neuinitialisierung wurde ein neues data-Verzeichnis angelegt. Der Inhalt des alten data-Verzeichnisses kann nun ins neue kopiert werden.
  5. Der Server sollte sich jetzt wieder normal starten lassen.

Wenn der Rest des data-Verzeichnisses unbeschädigt war und wirklich nur die mysql-Datenbank gefehlt hat, sollten die anderen Datenbanken wieder in Ordnung sein.

Mit dem E-Bike nach Furtwangen

Passend zum Sommersemester an der Hochschule und somit zur E-Bike-Saison habe ich ein paar Touren bei Outdooractive veröffentlicht. Da ich mein Fahrrad öfters mit der Bahn transportiere, liegt der Fokus auf Strecken von und nach Bahnhöfen im Umkreis von Furtwangen. Das kommt aber sicher auch jenen gelegen, die eine Streckentour fahren und mit dem Rad im Zug anreisen wollen. In Furtwangen lassen sich die Touren dann entsprechend verknüpfen.

Mit dem E-Bike nach Furtwangen weiterlesen

MySQL auf dem Mac: FAQs

Die Systemvariable PATH setzen

Will man am Terminal nicht jedes Mal den vollständigen Pfad angeben, wenn man den MySQL-Client startet, muss man die Systemvariable PATH setzen. Dies geht, wenn man in der Datei „.profile“ (man beachte den Punkt am Anfang!) die Zeile „export PATH=/usr/local/mysql/bin:$PATH“ einfügt. Dies geht am Terminal am einfachsten mit folgendem Befehl:

echo "export PATH=/usr/local/mysql/bin:$PATH" >> .profile

Anschließend das Terminal komplett schließen und neu starten, damit die Änderung aktiv wird.

Einen Dump einer Datenbank erstellen

Eigentlich total easy. Im Terminal eingeben:

mysqldump -u root -p NameDerDatenbank > NameDerDatei.sql

Man muss natürlich nicht unbedingt den root-User benutzen, wenn man auch andere Datenbank-User mit den passenden Berechtigungen hat. Wenn für den Benutzer kein Passwort vergeben wurde, muss man das „-p“ weglassen.

Das root-Passwort von MySQL zurücksetzen

Weil es bei meinen Datenbank-Studierenden immer mal wieder nötig ist:

  1. MySQL-Server stoppen
  2. Terminal öffnen
  3. Folgende Befehle eingeben, um den MySQL-Server neu zu starten mit der Option, sämtliche Zugriffsrechte zu ignorieren. Dies benötigt die Eingabe des Mac-Admin-Passworts.
    sudo mysqld_safe --skip-grant-tables
  4. Ein zweites Terminal öffnen und mysql starten. Einloggen bei MySQL als root braucht nun kein Passwort mehr!
    mysql -u root
  5. An der MySQL-Befehlszeile:
    mysql> flush privileges;
    Query OK, 0 rows affected (0,01 sec)
    
    mysql> alter user 'root'@'localhost' identified by '';
    Query OK, 0 rows affected (0,00 sec)
    
    mysql> flush privileges;
    Query OK, 0 rows affected (0,00 sec)
    
    mysql> quit
    Bye

    Das Passwort ist nun zurückgesetzt. Es kann natürlich in den Anführungszeichen bei „identified by“ statt einem leeren Passwort ein neues Passwort eingesetzt werden.

  6. Wieder am Terminal sollte man nun den MySQL-Server, der mit „–skip-grant-tables“ gestartet wurde, wieder beenden:
    sudo killall mysqld
  7. Dann über die Systemeinstellungen den MySQL-Server wieder normal starten.
  8. Fertig!

Nach macOS-Update: Rechner herunterfahren dauert ewig?

Wenn nach einem Update des Betriebssystems der Rechner ewig zum Herunterfahren braucht, könnte das daran liegen, dass beim Update-Prozess manchmal (?) die Rechte des mysql-Verzeichnisses verstellt werden. Dann kann man folgendes tun:

  1. Das „data“-Verzeichnis aus dem MySQL-Verzeichnis (normalerweise /usr/local/mysql) an einen sicheren Ort kopieren.
  2. MySQL neu installieren. Das ist wohl der einfachste Weg, um die Rechte wieder korrekt zu bekommen.
  3. Das gesicherte data-Verzeichnis wieder an die selbe Stelle in das MySQL-Verzeichnis der Neuinstallation kopieren.