Archiv der Kategorie: Computerkram

Notizen zu Machine Learning, Teil 2

Ressourcen

Zunächst mal ein Hinweis auf einen ziemlich unterbewerteten YouTube-Kanal zum Thema Machine Learning: Introduction to Machine Learning von Lukas Biewald, Gründer von Weights & Biases und Figure Eight.

Auch interessant, wenn es um Bildverarbeitung mit neuronalen Netzen und Python geht: pyimagesearch

Ein genereller KI-Kurs, der natürlich auch Machine Learning beinhaltet, wird vom MIT bereitgestellt.

Datenbanken, Teil 4: Eins-zu-Eins-Beziehungen

Teil 2 der Serie über Datenbanken, in dem es um das Entity-Relationship-Modell ging, liegt nun schon ungefähr 2 Jahre zurück, aber relationale Datenbanken haben natürlich nichts von ihrer Aktualität eingebüßt und in der Zwischenzeit haben wir in unserem Podcast darüber berichtet. Bisher haben wir 1:N- und N:M-Beziehungen betrachtet. In diesem Teil geht es weiter, denn mit den Beziehungen ist es manchmal kompliziert.

Dieser vierte Teil der Serie setzt Kenntnisse der Grundbegriffe des E/R-Modells und der Umsetzung von 1:N- und N:M-Beziehungen ins relationale Modell voraus. In den ersten drei Teilen der Serie wurden diese erklärt.

Beispiele für 1:1-Beziehungstypen; Quelle;
CC-BY-SA 2.5 Maximilian Dörrbecker

Für 1:N- und N:M-Beziehungen wurde im vorherigen Teil bereits diskutiert, wie die Umsetzung ins relationale Modell erfolgt. 1:N-Beziehungen können am einfachsten mit einer Fremdschlüsselspalte auf der N-Seite umgesetzt werden während für N:M-Beziehungen immer eine Beziehungstabelle notwendig ist.

1:1-Beziehungen

Eine weitere Beziehungsart zwischen zwei Entitätstypen ist die 1:1-Beziehung. Betrachten wir zunächst als Beispiel die Beziehung zwischen einer Person und ihrem Ausweis.

Eine Person besitzt nur einen Ausweis und ein Ausweis gehört zu einer Person. Wir gehen in dem Beispiel weiterhin davon aus, dass jede Person in der Datenbank auch einen Ausweis besitzt und es nur personalisierte Ausweise gibt.

Datenbanken, Teil 4: Eins-zu-Eins-Beziehungen weiterlesen

Datenbanken, Teil 3: Tabellen erstellen mit SQL

Im zweiten Teil der Serie über Datenbanken, der zugegebenermaßen schon etwas zurück liegt, hatte ich versprochen, im folgenden Teil der Serie zu zeigen, wie man in der Praxis mit SQL Tabellen erstellt. Dieses Versprechen will ich nun hiermit einlösen. In der ersten Staffel unseres Podcasts haben uns in der Zwischenzeit allerdings auch schon mit SQL beschäftigt.

SQL ist eine weit verbreitete Sprache für relationale Datenbankmanagementsysteme und umfasst, wie im ersten Teil schon erwähnt, sowohl eine Abfragesprache (Query Language) wie auch Sprachen zum Einfügen und Löschen von Daten (Data Manipulation Langauge) und zum Anlegen eines Datenbankschemas (Data Definition Language). SQL wird von vielen aktuellen relationalen Datenbankmanagementsystemen (DBMS) verstanden. Ein weit verbreitetes und kostenloses DBMS ist MySQL. Die Codebeispiele in diesem und den folgenden Teilen beziehen sich, sofern nichts anderes angegeben ist, auf MySQL. Da SQL aber weitgehend standardisiert ist, sollten sie auch in anderen DBMS funktionieren.

Datenbanken, Teil 3: Tabellen erstellen mit SQL weiterlesen

Cyberbull

Wenn Ihr mal ne spannende Serie schauen wollt, schaut Euch Designated Survivor an, aber bitte nur die erste Staffel.

Wenn Ihr ne schlechte Serie schauen wollt, schaut Euch auch Designated Survivor an, aber diesmal die zweite Staffel.

Diese Serie bekommt von mir nicht nur die Auszeichnung für das größtmögliche Qualitätsgefälle, sondern auch den Preis für den größten jemals gemessenen Bullshit in Szenen mit Computerbezug.

Dass Bildschirminhalte nicht so eine große Rolle spielen, so lange es irgendwie kompliziert und doch cool aussieht, ist nichts neues. Auch dass mittels Magie aus einem Satellitenbild eine hoch aufgelöste Frontalaufnahme eines Verdächtigen entsteht, ist im Fernsehen schon lange Standard. Dass dieses Bild dann „Pixel für Pixel“ mit den Datenbanken abgeglichen wird, ist schon eine Spezialität. Einen einzelnen weißen, schwarzen oder bunten Punkt in einer Datenbank zu suchen, das bringt sicher viel. Aber egal, das geht vielleicht noch als unglückliche Formulierung durch.

Anekdoten aus Designated Survivor

Ein wenig später freut sich der IT-Crack Chuck, dass er die Firewall des Laptops eines Verdächtigen überwunden hat. Da staunt der Laie und der Fachmann wundert sich. Warum hat sich Chuck die Mühe gemacht, die Firewall, die den Rechner vor unbefugtem Zugriff aus dem Netzwerk schützen soll, zu überwinden, wenn das Gerät direkt vor ihm auf dem Tisch steht?

Aber vielleicht ist es auch nur des Wortwitzes wegen: Der Laptop geht wenige Augenblicke später in Flammen auf, weil der böse Besitzer „den Akku gehackt“ hat. Vielleicht hätte das FBI doch lieber einen IT-Forensiker anstellen sollen, der sich mit sowas auskennt.

Eher ein Schmankerl für Kenner war dann noch, dass der selbe Chuck Erkenntnisse über eine Auktion von Alan-Turing-Memorabilia gewinnt, bei der unter anderem eine Turing-Maschine versteigert wurde. Da wurde der Käufer wohl betrogen, handelt es sich bei einer Turing-Maschine doch um ein mathematisches Konstrukt, ein rein theoretisches Gebilde, nicht um ein physisch existierendes Gerät.

Warum ärgert mich das?

Eigentlich finde ich sowas ja ganz amüsant, besonders weil es gerade in dieser Serie so unglaublich übertrieben absurd ist, wenn man sich auch nur ein bisschen mit der Materie auskennt.

Doch das Problem ist, dass sich so beim Zuschauer ein falsches Bild von Computertechnik, von Sicherheitslücken und von Angriffen auf IT-Systeme verfestigt. Wenn etwas nur oft genug im Fernsehen gezeigt wird, und wenn es auch in einer Action-Serie ist, besteht leider die Gefahr, dass es irgendwann jemand für bare Münze nimmt.

Anstatt sich von solchem Cyber-Zauber beeindrucken zu lassen, sollten sich Computernutzer (d.h. wir alle!) lieber auch mal mit echter IT-Sicherheit befassen. Wer sich auch nur ansatzweise von dem Bild inspirieren lässt, das in dieser TV-Serie vermittelt wird, schwebt in Gefahr, die realen und alltäglichen Bedrohungsszenarien zu ignorieren.

Die letzte Konsequenz davon sieht man auch in dem aktuellen Fall von „Doxing„, bei dem personenbezogene Daten von etwa 1000 Menschen, darunter viele Politiker, veröffentlicht wurden. Mehr Kompetenz im Umgang mit IT-Systemen ist notwendig, um die Ursachen zu verstehen und solche Vorfälle in Zukunft zu vermeiden. Nimmt man dagegen zu viel von dem Mumpitz zu sich, wie er in Designated Survivor und anderen Action-Serien vorkommt, dann kommen leider so kompetenzbefreite Ideen wie die des „Hack-Back“ auf den Tisch, statt generell die (defensive) IT-Sicherheit zu stärken. Letzteres könnte natürlich als Nebeneffekt dazu führen, dass der Bundestrojaner dann nicht mehr läuft. Ob man das deshalb nicht will?

Die Realität ist spannender!

Dass die Realität sehr viel spannender ist als Cyber-Bullshit, sieht man übrigens jedes Jahr beim Chaos Communication Congress. Dieses Jahr wurde da unter anderem gezeigt, wie man über Fax in Firmennetze einbrechen kann, es wurde die biometrische Identifikation mit Venenerkennung durch eine Attrappe überwunden und es wurde gezeigt, wie man Geldautomaten um ihren Inhalt erleichtern kann.

Man sich übrigens durchaus an der Realität orientieren und trotzdem daraus eine spannende Serie stricken! Mein Schlusswort ist deshalb: Wenn Ihr mal ne spannende Serie mit mehr Cyber, aber weniger Bullshit sehen wollt, dann schaut Euch Mr. Robot an!

Fake Science und Verlage

Derzeit berichtet die Tagesschau unter dem Titel „Fake Science“ über pseudowissenschaftliche Verlage, die ohne Peer Review gegen Bezahlung alles veröffentlichen. Am Montag soll dazu im Ersten die volle Reportage laufen.

Neu ist das Phänomen nicht. Schon 2005 haben drei MIT-Studenten ein computergeneriertes Fake-Paper bei einer Konferenz untergebracht und vor etwas über einem Jahr hat es die gewagte These, dass der konzeptuelle Penis Schuld am Klimawandel hat, nicht nur in eine Fachzeitschrift der Sozialwissenschaften, sondern auch in die Medien geschafft.

Im Interview mit der Tagesschau – siehe dazu weiter unten das eingebettete Video –unterscheidet die Journalistin Svea Eckert, die im Rahmen ihrer Recherchen selbst eine solche pseudo-wissenschaftliche Konferenz besucht hat, zwischen drei Gruppen von Teilnehmern. Zum einen ernsthafte Wissenschaftler, die die Pseudowissenschaftlichkeit der Konferenz oder Zeitschrift im Vorfeld nicht erkannt haben, denen schlicht das Geld aus der Tasche gezogen wurde und die danach nie wieder dort auftauchen. Zum zweiten Wissenschaftler, die unter hohem Publikationsdruck stehen und diesen Weg nutzen, um die Zahl ihrer Publikationen künstlich in die Höhe zu treiben.

Die dritte Gruppe dagegen, deren Existenz mir in der Tat so noch nicht bewusst war, ist gefährlich. Sie nutzt diese Veröffentlichungsmethode, um ihre eigenen Interessen durch scheinbar wissenschaftliche Studien zu untermauern und so zum Beispiel wertlose „Medikamente“ zu verkaufen.

Hintergrund GcMAF

Einer der Auslöser für die Recherchen war offenbar der Tod der an Krebs erkrankten Moderatorin Miriam Pielhau, die auf Basis von falschen Studien über das Mittel GcMAF darauf gesetzt hatte. Pikant ist an dieser Stelle allerdings, dass über dieses Mittel zuerst in eigentlich als seriös eingestuften Zeitschriften zum Beispiel aus dem Wiley-Verlag veröffentlicht wurde, die Studien dann aber später zurückgezogen wurden, wie ich über einen Tweet mitbekommen habe.

Die komplette Reportage anzuschauen könnte durchaus lohnen. Allerdings lenkt diese „Fake Science“-Reportage zu diesem Zeitpunkt den Blick von einem anderen, weniger öffentlich diskutiertem, aber für Wissenschaftler mindestens genau so wichtigem Schauplatz ab: den gescheiterten Verhandlungen des Projekt DEAL, einer Bestrebung zur bundesweiten Lizenzierung von Angeboten großer Wissenschaftsverlage, mit Elsevier.

Gierige Wissenschaftsverlage

Wie unterscheidet sich denn eigentlich das Geschäftsmodell eines Verlags wie Elsevier von dem der „Fake Science“-Verlage? Erschreckenderweise ist die Antwort: Fast gar nicht. Beide kassieren für die Veröffentlichung von Papieren von den Autoren, also den Wissenschaftlern. Elsevier verlangt aber zudem noch Geld von den Wissenschaftlern, die die Artikel ihrer Kollegen hinterher lesen wollen, und zwar nicht zu knapp. Weil Elsevier an dieser Stelle die Hand ein wenig zu weit aufhält, sind die Verhandlungen erst einmal auf Eis gelegt, teilt die Hochschulrektorenkonferenz mit. Natürlich findet bei seriösen Wissenschaftsverlagen eine Begutachtung durch Kollegen, ein Peer Review, statt, dies geschieht aber ehrenamtlich durch andere Wissenschaftler. Unterm Strich zieht also ein Verlag wie Elsevier den Forschern das Geld noch schlimmer aus der Tasche als die „Fake Science“-Verlage und die öffentliche Hand zahlt dreifach: Die Forschung selbst wird meistens öffentlich gefördert, der Verlag wird für die Veröffentlichung bezahlt und die Bibliotheken der Hochschulen zahlen nochmal dafür, dass ihre Wissenschaftler die Veröffentlichungen dann auch lesen dürfen.

Dass es auch anders geht, zeigen Open-Access-Journale wie z.B. das Journal of Machine Learning Research. Dieses Magazin ist ein Beispiel, das eindrucksvoll zeigt, dass die Wissenschaftsverlage nichts, aber auch gar nichts leisten, was nicht auch von Wissenschaftlern in Eigenregie erledigt werden kann.

In der Informatik scheint man generell schon etwas weiter zu sein als in den Naturwissenschaften. Ich habe beim Schreiben meiner Doktorarbeit praktisch alle von mir gelesenen Aufsätze frei im Netz finden können, weil sowieso die allermeisten Papers in diesem Bereich von ihren Autoren zusätzlich auf ihren eigenen Homepages oder denen der Universität zugänglich sind. Und wenn nicht, würden sicher viele Autoren auf Nachfrage ihre Papers auch direkt rausrücken, schließlich wollen die ja zitiert werden. Bei den Informatikern spielt Elsevier glücklicherweise so gut wie keine Rolle und die Bedingungen des Springer-Verlags (der Wissenschaftsverlag, nicht der von der Bildzeitung), der im Informatikbereich viele Konferenzbände veröffentlicht, sind weniger restriktiv. Da hieß es damals, dass es von Seiten des Verlags wünschenswert sei, dass man mit der Veröffentlichung auf der eigenen Homepage bis ein Jahr nach Veröffentlichung bei Springer warten soll. Ich dachte mir dann immer, dass es von meiner Seite wünschenswert ist, das nicht zu tun. Das war dann auch ok.

Wenn die Verhandler des Projekts DEAL hart bleiben, kommt vielleicht auch Elsevier irgendwann zu der Erkenntnis, dass die Wissenschaftler sehr wohl ohne die Verlage leben können, aber die Verlage nicht ohne die Wissenschaftler. Immer mehr Forscher lehnen es inzwischen ab, für Elsevier ehrenamtlich Peer Review zu betreiben oder bei Elsevier zu veröffentlichen. Und wer von dort was lesen muss, der wird sich jetzt, da den deutschen Universitätsbibliotheken der Zugang gesperrt wurde (bis vor kurzem hatte den Elsevier in seiner unendlichen Güte auch nach Auslaufen der alten Lizenz noch zur Verfügung gestellt), vielleicht das „umstrittene“ Sci-Hub für sich entdecken…

Amazon Prime Video und Netflix auf dem Raspberry Pi

Um einem nicht so smarten TV ein wenig Grips einzutreiben, bietet sich ein kostengünstiger Raspberry Pi mit dem Media Center KODI an. Es empfiehlt sich aus Performance-Gründen ein Raspberry Pi 3.

Es sind allerdings ein paar Sachen zu beachten, wenn man auch Netflix und Amazon Prime Video schauen will, weswegen ich hier einmal zusammentragen will, was ich dafür konfigurieren musste.

KODI, LibreELEC und NOOBS

Zunächst einmal ist zu beachten, dass die für Amazon und Netflix nötigen Add-Ons nur mit der neuesten Version 18 von KODI laufen und die aber nicht auf dem „normalen“ Raspbian-Betriebssystem. Es ist daher angezeigt, LibreELEC zu installieren. Mit dieser Linux-Distribution kann man nicht viel anderes machen als KODI laufen zu lassen, das aber dafür gut. LibreELEC kann zunächst wie die meisten anderen Raspi-Betriebssysteme ganz bequem über NOOBS installiert werden.

„Milhouse 9.0“-Builds

Für die Amazon- und Netflix-Plugins braucht man die neueste Version. Hierzu geht man nach dem ersten Hochfahren von KODI aus auf die LibreELEC-Einstellungen und stellt unter „System“ die Aktualisierungen auf manual und bei den benutzerdefinierten Kanälen die URL http://milhouse.libreelec.tv/builds/master/RPi2 ein (auch wenn man einen Raspi 3 hat). Unter Update-Kanal stellt man dann auf „Milhouse 9.0“ und wählt dann unter „Verfügbare Versionen“ einen der aktuellen Nightly-Builds aus.

Achtung, diese sind nicht immer so stabil! Versionen vom Mai liefen bei mir nicht so gut, jetzt habe ich mich mehr oder weniger willkürlich für die Version 0421 vom 21. April entschieden und damit läuft es gut.

Amazon Prime Video

KODI ist nur nicht viel ohne Add-Ons. Viele gute offizielle Add-Ons findet man im gewöhnlichen Repository, nicht so die Netflix- und Amazon-Plugins. Dazu installiert man zuerst aus dem normalen Repository ein neues Repository, nämlich „Kodinerds“. Das findet man unter All Repositories ➜ Add On Repositories ➜ Kodinerds Add-ons und vom Kodinerds Repository installiert man dann wieder zwei andere Repositories, nämlich erst mal „Sandmann79s Repository“ für die Amazon-Add-Ons und das „Netflix“-Repository für das Netflix-Add-On (siehe zu Netflix unten).

Bei den angebotenen Amazon-Add-Ons scheint das internationale „Amazon VOD“ besser zu funktioniert als das andere, das nur für Deutschland gedacht ist. Letzteres lädt die Playlisten des eigenen Accounts in eine lokale Datenbank, was aber unnötig lange dauert.

Für die Wiedergabe von DRM-geschützten Material, die es von Amazon oder Netflix kommt, braucht man die „Widevine“-Libraries. Das Amazon-Plugin installiert die automatisch, das dauert aber etwas.

In den Einstellungen des Add-Ons sollte man noch bei der Wiedergabemethode „Input Stream“ einstellen. Ein gültiger Prime-Account ist natürlich Pflicht, die Zugangsdaten gibt man auch in den Einstellungen des Add-Ons ein.

Netflix

Bei Netflix hat bei mir die Installation aus dem Repository nicht funktioniert, daher habe ich die aktuelle Version des Netflix-Add-Ons von Github heruntergeladen („Clone or download“ auswählen und als ZIP runterladen, siehe Anleitung) und in KODI über „Installation aus ZIP“ installiert. Damit das funktioniert, muss man evtl. in KODI noch die Installation von Add-Ons aus Fremdquellen explizit zulassen. Über die Samba-Dateifreigabe von KODI/LibreELEC findet das ZIP-File den Weg auf die SD-Karte des Raspi. Auch für Netflix ist selbstverständlich ein gültiger Login erforderlich.

Podcasts

Zu beachten ist noch, dass die Version des beliebten „Apple iTunes Podcasts“-Add-On (das keinen iTunes-Account braucht, sondern nur so heißt, weil es die Liste der Podcasts von Apple zieht) aus dem KODI-Repository nicht mit dieser Konfiguration läuft. Im KODI-Forum wird erklärt, wie man das Add-On trotzdem zum Laufen bekommt.

Alternativ kann man aber seine Podcasts auch anders über KODI abspielen. Man trägt dazu die URL des RSS-Feeds seines Podcasts über Musik- bzw. Video (je nachdem, ob es ein Audio- oder Video-Podcast ist) als Quelle ein, allerdings nicht beginnend mit „http://“, sondern mit „rss://“.

Nutch und Solr einrichten

Wer selber Suchmaschinenbetreiber werden und dem Großen G Konkurrenz machen will, kann das mit dem Webcrawler Nutch und dem Suchserver Solr tun. Leider ist das Tutorial von Nutch nicht ganz so deutlich, enthält ein paar unnötig komplizierte Sachen und zudem in einer nicht ganz logischen Reihenfolge.

Das hier gezeigte Vorgehen wurde mit Ubuntu 16.04 getestet, sollte aber genau so mit anderen Linuxen oder macOS funktionieren.

Unter Windows laufen die Nutch-Skripte nicht. Da das eigentliche Nutch selbst aber genau wie Solr in Java implementiert ist, ließe sich das mit Cygwin lösen. Die Frage ist nur, ob man das auch will…

Für die Beispiele wird davon ausgegangen, dass sich Nutch im Verzeichnis „apache-nutch-1.14“ und Solr im Verzeichnis „solr-6.6.3“ jeweils direkt unterhalb des Home-Verzeichnisses befinden.

Wer möchte, kann das Nutch-Tutorial parallel öffnen. Ich orientiere mich hier am Stand des Tutorials vom Mai 2018 und weise jeweils auf Stellen im Tutorial hin.

1. Voraussetzungen: Java und Solr

Siehe Abschnitt Requirements im Tutorial.

Nutch 1.14 setzt Java voraus. Von mir wurde Nutch mit Java 1.8 getestet.

Ant ist nicht nötig, wenn Nutch als Binary geladen und nicht selbst kompiliert werden soll.

Damit Nutch die gecrawlten Webseiten direkt zum Indexieren an Solr weiterreichen kann, muss die passende Solr-Version laufen. Nutch 1.14 läuft mit Solr 6.6

Die Installation von Solr ist denkbar einfach, es ist lediglich ein Archiv herunterzuladen und zu entpacken.

(Im Tutorial wird Solr erst später erwähnt, es ist meiner Ansicht nach aber empfehlenswert, schon an dieser Stelle Solr zum Laufen zu bringen und zu testen.)

2. Nutch herunterladen

Siehe Option 1 im Abschnitt Install Nutch im Tutorial.

Die Installation von Nutch läuft erst mal fast genau so: Downloaden von http://nutch.apache.org/ und in ein Verzeichnis nach Wahl entpacken.

Siehe nun Verify your Nutch installation im Tutorial.

Aus dem Nutch-Verzeichnis heraus sollte jetzt ein „bin/nutch“ schon funktionieren und Nutch sollte zumindest mal ein Lebenszeichen von sich geben.

Wenn Nutch wie oben angegeben ins Verzeichnis „apache-nutch-1.14“ entpackt wurde, sind folgende Befehle einzugeben:

cd apache-nutch-1.14/
bin/nutch

Es sollte eine Meldung erscheinen, die die möglichen Nutch-Kommandos auflistet.

Achtung: An der /etc/hosts herumzufummeln, wie es im Tutorial steht, sollte im allgemeinen nicht notwendig sein!

3. JAVA_HOME setzen

Wir sind immer noch bei Verify your Nutch installation im Tutorial.

Möglicherweise ist die Umgebungsvariable JAVA_HOME nicht gesetzt. Ob das so ist, erfährt man durch Eingabe von

echo $JAVA_HOME

Wenn nichts ausgegeben wird, war JAVA_HOME nicht gesetzt. Dann ist unter Ubuntu (oder Debian) folgendes zu tun:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Damit beim nächsten Neustart des Terminals die JAVA_HOME gleich gesetzt ist, empfiehlt es sich, diese Zeile ans Ende der .bashrc im Home-Verzeichnis anzufügen:

cd

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' >> .bashrc

Unter macOS setzt man die JAVA_HOME wie folgt auf den korrekten Wert (Achtung, die Angabe im Nutch-Tutorial stimmt für neuere macOS-Versionen nicht!):

export JAVA_HOME=$(/usr/libexec/java_home)

Bei macOS würde man die JAVA_HOME wohl eher in der .profile setzen:

cd

echo 'export JAVA_HOME=$(/usr/libexec/java_home)' >> .profile

4. Crawler-Properties

Wir sind im Tutorial nun bei Customize your crawl properties.

Der Crawler meldet sich bei den Web-Server, die gecrawlt werden, mit seinem Namen. Es ist aber standardmäßig nichts voreingestellt. Ohne dass wir hier etwas konfigurieren, verweigert Nutch seinen Dienst.

In die Datei apache-nutch-1.14/conf/nutch-site.xml muss folgendes rein (der fette Teil ist neu):

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>http.agent.name</name>
<value>Der Test Nutch Spider</value>
</property>
</configuration>

Statt „Der Test Nutch Spider“ sollte man natürlich selber irgendeinen Namen wählen.

5. Solr konfigurieren

Wir überspringen einiges im Tutorial und gehen nun direkt zu Setup Solr for search.

Im Tutorial wird als zu Nutch 1.14 zugehörig die Version Solr 6.6.0 angegeben. Im Test funktionierte es aber auch mit 6.6.3. Mit Solr 7 dagegen könnte es Probleme geben.

Die von Nutch gecrawlten Webseiten sollen in einen eigenen Solr-Core. Zum Setup des Schemas für diesen Core nehmen wir die Standard-Beispielkonfiguration von Solr und kombinieren sie mit einer schema.xml, die von Nutch geliefert wird.

Die Schritte im einzelnen:

1. Das Configset basic_configs kopieren und neu nutch nennen.

Update!

Das Configset heißt a Solr 7 „_default“ und nicht mehr „basic_configs“. Wenn Ihr bei den Befehlen unten das entsprechend ersetzt, funktioniert die Anleitung auch noch mit Nutch 1.16 und Solr 7.

2. Die managed_schema im Configset nutch löschen.

3. Die schema.xml von Nutch ins neue Configset nutch kopieren.

Noch ein Update!

Im Nutch-Tutorial ist im Abschnitt „Setup Solr for search“ eine alternative schema.xml verlinkt, am besten die „most recent schema.xml“ verwenden und die im Configset „nutch“ ersetzen.

4. Solr starten

5. Einen neuen Core unter Verwendung des soeben erstellen Configsets einrichten.

Die Befehle dazu:

cd
cd solr-6.6.3/
cd server/solr/configsets/

cp -r basic_configs nutch

cd nutch/conf

rm managed-schema

cd

cp apache-nutch-1.14/conf/schema.xml solr-6.6.3/server/solr/configsets/nutch/conf/

cd solr-6.6.3/

bin/solr start

bin/solr create -c nutch -d server/solr/configsets/nutch/conf/

6. Nutch klar machen zum Crawlen

Wir springen nun im Tutorial zurück zu „Create a URL seed list„.

Wenn man das Web crawlen will, muss man irgendwo anfangen. Diese Startseiten kommen in die Seed List.

Den Teil des Tutorials, wie man an eine schöne Seed List kommt, in dem man z.B. eine Liste von Webseiten von dmoz herunterlädt, ignorieren wir hier mal, wir machen das von Hand und setzen unsere Lieblingswebseite als Startpunkt.

Die Schritte im einzelnen:

1. Unterhalb von apache-nutch-1.14 ein Verzeichnis urls anlegen

2. Darin eine Datei seed.txt anlegen und da drin einfach eine Liste von URLs eintragen.

Konkret:

cd

cd apache-nutch-1.14/

mkdir urls

cd urls

echo 'http://hs-furtwangen.de/' > seed.txt

Jedenfalls sollte man das so machen, wenn die Webseite der Hochschule Furtwangen die Lieblingswebseite ist.

Den Regex-URL-Filter (siehe Tutorial) lassen wir so er ist. Wir müssten den ändern, wenn wir z.B. nur die Unterseiten einer Homepage crawlen und indexieren wollen, ohne externe Links zu verfolgen.

Den ganzen Abschnitt „Using Individual Commands“ überspringen wir mal getrost. Die Befehle, die dort stehen, sind zwar schön, wenn man mal sehen will, was im einzelnen passiert, aber zu kompliziert.

7. Crawl starten!

Wir gehen im Tutorial direkt zu Using the crawl script.

Den Aufruf des Crawl-Skripts ist im Tutorial erklärt, aber wir können selber das Skript von einem eigenen Skript aus starten, das direkt schon die gewünschten Parameter enthält. 🙂

Ich gehe hier davon aus, dass, wie hier im Beispiel, der Solr-Server auf dem selben Rechner läuft, der Core nutch heißt und die Seed-Liste dort liegt, wo wir sie in Schritt 4 gerade angelegt haben. Außerdem sind hier jetzt mal 50 Iterationen eingestellt. Das ist viel! Man kann den Crawl-Vorgang aber ruhig zwischendurch abbrechen.

cd

cd apache-nutch-1.14/

echo 'bin/crawl -i -D solr.server.url=http://localhost:8983/solr/nutch -s urls crawl 50' >> crawl.sh

chmod +x crawl.sh

./crawl.sh

8. Die Ergebnisse begutachten

Schon während der Crawl läuft, können wir in der Admin-Oberfläche von Solr den Index abfragen. Spätestens jetzt empfiehlt es sich, sich mit dem Schema des neuen Cores vertraut zu machen, um anschließend ein schönes Frontend programmieren zu können.

Viel Spaß!

@ oder die rechte und die linke Hand des Teufels

Normalerweise ist es auch bei einer Mac-Tastatur völlig egal, ob man die linke oder die rechte alt-Taste (beim Mac auch option-Taste) verwendet.

Böse Falle: Hat man ein Ubuntu-Linux in Parallels laufen, wird die linke alt-Taste das Menü der jeweiligen Anwendung öffnen, nur mit der rechten alt-Taste kann man zum Beispiel das @-Symbol (alt+L) eingeben.

Aber Vorsicht: Während das bei der internen Tastatur eines MacBook gilt, sieht es bei externen Tastaturen schon wieder anders aus und es kann sein, dass es dort genau andersherum ist…