Solr, Nutch und boost

Der Web-Crawler nutch berechnet aus der Linkstruktur einen Score und speichert ihn im Feld „boost“ ab. Leider scheint der boost nicht automatisch in den Gesamt-Score einzugehen. Eine Verwendung des Felds boost in der boost function (bf) des dismax-Parsers scheitert mit einer Fehlermeldung, weil die standardmäßige schema.xml von nutch das Feld nicht als uninvertible deklariert. Die Doku fand ich leider wenig hilfreich.

Eine Änderung der schema.xml im nutch-configset brachte für mich Abhilfe. Die Felddeklaration von boost sollte so aussehen:

<field name="boost" type="float" stored="true" uninvertible="true"/>

Anschließend kann bei der Solr-Suche im dismax-Parser in der bf das Feld boost verwendet werden. Es handelt sich dabei um einen additiven Boost für jedes Dokument. In der debug-Ansicht lässt sich die Berechnung des Scores nachvollziehen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert