Schlagwort-Archive: recoll

2 zu 179

baloo

Ich geb KDE ja immer wieder eine Chance, seine eingebaute Suchfunktion unter Beweis zu stellen (siehe die Tags an diesem Artikel), aber ich lande immer wieder beim gleichen Ergebnis.

Baloo findet auf einem Kubuntu 14.04 nach zwei kompletten Tagen Zeit zur Indexerstellung zwei Dokumente mit „didacta“ als Text …

recoll

… und recoll findet nach ein paar Stunden Indexerstellung 179 Stück.

Ich weiß, was ich nutze und ich weiß auch warum.

Nepomukindexer

Seit Nepomuk meine Dateien indizieren darf, ist mein syslog voll und die CPU-Last sinkt nur selten unter 100%:

nepomukindexer[11837]: segfault at d3f0a8 ip 00007fd9e52afc41 sp 00007fff52c08a98 error 4 in libc-2.17.so[7fd9e5226000+1bd000]

nepomukindexer[11851]: segfault at fd83a8 ip 00007f6a1f31ac41 sp 00007fff7368d268 error 4 in libc-2.17.so[7f6a1f291000+1bd000]

nepomukindexer[11872]: segfault at 125b7c8 ip 00007f5497674c41 sp 00007fffd3df3138 error 4 in libc-2.17.so[7f54975eb000+1bd000]

Ich hab zwar entsprechende Einträge für KDE zu Arch gefunden – aber nicht zu Kubuntu 13.10. Welche nepomuk Komponente genau den Absturz auslöst oder ob die libc selbst das Problem ist? Mit dem Kubuntu Bug squad ist schwer Kontakt zu finden – der Link ist tot. Ergebnis: Mein etwas schwammiger Bug Report befindet sich jetzt auf Launchpad.

Nepomuk kommt wieder auf’s Abstellgleis und Recoll übernimmt die Desktopsuche. Soweit war ich schon häufiger.

Nepomuk 4.11

nepomuksearch - Suchergebnisse von „Komplexitätsgrad Leistungsmessung“ – Dolphin_002

Ich geb’s nicht auf: Immer wieder teste ich auch Nepomuk als Desktopsuchmaschine und muss sagen – im Vergleich zu früher findet er inzwischen (Kubuntu 13.10 Beta 1) sogar die Inhalte von Dateien. Allerdings indiziert das Ding nun schon zwei volle Arbeitstage lang und ist immer noch nicht fertig. Dabei heult der Lüfter permanent und der Rechner braucht immer ne Sekunde, bis er ansprechbar wird.

Recoll braucht für den gleichen Datenbestand ca. einen Nachmittag, wird nur aktiv, wenn ich das wünsche und lässt mir mein System ansonsten in Ruhe. Nepomuk holt also langsam auf – Recoll ist aber immer noch nicht geschlagen.

Desktopsuche mit Recoll und Nepomuk

Immer wieder stolperte ich im Netz über Blogbeiträge, in denen jemand behauptete, Nepomuk sei nun endlich reif für die Nutzung. Um es kurz zu machen: Wer nicht ausschließlich TXT Dateien rumliegen hat, sondern auch ODT und PDF, kann das Programm getrost vergessen und in den KDE Systemeinstellungen alles abschalten, was sich darauf bezieht.

Ein kleiner Vergleich zum Suchbegriff „mutiny“, von dem ich wusste, dass dieser in mehreren Dokumenten bei mir auftaucht.

Zuerst Nepomuk nach stundenlangem Indexieren:

nepomuk

Und dann Recoll nach ca. einer Stunde Indexieren:

recoll

Ich weiß, was ich nutze.

Recoll und das python rarfile module

Meine Recoll-Installation mahnte ein missing helper module an und zwar mit der Meldung python:rarfile (application/x-rar). Recoll scheint das zu benötigen, um eine ganze Reihe von Dateitypen indizieren zu können. Eine Suche in den Ubuntu Repos brachte mich nicht weiter – vielmehr wurde ich auf den Python Seiten selbst fündig:

http://pypi.python.org/pypi/rarfile

Derartige Module direkt und händisch zu installieren war mir zu komplex (die Zeit für eine Einarbeitung in Pyhton fehlt mir gerade – leider) und so verfielt ich auf diese Lösung: Ein

sudo apt-get install python-setuptools

öffnet Ubuntu direkt gegenüber den Python Modul-Repos und ein

sudo easy_install rarfile

installiert dann das gewünschte Modul. Die Anleitung zur Installation von Recoll im Wiki des KvFG ist entsprechend erweitert worden.

Jetzt läuft recollindex ohne Fehler durch.

Akonadi, Nepomuk und Strigi

Über /Systemeinstellungen /Desktopsuche und dort auf dem Reiter Grundeinstellungen kann zumindest Strigi und Nepomuk deaktiviert werden, deren Funktion mir so oder so völlig verborgen bleibt, indizieren diese doch nicht den Inhalt von Dateien. Ich bevorzuge Recoll oder Pinot als Desktopsuchmaschine.

Kaum ist dies geschehen motzt KDE, dass diese Dienste deaktiviert wurden und besteht (zumindest bei mir) darauf, dass man diese Warnmeldungen bestätigt, will  man zügig wieder auf den Desktop blicken dürfen. Also muss auch Akonadi weg – und das geht so:

vi ~/.config/akonadi/akonadiserverrc

und hier dann

[QMYSQL]

StartServer=false

eintragen. Notfalls neu anmelden und man hat erst einmal seine Ruhe. Weitere Tipps hier, sollte Akonadi immer mal wieder hochkommen: Das liegt daran, dass der Start anderer Anwendungen Akonadi dann mit hochfährt.

Pinot

Ich bin weiterhin auf der Suche nach „der einen“ Desktopsuchmaschine – obwohl recoll seine Arbeit gut macht. Hierbei bin ich nun über pinot gestolpert, das gegenüber recoll zumindest zwei Vorteile hat:

  1. Pinot arbeitet sich als Daemon durch den eingestellten Dateibaum und überwacht diesen auf Wunsch – was man recoll erst einmal beibringen muss;
  2. Pinot schmierte bei meinen ersten Versuchen nicht so häufig ab wie recoll – scheint also etwas toleranter zu sein, wenn es über unbekannte oder korrumpierte Dateien stolpert.

Ich muss hinzufügen, dass dies wirklich nur ein erster Eindruck ist! recoll erweist sich – nachdem man die Indexierungshürden genommen hat – im Alltag als stabil, was ich über pinot noch nicht sagen kann.

Informationen zur aktuellen Entwicklung sind im Entwicklerblog zu finden:

http://pinotdev.blogspot.com/

Aktuelle Pakete gibt es auf Google Code:

http://code.google.com/p/pinot-search/

Das Paket scheint auch in der nächsten Ubuntu LTS Version dabei zu sein:

http://www.ubuntuupdates.org/packages/show/409741

Allerdings lässt es sich nicht mit allen Bestandteilen installieren, da diese noch auf Gnome2-Panels setzen. Ein

sudo apt-get install pinot

bringt jedoch eine grafische Konfigurations- und Suchmaske an Bord, die völlig ausreicht. Catfish kann auch zur Suche genutzt werden, wer es trocken mag.

Obwohl beide Desktopsuchmaschinen auf Xapian als DB zurückgreifen, lassen sich diese Seite an Seite betreiben. Auch ein frisch angestoßenes

recollindex

läuft parallel zur Erfassung der Dokumente durch /usr/bin/pinot-dbus-daemon durch.

Zu Hilfsprogrammen für Pinot steht mehr im KvFG Wiki.

Eine weitere Desktopsuchmaschine, allerdings auf Java Basis, ist mir auch noch aufgefallen und wird in einem Folgebeitrag behandelt: Terrier

http://www.terrier.org/

Recoll revisited

Recoll unter Lucid am Laufen zu halten erfordert die Installation gleich zweier PPAs:

https://launchpad.net/~recoll-backports/+archive/recoll-1.15-on

für recoll selbst – und dieses hier, damit die Xapian Bibliothek die passende Versionsnummer erhält:

https://launchpad.net/~xapian-backports/+archive/xapian-1.2

Im Prinzip ist recoll ein wunderbarer Ersatz für die Google Desktop Suche. Ich würde mir nur wünschen, dass die Indexierungsvorgänge runder laufen würden und bei Fehlern nicht gleich abstürzen, sondern ein nicht erfassbares Dokument dann schlicht außen vor lassen würden. Trotzdem: Im Moment gibt es keine bessere Desktop-Suchmaschine unter Linux.

Desktopsuchmaschine

Meine Lieblings-Desktopsuchmaschine Google Desktop Search (GDS) wird nicht mehr weiter entwickelt – ich muss umsteigen, will ich bei mir noch was finden. Tracker, Beagle – ich hatte sie alle schon ausprobiert und bin in der Vergangenheit dann doch immer wieder bei GDS gelandet. Jetzt habe ich einen anderen alten Bekannten wiederentdeckt: Recoll.

Recoll erstellt seinen Index relativ schnell (und kann über einen ge-nice-ten Cronjob bzw. Anacronjob angestoßen werden, wenn man das nicht von Hand tun will) und ist in der Bedienung ähnlich komfortabel wie GDS. Wildcards werden ebenso unterstützt wie die Suche nach bestimmten Dateitypen. Ein Teil des Textes um das Suchwort wird für die erleichterte Orientierung gleich mit ausgegeben.

Man kann sich eine Voransicht für Dateien konfigurieren oder schlicht den Ordner öffnen lassen, in der die gefundene Datei steckt. In der Tabelleansicht ist eine Sortierung der Suchergebnisse nach verschiedenen Kriterien möglich. Eine erweiterte Suchfunktion erschlägt den Nutzer mit Einstellmöglichkeiten, die sich ohne Lektüre im Vorfeld (siehe Unten) kaum erschließt.

In den Einstellungen von recoll sollte man sich vor dem ersten Lauf (der etwas dauern kann) seine verwendeten Dokumentensprachen hinzugefügt haben und die Pfadangaben anpassen.

Installiert ist das Programm mit nützlichen Plugins bzw. Erweiterungen (eine entsprechende Prüfung „Show missing helpers“ ist auch über die Oberfläche von recoll zu erreichen) leicht:

sudo apt-get install recoll antiword unrtf libimage-exiftool-perl catdoc pstotext python-chm python-mutagen untex python-excelerator

Ein ausführliches Manual hilft bei komplexeren Suchvorhaben bzw. Einstellungswünschen.

Als Tastaturkürzel für den Aufruf der recoll Suchmaske habe ich mir in meinem Xubuntu Strg links + Strg rechts eingestellt. Das war ich von GDS noch so gewohnt. Sobald Zeitgeist richtig läuft ist der Drops gelutscht.