Veröffentlichungsdatum: 26. Oktober 2016
Änderungsdatum: 17. April 2020
Zur Indexierung von PDF- und Office-Dateien werden externe Anwendungen benötigt, die Sie einfach in Weblication® CMS einbinden können.
Zur Indexierung von Office-Dokumenten (PDF, DOC, XLS, etc.) ist es zu den Systemvoraussetzungen (hier: Systembefehle über exec) erforderlich, dass der Inhalt dieser Binärdateien gelesen werden kann. Hierfür bedient sich Weblication® CMS externer Anwendungen, die das Auslesen der Dateien übernehmen. Beachten Sie hierzu die Hinweise am Artikelende! Andernfalls kann nur der Dateiname und die parallele Dokumentenerweiterung dieser Dateien indexiert werden.
Erfahren Sie nachfolgend, wie Sie diese externen Anwendungen für das Zusatzmodul Volltextsuche (PDF-Suche bzw. Office-Suche) einbinden und nutzen.
Die Downloadseiten für die empfohlenen externen Anwendungen finden Sie nachfolgend. Beachten Sie hinsichtlich des Einsatzes die Hinweise am Ende dieses Artikels.
Externe Anwendung | Homepage / Download | Dateiendungen |
---|---|---|
Xpdf | http://www.foolabs.com/xpdf/download.html Nachfolgend stellen wir die auf einem Linux-Server bei Domainfactory getestete Version Xpdf 3.0.3 (32bit Version) zum Download als TGZ bereit. Beachten Sie bitte die Lizenzhinweise auf der Herstellerseite! Die Version 3.0.4 konnten wir leider nicht zum Laufen bringen... Hinweis: Vom Webserver bereitgestellte Xpdf-Software: | |
Antiword | http://www.winfield.demon.nl/ Nachfolgend stellen wir die auf einem Linux-Server bei Domainfactory getestete Version Antiword 0.3.7 (32bit Version) zum Download als TGZ bereit. Beachten Sie bitte die Lizenzhinweise auf der Herstellerseite! | .doc |
xlhtml | http://chicago.sourceforge.net/xlhtml/ Nachfolgend stellen wir die auf einem Linux-Server bei Domainfactory getestete Version xlHtml 0.4.9.4 (32bit Version) zum Download als TGZ bereit. Beachten Sie bitte die Lizenzhinweise auf der Herstellerseite! | .xls, .ppt |
Zend-Framework | Das Zend-Framework kann bis CMS-Version 10.x über die 'Administration - Serverinformationen' für Weblication® nachinstalliert werden und wird im Softwareverzeichnis von Weblication® abgelegt (appsExtern). In neueren Versionen legen Sie dies manuell unter /weblication/grid5/appsExtern als Verzeichnis /zend ab. Wenden Sie sich hierzu bitte an den Support.
Dies ist zum Auslesen von Office Dateien (2007 und höher) mit der Endung .docx und .xlsx erforderlich. Zend greift zum Öffnen der Dateien auf die PHP-Klasse ZipArchive zurück, die in der PHP-Umgebung eingebunden sein muss. Hinweis: | .docx, .xlsx |
Entpacken Sie die Anwendungen in das Verzeichnis:
Sofern Sie die Dateien via FTP/SSH übertragen, achten Sie darauf, dass Sie alle Dateien im Binär-Modus übertragen.
Ob die externen Anwendungen korrekt abliegen und auch die erforderlichen Ausführenrechte besitzen, erfahren Sie über den Funktionstest zu Beginn jeder Indexierung. Ein grünes "ok" hinter der genannten Anwendung bedeutet, dass die externe Anwendung verwendet werden kann.
Sofern Sie beim Funktionstest ein "error" anstatt des "ok" zum jeweiligen Application Check erhalten, prüfen Sie bitte über das Register "Debuginformationen" die detaillierte Fehlermeldung hierzu. Bei der PDF-Applikation könnte dies z.B. wie folgt aussehen:
PDF Check: Outputfile /var/www/htdocs/weblication/grid5/tmp/tmp_pdf_891604.html doesn't exist... Probably can't execute command "/var/www/htdocs/weblication/grid5/appsExtern/pdftotext/pdftotext -htmlmeta /var/www/htdocs/weblication/grid5/tmp/tmp_pdf_891604.pdf" or PDF file is password protected.
Prüfen Sie in solch einem Fall zuerst einmal, ob Sie auch wirklich die Ausführenrechte auf die entsprechende Datei (z.B. pdftotext) gesetzt haben. Wenn dies der Fall ist, setzen Sie den in der Meldung genannten Aufruf (command) direkt in der Shell ab. Vergewissern Sie sich zuvor, daß die angegebene PDF-Datei im tmp-Verzeichnis mit dem Namen auch abliegt (kann eine Test-Datei sein). Nach einem erfolgreichen Aufruf muß parallel zu dieser PDF-Datei eine .html-Datei mit gleichem Namen abliegen (im Beispiel also die in der Fehlermeldung genannte Datei: tmp_pdf_891604.html). Wird diese Datei nicht angelegt, wenden Sie sich bitte an Ihren Provider, der sich anhand des direkten Shellaufrufes auf die Fehlersuche machen kann.
Tipp:
Damit Sie beim Debuggen nicht immer auf den kompletten Suchindex-Durchlauf warten müssen, geben Sie in den Sucheinstellungen einfach eine falsche Start-URL an.
Weitere mögliche error-Ursachen: