Veröffentlichungsdatum: 26. Oktober 2016
Änderungsdatum: 27. Oktober 2023
wconf suche suchindizierung suchindexierung external application index search suchen pdf office doc xls ppt pps
Zur Indexierung von PDF- und Office-Dateien werden externe Anwendungen benötigt, die Sie einfach in Weblication® CMS einbinden können.
Zur Indexierung von Office-Dokumenten (PDF, DOC, XLS, etc.) ist zusätzlich zu den Systemvoraussetzungen (hier: Systembefehle über exec) erforderlich, dass der Inhalt dieser Binärdateien bzw. XML-Dateien gelesen werden kann. Hierfür bedient sich Weblication® CMS eines internen Algorithmus und nur bei Bedarf externer Anwendungen, die das Auslesen der Dateien übernehmen.
Klappt ein Auslesen des Inhaltes einer Datei nicht, wird lediglich der Dateiname und die parallele Dokumentenerweiterung dieser Dateien indiziert.
Dateien mit der Dateiendung docx, xlsx, pptx und OpenOffice Dokumente werden direkt über XML ausgelesen, weshalb keine externe Anwendung erforderlich ist! Die weiteren Informationen in diesem Artikel sind daher nur für ältere Office-Dokumente (ohne XML-Datenformat) erforderlich.
Bedenken Sie bitte, daß die nachfolgend genannten externen Anwendungen meist veraltet sind und nicht mehr weiter entwickelt werden. Wir raten daher dringend von deren Verwendung ab und empfehlen den Einsatz des XML-Datenformates (docx, xlsx, xlsx, pptx, OpenOffice).
Wir weisen darauf hin, daß beim Einsatz der im Artikel genannten externen Anwendungen keine Gewährleistung auf Datenübernahme aus den Office- bzw. PDF-Dateien besteht!
Erfahren Sie nachfolgend, wie Sie diese externen Anwendungen für das Zusatzmodul Volltextsuche (PDF-Suche bzw. Office-Suche) einbinden und nutzen.
Die Downloadseiten für die empfohlenen externen Anwendungen finden Sie nachfolgend. Beachten Sie hinsichtlich des Einsatzes die Hinweise am Ende dieses Artikels.
Externe Anwendung | Homepage / Download | Dateiendungen |
---|---|---|
Xpdf | http://www.xpdfreader.com/
Vom Webserver bereitgestellte Xpdf-Software: | |
Antiword | http://www.winfield.demon.nl/ Nachfolgend stellen wir die auf einem Linux-Server bei Domainfactory getestete Version Antiword 0.3.7 (32bit Version) zum Download als TGZ bereit. Beachten Sie bitte die Lizenzhinweise auf der Herstellerseite! | .doc |
xlhtml | http://chicago.sourceforge.net/xlhtml/ Nachfolgend stellen wir die auf einem Linux-Server bei Domainfactory getestete Version xlHtml 0.4.9.4 (32bit Version) zum Download als TGZ bereit. Beachten Sie bitte die Lizenzhinweise auf der Herstellerseite! | .xls, .ppt |
Zend-Framework | Das Zend-Framework kann bis CMS-Version 10.x über die 'Administration - Serverinformationen' für Weblication® nachinstalliert werden und wird im Softwareverzeichnis von Weblication® abgelegt (appsExtern). In neueren Versionen legen Sie dies manuell unter /weblication/grid5/appsExtern als Verzeichnis /zend ab. Wenden Sie sich hierzu bitte an den Support.
Dies ist zum Auslesen von Office Dateien (2007 und höher) mit der Endung .docx und .xlsx erforderlich. Zend greift zum Öffnen der Dateien auf die PHP-Klasse ZipArchive zurück, die in der PHP-Umgebung eingebunden sein muss. Hinweis: | .docx, .xlsx |
Entpacken Sie die Anwendungen in das Verzeichnis:
Sofern Sie die Dateien via FTP/SSH übertragen, achten Sie darauf, dass Sie alle Dateien im Binär-Modus übertragen.
Ob die externen Anwendungen korrekt abliegen und auch die erforderlichen Ausführenrechte besitzen, erfahren Sie über den Funktionstest zu Beginn jeder Indexierung. Ein grünes "ok" hinter der genannten Anwendung bedeutet, dass die externe Anwendung verwendet werden kann.
Sofern Sie beim Funktionstest ein "error" anstatt des "ok" zum jeweiligen Application Check erhalten, prüfen Sie bitte über das Register "Debuginformationen" die detaillierte Fehlermeldung hierzu. Bei der PDF-Applikation könnte dies z.B. wie folgt aussehen:
PDF Check: Outputfile /var/www/htdocs/weblication/grid5/tmp/tmp_pdf_891604.html doesn't exist... Probably can't execute command "/var/www/htdocs/weblication/grid5/appsExtern/pdftotext/pdftotext -htmlmeta /var/www/htdocs/weblication/grid5/tmp/tmp_pdf_891604.pdf" or PDF file is password protected.
Prüfen Sie in solch einem Fall zuerst einmal, ob Sie auch wirklich die Ausführenrechte auf die entsprechende Datei (z.B. pdftotext) gesetzt haben. Wenn dies der Fall ist, setzen Sie den in der Meldung genannten Aufruf (command) direkt in der Shell ab. Vergewissern Sie sich zuvor, daß die angegebene PDF-Datei im tmp-Verzeichnis mit dem Namen auch abliegt (kann eine Test-Datei sein). Nach einem erfolgreichen Aufruf muß parallel zu dieser PDF-Datei eine .html-Datei mit gleichem Namen abliegen (im Beispiel also die in der Fehlermeldung genannte Datei: tmp_pdf_891604.html). Wird diese Datei nicht angelegt, wenden Sie sich bitte an Ihren Provider, der sich anhand des direkten Shellaufrufes auf die Fehlersuche machen kann.
Tipp:
Damit Sie beim Debuggen nicht immer auf den kompletten Suchindex-Durchlauf warten müssen, geben Sie in den Sucheinstellungen einfach eine falsche Start-URL an.
Weitere mögliche error-Ursachen: