Volltextsuche - Segmentierung von Texten
Nutzbar ab: Version 20
Veröffentlichungsdatum: 22. August 2025
Änderungsdatum: 23. August 2025
volltextsuche suche indexierung indizierung texte segmentierung segmentieren chinesisch japanisch jieba
Für Textinhalte, bei denen Wörter nicht durch Leerzeichen getrennt werden, müssen die Texte für die Volltextsuche segmentiert werden.
Zur Segmentierung von Texten, wie z.B. der chinesichen oder japanischen Sprache, kann die Jieba-Bibliothek herangezogen werden. Dies ermöglicht es, über entsprechende Algorithmen einen durchgehenden Zeichenstroms in sinnvolle Wörter zu zerlegen.
Ab Weblication® CMS Version 20 unterstützt die Volltextsuche den Einsatz der Jieba-Bibliothek, wenn folgende Schritte durchgeführt werden:
- Ablegen der Jieba-Bibliothek unter /weblication/grid5/appsExtern
- wordSegmentation-Eintrag in der Suche-Konfiguration (siehe unten)
- Durchlauf der Suchindexierung
Beispiel; Auszug aus der default.wSearchBot.php
... <wd:robot xmlns:wd="http://weblication.de/5.0/wd"> ... <wordSegmentation active="1"/> ... </wd:robot>