So schliessen Sie Inhalte bei der Suchindizierung aus

Nutzbar ab: Version

Dieser Artikel beschreibt, wie Sie Seiten bzw. Bereiche beim Indizieren ausschliessen.

Das Weblication® CMS Zusatzmodul Volltextsuche indiziert die Präsenz als Robot und erfasst somit die Daten in Inhaltsseiten, wie diese ausgegeben werden.

Um nun komplette Seiten bzw. Bereiche innerhalb einer Seite von der Suchindexierung auszuschliessen bzw. Bereiche einzuschränken, stehen Ihnen folgende Möglichkeiten zur Verfügung.

1) Ausschliessen von Dateien

1.1 Ausschliessen über Meta-Tag Angabe

Im Beispielprojekt lassen sich über die Bearbeitung der Metadaten Einstellungen zur Suche vornehmen. So können Sie über die Auswahlbox "Durchsuchbar" (siehe Screenshot) eine Datei von der Suchindizierung ausschliessen, indem Sie diese Einstellung auf "Nein" setzen.
Dies wird im Quelltext der Datei innerhalb des value's des wd:robots Tags gesetzt (index bzw. noindex), siehe Quelltextbeispiel.

Bearbeitung der Metadaten - Einstellung für Suchindizierung (Durchsuchbar)
Bearbeitung der Metadaten - Einstellung für Suchindizierung (Durchsuchbar)

Beispiel: Auszug aus einer Inhaltsseite mit Robots-Einstellung

...
<wd:document xmlns:wsl="http://weblication.de/5.0/wsl" xmlns:wd="http://weblication.de/5.0/wd" version="1.0" type="page.standard" checksum="6dd4d84db4e280ef57a8d867a4a3b5be">
  <wd:extension type="weblication" version="5.0" uid="94f58dd0ce155bf76528221fc050653c">
    <wd:meta>
      <wd:title>Startseite</wd:title>
      <wd:description>Weblication CMS Demoseite</wd:description>
      ...
      <wd:robots value="index"/>
      ...
    </wd:meta>
...
Ab CMS-Version 009.003.240.000 unterstützt die Software auch folgenden Eintrag, um dafür zu sorgen, daß eine Seite nicht von externen Suchdiensten/Suchmaschinen/Robots indiziert wird, aber von der Weblication® internen Volltextsuche erfasst werden kann:

<wd:robots value="noindex, search"/>

Als Meta-Tag:

<meta name="Robots" content="noindex, search"/>

1.2 Ausschliessen über X-Robots-Tag

Sie können eine Seite auch über den HTTP-Header für Suchdienste verbieten, wozu Ihnen das X-Robots-Tag zur Verfügung steht (siehe z.B. Google: Spezifikationen für Robots-Meta-Tags und X-Robots-Tag-HTTP-Header).
Beachten Sie dazu, daß keine Sicherheit/Gewähr besteht, daß Suchdienste dies korrekt interpretieren!

2) Ausschliessen von Teilbereichen einer Seite

Teilbereiche einer Seite werden standardmässig schon dadurch bei der Suchindizierung ausgeschlossen, indem die Weblication® Volltextsuche nur die Inhalte von Webseiten erfasst, die innerhalb von CONTENT:START und CONTENT:STOP Kommentaren liegen. Mehrere CONTENT:START / CONTENT:STOP Blöcke werden ab Version 005.048.005.000 unterstützt. Alles ausserhalb dieser Kommentare wird nicht in den Suchindex mit aufgenommen. Sofern diese Kommentare nicht gesetzt sind, wird alles innerhalb des Body indiziert.

Beispiel: Auszug aus der includes.global.php mit Definition des Inhaltes

...
  <!-- Inhaltsgruppe 1 (content1): Hier wird der Hauptinhalt eingebunden -->
  <xsl:template name="content1">
    <xsl:comment>CONTENT:START</xsl:comment>                   
      <xsl:apply-templates select="/wd:document/wd:extension/wd:object"/>
    <xsl:comment>CONTENT:STOP</xsl:comment>  
  </xsl:template>   
...

Sofern Sie darüber hinaus ganz bestimmte Teilbereiche der Seite von der Indexierung ausschließen möchten, können Sie mit den folgenden Kommentaren arbeiten.

  • wSearch:noindex
    Der umschlossene Bereich wird nicht indiziert. Links innerhalb dieses Bereiches werden weiterverfolgt.
  • wSearch:nosearch
    Der umschlossene Bereich wird nicht indiziert. Links innerhalb dieses Bereiches werden nicht weiterverfolgt.
  • wSearch:nofollow
    Der umschlossene Bereich wird indiziert. Links innerhalb dieses Bereiches werden nicht weiterverfolgt.


Beispiel: Auszug aus einem XSLT-Template - Ausschließen eines Bereiches aus der Suchindexierung mit Linkverfolgung

...
<xsl:comment>wSearch:noindex</xsl:comment>
... auszuschliessender Bereich ...
<xsl:comment>/wSearch:noindex</xsl:comment>
...

Beispiel: Auszug aus einem XSLT-Template - Ausschließen eines Bereiches aus der Suchindexierung ohne Linkverfolgung

...
<xsl:comment>wSearch:nosearch</xsl:comment>
... auszuschliessender Bereich, keine Linkverfolgung ...
<xsl:comment>/wSearch:nosearch</xsl:comment>
...

Beispiel: Auszug aus einem XSLT-Template - Einbinden eines Bereiches ohne Linkverfolgung

...
<xsl:comment>wSearch:nofollow</xsl:comment>
... Bereich wird indiziert, keine Linkverfolgung ...
<xsl:comment>/wSearch:nofollow</xsl:comment>
...

3) Handhabung von Querystrings

Gerade Robots, Suchdienste, Skripte, etc. können beim Einsatz von Querystrings teils zu beachtlichen URL-Konstellationen kommen. Dies sollte über die Volltextsuche Einstellungen entsprechend berücksichtigt werden.

Daher bieten die Einstellungen zur Suche schon diverse Möglichkeiten hierzu an:

  • Auszuschließende Querystrings
    Beispiel-Einstellung: searchTerm=|viewmode=
  • Zu reduzierende Zeichen
    Beispiel-Einstellung: [\?&]navid=(\d*)?|[\?&]selected\w+=[^&]*|[\?&]firstLetter=[^&]*

Bei o.g. Beispiel-Einstellung ist ersichtlich, daß die Querystring / URL-Parameter "pageId" und "moreId" nicht bei den zu reduzierenden Zeichen mit angegeben sind. Demnach werden URLs mit den Parametern zur Volltextsuche-Indizierung erstmal nicht reduziert.

Folgende Einstellung in der Projektkonfiguration in Verbindung mit dem aktuellen  insertPageRobots-Templates in der htmlHead.wGlobal.php sorgt aber dafür, daß diese URLs nicht indiziert, aber Links weiterverfolgt werden.

Auszug aus der Projektkonfiguration zu Suche-Einstellungen

  <variable description="Robots Angabe, falls ein pageId-Parameter für Blätterlisten existiert" key="metarobots_if_pageid" type="char.default">noindex,follow</variable>
  <variable description="Robots Angabe, falls ein moreId-Parameter für Blätterlisten existiert" key="metarobots_if_moreid" type="char.default">noindex,follow</variable>

4) Hinweise

Beachten Sie, daß CONTENT:START ... CONTENT:STOP Blöcke nicht ineinander verschachtelt werden dürfen. Dies beinträchtigt die Funktionsweise für die Suche.