Im Kapitel Suchmaschinen wurde dieses Thema bereits kurz mal angesprochen. Schätzungen gehen davon aus, dass weniger als 20% der im WWW angelegten Websides den Suchmaschinen bekannt ist. Dieses kann verschiedene Gründe haben. Seiten wurden nicht angemeldet oder sind Passwort geschützt und es führen auch keine Links von anderen Seiten zu ihnen, über welche die robots (Softwareprogramme die das Internet durchstöbern) der Suchmaschinen sie aufspüren könnten. Mancher Serverbetreiber, aus welchen Gründen auch immer, blockiert diese robots teilweise oder sogar komplett.
Auf viele dieser Seiten kommt man nur per Väterchen Zufall oder wenn man so eine URL übermittelt bekommt. Dies muss nicht einmal hinter vorgehaltener Hand und heimlich geschehen. Aber man soll jetzt nicht denken, dass es sich hier um den Sumpf des WWW handelt, welcher vollgestopft mit illegalen Inhalten jeder nur denkbaren Sparte ist. Mit Sicherheit gehören große (?) Teile dieser unbekannten Tiefen in den Bereich Illegalität. Das will ich hier auch gar nicht beschönigen. Es gibt aber auch andere Gründe. So liegen hier sehr viele ganz normale Seiten in denen sich Familien vorstellen, virtuelle Photoalben, Diplomarbeiten, angefangene und nie fertig gestellte Seiten oder ähnliches. Eins haben sie aber gemeinsam. Sie wurden bei keiner Suchmaschine angemeldet oder haben falsche oder fehlende Metatags und da sie auch von anderen Seiten her nicht verlinkt sind, kann sie natürlich auch kein robot aufspüren und so bleiben sie den Nutzern von Suchmaschinen und der großen Öffentlichkeit verborgen.
Aber nicht nur Teile des WWW bleiben verborgen. Die Gesamtheit des Internets besteht ja aus viel mehr (siehe auch „Mehr als das WWW“) als nur den bisher erwähnten Webseiten. Unter anderem gibt es große Datenbankbestände, welche man zwar über das WWW ansurfen kann auf die aber die robots keinen Zugriff erhalten. Man geht davon aus, dass diese Datenbanken etwa die Hälfte des Internets darstellen. Sie können sie auch ansurfen und den Inhalt meist kostenlos nutzen. Bei diesen Datenbanken handelt es sich oft um FTP-Server der Universitäten weltweit. Was dort an Wissen zu finden ist, kann man sich wohl gut vorstellen.
Warum bekommen dann die robots im Gegensatz zu ihnen keinen Zugriff auf die Textbestände, die es hier in Riesenmengen gibt? Wenn sie in solchen Datenbanken recherchieren dient das WWW nur als Schnittstelle. Von hier wird die Anfrage an den externen Rechner der die Datenbank beherbergt weitergeleitet. Das Ergebnis wird ihnen dann im HTML-Format (HTML = Hypertext Markup Language / Haupt-Programmiersprache des WWW) angezeigt. Diese Schnittstelle können die robots nicht überspringen. Allerdings wird an Lösungsmöglichkeiten gearbeitet, um sie dem Nutzer der normalen Suchdienste zugänglich zu machen.
Beim WWW gingen wir von weniger als 20% der Gesamtseiten aus, welche den Suchmaschinen bekannt ist. Nehmen wir jetzt noch den Rest des Internets dazu, dann können sie über die normalen Suchmaschinen wesentlich weniger als 1% der Datenbestände finden. Diese Gesamtheit der von den Suchmaschinen nicht zu erreichbaren Seiten des Internets wird auch als Deep Web bezeichnet.
Um jetzt selbst an diese Datenbankbestände zu gelangen gibt es spezielle Suchmaschinen für Datenbankbestände. Eine davon ist Complete Planet (leider nur in englischer Sprache) aber mit über 100000 Eintragungen. Eine deutsche Anlaufseite wären Internet-Datenbanken (ca. 200 Eintragungen). Man hat auch die Möglichkeit eine normale Suchmaschine mit den Begriffen Datenbanken oder Datenbankarchive zu füttern. Bei Google benötigen sie hierzu nicht mal die Erweiterte Suche (siehe unter Suchmaschinen). Oder man bedient sich selbst eines Softwareprogramms wie dem LexiBot (Shareware, 30 Tage Testzeit).
Noch Fragen zu diesem oder anderen Themen rund um PC und Internet?
Dann kommt doch einfach mal bei uns vorbei.
Das Team der PC-Hilfe
Community hilft euch gerne weiter.