Wie funktionieren Suchmaschinen?

| Von

wie-funktionieren-suchmaschinen-funktioniert-2

Artikel aktualisiert von Joel Lee am 10.10.2017

Für viele ist Google das Internet. Es ist der Anfangsfaktor, um brandneue Websites zu finden, und ist wohl die wichtigste Kreation, weil das Netz selbst. Ohne Internet-Suchmaschine wären neue Internet-Inhalte für die breite Masse sicherlich unerreichbar.

Aber wissen Sie, wie Online-Suchmaschinen funktionieren? Jede Online-Suchmaschine hat drei Hauptfunktionen: Kriechen (um Inhalte zu entdecken), Indexieren (um Material zu verfolgen und auch aufzubewahren) sowie Abrufen (um geeignetes Material zu holen, wenn Personen die Suchmaschine abfragen).

Krabbeln

Beim Schleichen beginnt alles: der Kauf von Daten über eine Internetseite.

Dies beinhaltet das Scannen von Websites sowie das Sammeln von Informationen zu jeder Website: Titel, Bilder, Schlüsselwörter, andere verlinkte Seiten usw. Verschiedene Spinnen können auch nach verschiedenen Details suchen, z. B. nach Seitenlayouts, wo Werbeaktionen platziert werden, ob Links vollgestopft sind und so weiter.

Doch wie wird eine Website gecrawlt? Ein automatisierter Crawler (genannt „Spider“) besucht so schnell wie möglich eine Webseite nach der anderen und verwendet Webseiten-Links, um herauszufinden, wohin es als nächstes gehen soll. Schon in den ersten Tagen können die Crawler von Google mehrere hundert Seiten pro Sekunde überprüfen. Heutzutage geht es in die Tausende.

Wenn ein Webcrawler eine Webseite auscheckt, sammelt er jeden Weblink auf der Seite und fügt ihn seiner Liste der nächsten zu besuchenden Webseiten hinzu. Es ist höchstwahrscheinlich zur nächsten Seite in seiner Checkliste, sammelt die Weblinks auf dieser bestimmten Webseite und wiederholt sich. Internet-Spider besuchen auch von Zeit zu Zeit vergangene Webseiten, um zu sehen, ob irgendwelche Anpassungen vorgenommen wurden.

Dies deutet darauf hin, dass jede Site, die von einer indizierten Website aus verbunden ist, eingeschlichen wird. Einige Sites werden viel häufiger gecrawlt, andere werden auch in größere Tiefen gecrawlt, aber gelegentlich kann ein Crawler aufgeben, wenn die Seitenhierarchie einer Website ebenfalls komplex ist.

Eine Möglichkeit, die Funktionsweise einer Webspinne genau zu verstehen, besteht darin, selbst eine zu bauen. Wir haben ein Tutorial zur Entwicklung eines grundlegenden Internet-Crawlers in PHP erstellt, also prüfen Sie das, wenn Sie Programmiererfahrung haben.

Beachten Sie, dass Webseiten als „noindex“ markiert werden können, was so ist, als würden Sie eine Online-Suchmaschine bitten, ihre Indizierung zu überspringen. Nicht indizierte Komponenten des Netzes werden als „Deep Internet“ bezeichnet und einige Websites, wie die im TOR-Netzwerk gehosteten, können nicht von einer Internetsuchmaschine indiziert werden. (Was ist TOR und auch Zwiebeldirektion?)

Indizierung

Bei der Indizierung werden die Informationen aus einem Crawl verfeinert und in einer Datenbank abgelegt.

Stellen Sie sich vor, Sie erstellen eine Checkliste aller Leitfäden, die Sie besitzen, ihrer Autoren, ihrer Autoren, ihrer Kategorien, ihrer Webseiten-Angelegenheiten und so weiter. Crawling ist, wenn Sie jedes Buch durchsuchen, während Sie die Indexierung in Ihre Checkliste aufnehmen.

Stellen Sie sich jetzt vor, es ist nicht nur ein Raum voller Publikationen, sondern jede Bibliothek weltweit. Das ist eine kleine Variante dessen, was Google tut, das all diese Informationen in riesigen Rechenzentren mit Festplatten im Wert von Tausenden von Petabyte speichert.

Hier ist ein Blick in die Suchrechenzentren von Google:

Bildnachweis: Google

Retrieval und auch Ranking

Retrieval ist, wenn die Internetsuchmaschine Ihre Suchanfrage verarbeitet und eine der relevantesten Webseiten zurückgibt, die Ihrer Suchanfrage entsprechen.

Viele Suchmaschinen unterscheiden sich durch ihre Retrieval-Ansätze: Sie verwenden unterschiedliche Standards, um auszuwählen, welche Seiten am besten zu dem passen, was Sie finden möchten. Deshalb reichen die Suchergebnisseiten von Google und auch Bing, und Wolfram Alpha ist so unverwechselbar wertvoll.

Ranking-Algorithmen prüfen Ihre Suchanfrage gegen Milliarden von Seiten, um die Bedeutung jedes einzelnen zu identifizieren. Unternehmen schützen ihre Ranking-Algorithmen aufgrund ihrer Komplexität als patentierte Branchenschlüssel. Ein viel besserer Algorithmus führt zu einem besseren Sucherlebnis.

Sie wollen auch nicht, dass Internet-Designer das System per Videospiel spielen und ungerechterweise die Spitzen der Suchmaschinenergebnisse erreichen. Wenn die innere Methodik einer Suchmaschine jemals herauskam, würden alle Arten von Menschen dieses Verständnis zweifellos zum Nachteil von Suchenden wie Ihnen und mir ausnutzen.

Bildnachweis: photovibes über Shutterstock

Die Ausnutzung von Suchmaschinen ist natürlich möglich, aber nicht mehr so ​​einfach.

Ursprünglich bewerteten Suchmaschinen Websites nach der Häufigkeit, mit der Keywords auf einer Webseite auftauchten, was zu „Keyword Packing“ führte – also Webseiten mit Keyword-lastigem Unsinn zu füllen.

Dann kam das Konzept der Bedeutung von Weblinks: von Online-Suchmaschinen bewertete Websites mit vielen eingehenden Weblinks, weil sie die Attraktivität der Website als Relevanz übersetzten. Aber dies führte dazu, dass Spamming über das Internet verbunden wurde. Heutzutage gewichten Internet-Suchmaschinen Weblinks in Abhängigkeit von der „Autorität“ der verbindenden Website. Internet-Suchmaschinen legen mehr Wert auf Links von einer Regierungsbehörde als auf Weblinks von einer Weblink-Verzeichnis-Site.

Ranking-Algorithmen sind heute rätselhafter denn je und auch „Suchmaschinenoptimierung“ ist nicht mehr so ​​wichtig. Gute Online-Suchmaschinenpositionen entstehen derzeit aus hochwertigem Material und fantastischen individuellen Erfahrungen.

Wie geht es weiter für Suchmaschinen?

Ah, derzeit gibt es eine interessante Anfrage. Die Lösung heißt „Semiotik“: die Definition des Inhalts einer Webseite. Weitere Informationen dazu finden Sie in unserem Überblick über semantisches Markup und seine zukünftigen Auswirkungen.

Aber unten ist das Wesentliche.

Heute können Sie nach „glutenfreien Keksen“ suchen, aber die Ergebnisse geben möglicherweise Rezepte für glutenfreie Kekse zurück. Stattdessen finden Sie möglicherweise normale Keksgerichte mit der Aufschrift „Dieses Rezept ist nicht glutenfrei“. Es hat die besten Schlüsselwörter, aber die falsche Definition.

Mit Semiotik können Sie nach Keksgerichten suchen und anschließend bestimmte Komponenten entfernen: Mehl, Nüsse usw. Sie können die Ergebnisse auch auf Gerichte mit Zubereitungszeiten von viel weniger als 30 Minuten sowie auf Erfahrungsberichte von 4/5 oder höher eingrenzen . Das wäre cool, ideal? Da sind wir unterwegs!

Sie sind immer noch verwirrt darüber, wie Suchmaschinen funktionieren? Sehen Sie, wie Google das Verfahren klärt:

Wenn Sie das faszinierend fanden, möchten Sie vielleicht auch herausfinden, wie Bildsuchmaschinen funktionieren.

Bildnachweis: prykhodov/ Depositphotos

Denken Sie daran, dass Seiten als „noindex“ markiert werden können, was so ist, als würden Sie Suchmaschinen bitten, ihre Indexierung zu überspringen. Retrieval ist, wenn die Suchmaschine Ihre Suchanfrage verarbeitet und die relevantesten Webseiten zurückgibt, die Ihrer Frage entsprechen. Die meisten Suchmaschinen zeichnen sich durch ihre Zugangsansätze aus: Sie verwenden verschiedene Anforderungen, um auszuwählen und auszuwählen, welche Webseiten am besten zu dem passen, was Sie entdecken möchten. Ursprünglich ordneten Suchmaschinen Websites nach der Häufigkeit, mit der Suchphrasen auf einer Webseite auftauchten, was zu „Keyword Stuffing“ führte – das Laden von Webseiten mit Keyword-lastigem Unsinn.[

Klicken Sie, um diesen Beitrag zu bewerten!
[Gesamt: 0 Durchschnitt: 0]

Andere verwandte Artikel

RAM vs. VRAM: Was ist der Unterschied?

Wenn Sie einen Videospielcomputer bauen, haben Sie höchstwahrscheinlich zwei ähnlich klingende Begriffe gefunden: RAM und VRAM. Was bedeuten diese Begriffe…

Was ist Cash-App?

Money App ist ein mobiles Peer-to-Peer-Rückzahlungssystem, mit dem Einzelpersonen Geld senden und erhalten können. Im Gegensatz zu Finanzinstituten richtet sich…

Schreibe einen Kommentar