Τι είναι το crawling των μηχανών αναζήτησης;
Το crawling είναι η διαδικασία που γίνεται από τα ρομπότ και τις αράχνες των μηχανών αναζήτησης στην οποία επισκέπτονται όλες τις σελίδες στον ιστό, τις αποθηκεύουν και εξάγουν όλα τα backlinks που ανακαλύπτουν για να βρουν και άλλες σελίδες.
Οι ιστοσελίδες και όλοι οι webamsters γνωρίζουν ότι οι search engine crawlers διατρέχουν ανά τακτά χρονικά διαστήματα το site τους για να δουν άμα υπάρχουν αλλαγές ή ανανεώσεις από την τελευταία φορά που επισκέφτηκαν την ιστοσελίδα.
Εάν υπάρχουν αλλαγές ή ανανεώσεις, τότε ενημερώνουν τον δείκτη τον μηχανών αναζήτησης ή το Google Index με το νέο περιεχόμενο και τα νέα backlinks.
Ο δείκτης της Google δεν λειτουργεί σε πραγματικό χρόνο για αυτό και υπάρχει μια καθυστέρηση στην αποτύπωση των πραγματικών αποτελεσμάτων αναζήτησης. Αυτή η καθυστέρηση μπορεί να κρατήσει από μερικές μέρες έως και εβδομάδες, ανάλογα με το πόσο γρήγορα θα γίνει το crawling και η ενημέρωση των νέων δεδομένων.
Σε ιστοσελίδες οι οποίες έχουν συχνότερη ή καθημερινή ενημέρωση, η διαδικασία του crawling είναι σχεδόν καθημερινή και πολλές φορές απαιτούνται λίγα λεπτά για να καταγραφεί στο Google Index μια νέα σελίδα ή ένα νέο άρθρο ή ένα νέο βίντεο.
Πάρτε για παράδειγμα ένα ειδησεογραφικό site. Μια είδηση που έχει ανέβει 9 και 15, μπορεί να εμφανιστεί στα αποτελέσματα αναζήτησης στις 9 και 16. Αυτό σημαίνει ότι το crawling γίνεται σχεδόν αυτόματα ανά ένα λεπτό λόγω της φύσης της ιστοσελίδας.
Πως λειτουργεί το search engine crawling;
Βασικά ξέχασα να σας πω να με συγχωρέσετε για την υπερβολικά πολύ μεγάλη τεχνική ορολογία. Θα προσπαθήσω να απλοποιήσω τα πράγματα και τις έννοιες ώστε να γίνουν κατανοητές από τον μέσο χρήστη, όσο αυτό είναι δυνατό.
Απλά είναι η φύση του αντικειμένου τέτοια που όσο και να το απλοποιούμε, έχει έναν βαθμό δυσκολίας.
Όπως είπαμε και παραπάνω οι μηχανές αναζήτησης χρησιμοποιούν η κάθε μια τους δικούς τους web crawlers για να ανακαλύψουν νέες σελίδες στον παγκόσμιο ιστό
(εξού και το World Wide Web).
Όλες οι γνωστές μηχανές αναζήτησης ξεκινάνε το crawling (προσπέλαση) μιας ιστοσελίδα από το να κατεβάζουν (downloading) το αρχείο robots.txt. Στο αρχείο robots.txt περιέχονται όλοι οι κανόνες που θα πρέπει να ακολουθήσουν οι crawlers για το ποιο περιεχόμενο θα προσπελάσουν και ποιο όχι.
Ένα τυπικό robots.txt από μια ιστοσελίδα θα πρέπει να έχει την παρακάτω μορφή:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Κάποιοι από εσάς ίσως τώρα να αναρωτιούνται άμα η δική τους ιστοσελίδα έχει αρχείο robots.txt για να κατευθύνει τα ρομπότ των μηχανών αναζήτησης.
Εκτός από όσους έχουν επιλέξει custom ιστοσελίδα χτισμένη με κώδικα και όχι με κάποιο δημοφιλές CMS όπως το WordPress, Joomla, Magento, Opencart κτλ, όλα τα άλλα CMS έχουν από μόνα τους προεγκατεστημένο αρχείο robots.txt.
Στη συνέχεια οι search engine crawlers, χρησιμοποιούν από μόνοι τους μια σειρά από κανόνες και αλγορίθμους για να καθορίσουν πόσο συχνά θα επισκέπτονται μια ιστοσελίδα, ποιες και πόσες σελίδες θα προσπελάζουν και ποιες και πόσες θα προσθέτουν στον δείκτη τους.
Ποια είναι τα είδη των crawlers των μηχανών αναζήτησης;
Τα bots των μηχανών αναζήτησης μπορούν να κατηγοριοποιηθούν από τον διαφορετικό User Agent ( πρόγραμμα προσπέλασης) που χρησιμοποιούν όταν αναζητάνε νέες ιστοσελίδες στο ίντερνετ.
Παρακάτω σας παραθέτω τους σημαντικότερους User Agents:
- Googlebot User Agent
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) - Bingbot User Agent
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) - Baidu User Agent
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) - Yandex User Agent
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
Οι user agents είναι ελεύθεροι προς χρήση από τον καθένα μας εκτός από τις μηχανές αναζήτησης. Ωστόσο, η IP που χρησιμοποιείται για κάθε αναζήτηση, επιβεβαιώνει το γεγονός άμα ο user agent προήρθε από κάποια μηχανή αναζήτησης ή όχι.
Η παραπάνω διαδικασία ελέγχου και διασταύρωσης της IP για καθαρά εγκυκλοπαιδικούς λόγους το αναφέρω, λέγεται reverse DNS lookup.
Τι περιεχόμενο αναγνωρίζουν οι Web crawlers;
Το περιεχόμενο που γίνεται crawling κάθε φορά μπορεί να κατηγοριοποιηθεί σε:
- Εικόνες και άλλα αρχεία που δεν είναι κείμενο όπως βίντεο, αρχεία ήχου
- Backlink
- Sitemaps
Στις εικόνες, οι web crawlers χρησιμοποιούν τα μέτα δεδομένα της εικόνας όπως το alt text (εναλλακτικό κείμενο).
Στα backlinks υπάρχει μια διαδικασία που λέγεται recrawling, όπου οι web crawlers διαπερνάνε συνέχεια τις ήδη ταξινομημένες σελίδες για να ανακαλύψουν νέα urls και νέα backlinks.
Τα νέα URLs που ανακαλύπτονται μέσω των νέων backlinks που δείχνουν προς αυτά εντάσονται στο crawl queue, ώστε να προσπελαστούν αναλυτικά αυτά και το περιεχόμενο τους αργότερα, σε επόμενο recrawling.
Συμπερασματικά, η αξία του crawling είναι πολύ μεγάλη γιατί για να ταξινομηθεί μια ιστοσελίδα στο ίντερνετ, θα πρέπει αυτή να έχει ένα τουλάχιστον backlinks από μια άλλη ιστοσελίδα που έχει ήδη προσπελαστή από τα ρομπότ και είναι ήδη ταξινομημένη στις μηχανές αναζήτησης.
Τα sitemaps είναι τα xml sitemaps και μπορείτε να δείτε περισσότερα για αυτά παρακάτω.
Προσοχή στις ορφανές σελίδες
Για αυτό τον λόγο δεν θα πρέπει ποτέ να έχουμε ορφανές σελίδες (orphan pages) ή τυφλές σελίδες στο site μας. Σελίδες δηλαδή που δεν έχουν κανένα backlink από κάποια άλλη σελίδα.
Προς αυτήν την κατεύθυνση θα μας βοηθούσε άμα δημιουργούσαμε ένα HTML sitemap που θα περιείχε όλες τις σελίδες τις ιστοσελίδας μας με link.
Δείτε ένα παράδειγμα:
Υποβολή xml sitemaps στη Google και web crawling
Άμα έχετε κάποια ιστοσελίδα που δεν έχει ανακαλυφθεί από την Google μπορείτε να την υποβάλλεται μεμονωμένα άμα επισκεφτείτε το Google Search Console.
Παράλληλα, μπορεί να υποβάλετε το xml sitemap της ιστοσελίδας σας στις μηχανές αναζήτησης. Αυτό θα βοηθήσει τη Google να ταξινομήσει την ιστοσελίδα σας και το περιεχόμενο της βαθύτερα και ταχύτερα από πριν.
Όταν λέμε βαθύτερα εννοούμε σε όλα τα επίπεδα υποσελίδων εκτός από το πρώτο επίπεδο.
Πως να ελέγξετε άμα η ιστοσελίδα σας έχει ταξινομηθεί στη Google
Άμα έχετε αμφιβολίες για το άμα η ιστοσελίδα σας έχει ταξινομηθεί ή όχι στη Google, μπορείτε να κάνετε έναν πολύ απλό έλεγχο.
Πηγαίνετε στην γραμμή αναζήτησης της Google και γράψτε:
site:ηιστοσελίδασας.gr
Άμα θα λάβετε κάποιο αποτέλεσμα αναζήτησης στο οποίο εμφανίζεται και η ιστοσελίδα σας, τότε δεν υπάρχει πρόβλημα. Έχει ταξινομηθεί το site σας στις μηχανές αναζήτησης. Εάν όχι τότε θα πρέπει να λάβετε τα απαραίτητα μέτρα για να αρχίσει η ιστοσελίδα σας να εμφανίζεται.
Αντί επιλόγου
Το crawling είναι μια διαδικασία που ακολουθούν καθημερινά όλες οι μηχανές αναζήτησης και γίνεται σε ανύποπτο χρόνο και για όλες σχεδόν τις ιστοσελίδες που υπάρχουν στο ίντερνετ που φαίνονται.
Μετά το crawling υπάρχει το indexing που είναι η ταξινόμηση της ιστοσελίδας σας στις μηχανές αναζήτησης, άρα το crawling είναι απαραίτητο να γίνεται και δεν θα πρέπει με κανέναν τρόπο να μπλοκάρουμε τις αράχνες των μηχανών αναζήτησης.
Άμα τώρα δεν είστε σίγουροι για το άμα η ιστοσελίδα σας έχει προσπελαστεί από τα ρομπότ, μπορείτε να απευθυνθείτε σε κάποιον ειδικό στο SEO.
Δείτε περισσότερα για το crawling:
- What is Search Engine Crawling
- Πως να ανακάμψετε μετά από ένα Google Update;
- Διπλό περιεχόμενο (Duplicate Content): Σας ρίχνει στη Google;
Ζητήστε μια προσφορά σήμερα για προώθηση ιστοσελίδας
Ζητήστε προσφορά κατασκευής ή προώθησης ιστοσελίδας
Δωρεάν Μαθήματα SEO Αξίας 129€
Πάρτε εντελώς δωρεάν τον οδηγό βίντεο μαθημάτων αξίας 129€ SEO GOOGLE Πρώτη Σελίδα. Είναι πολύ συνετό να αφιερώνετε το 20% του χρόνου και των πόρων σας στην προσωπική σας εκπαίδευση και στην προσωπική σας ανάπτυξη. Γραφτείτε σήμερα στα βίντεο μαθήματα εντελώς δωρεάν!
Δείτε περισσότερα για τα κρύπτο:
- CHATGPT ΘΑ ΑΝΤΙΚΑΤΑΣΤΗΣΕΙ ΤΟΝ ΑΝΘΡΩΠΟ; LIVE 15.00 14-08-2023 #DIVRAMIS
- ΠΛΟΥΣΙΟΣ ΣΕ ΔΕΚΑ ΧΡΟΝΙΑ Η ΣΕ ΕΝΑ; LIVE 16.00 22-08-2023 #DIVRAMIS
- SHIBARIUM SHIBA INU ΤΟ ΝΕΟ BLOCKCHAIN LAYER TWO LIVE 15.00 21-08-2023 #DIVRAMIS
- THE SECRET ΤΟ ΜΥΣΤΙΚΟ 10 ΣΥΜΒΟΥΛΕΣ ΓΙΑ ΑΜΕΣΗ ΕΚΠΛΗΡΩΣΗ ΤΩΝ ΣΤΟΧΩΝ ΣΑΣ! LIVE 15.00 09-08-2023 #DIVRAMIS
- DIVRAMIS ACADEMY ZOOM DUBAI UPDATE LIVE 20.00 04-09-2023 #DIVRAMIS