Σήμερα, για μεγάλο μέρος του κόσμου, η κατάσταση «εκτός σύνδεσης» είναι πλέον ανύπαρκτη έως απαράδεκτη. Το διαδίκτυο στηρίζει το παγκόσμιο χρηματοπιστωτικό και καταναλωτικό οικοσύστημα, επιτρέποντας την άμεση επικοινωνία και τις συναλλαγές.
Ενώ αυτό το σύστημα είναι αναπόσπαστο σε τόσες πολλές ανθρώπινες δραστηριότητες, είναι επίσης εύθραυστο, με το κόστος να ανέρχεται σε δισεκατομμύρια δολάρια και την ταλαιπωρία να είναι τεράστια κάθε φορά που ένα σημαντικό μέρος του σταματά να λειτουργεί.
Οι εκτεταμένες διακοπές συμβαίνουν τακτικά μέσα στο 2025. Τεχνικά προβλήματα σε μεγάλους παρόχους υποδομών διαδικτύου έχουν θέσει εκτός λειτουργίας υπηρεσίες για εκατομμύρια χρήστες.
Μια διακοπή 15 ωρών στα κέντρα δεδομένων της Amazon τον Οκτώβριο απέκλεισε παιδιά στο Ηνωμένο Βασίλειο από την πλατφόρμα παιχνιδιών Roblox, εμπόδισε εργαζόμενους να πραγματοποιήσουν κλήσεις μέσω Zoom και ανάγκασε μηχανικούς στην Ινδία να ακυρώσουν σχέδια για τη θρησκευτική αργία Diwali.
Στα μέσα Νοεμβρίου, μια δυσλειτουργία στην εταιρεία ασφάλειας Cloudflare έριξε μια σειρά ιστοτόπων, συμπεριλαμβανομένων των ChatGPT, της αρχής συγκοινωνιών του Νιου Τζέρσεϊ και της πλατφόρμας κοινωνικής δικτύωσης X.
Μπορεί να φαίνεται παράξενο το πώς ένα πρόβλημα σε έναν μόνο πάροχο μπορεί να πυροδοτήσει έναν τέτοιο καταρράκτη – αλυσίδα ζημιών. Ο λόγος έγκειται στον τρόπο με τον οποίο εξελίχθηκε το διαδίκτυο από την έναρξή του, καθώς και στις συντομεύσεις κόστους και αποδοτικότητας που έκαναν οι εταιρείες, στις υπηρεσίες των οποίων βασίζονται εκατομμύρια καταναλωτές.
Γιατί καταρρέει τόσο συχνά το διαδίκτυο
Πώς λοιπόν λειτουργεί το διαδίκτυο; Όταν ένας χρήστης πληκτρολογεί μια διεύθυνση, το αίτημα ταξιδεύει μέσω μιας πολύπλοκης αλλά αστραπιαίας διαδικασίας, χρησιμοποιώντας φυσική υποδομή όπως δρομολογητές, καλώδια, διακόπτες και περιφερειακά κέντρα δεδομένων, μέχρι να φτάσει στον σωστό διακομιστή.
Οι διακοπές συμβαίνουν όταν κάτι σε αυτήν τη διασυνδεδεμένη αλυσίδα πάει στραβά. Και ένας μεγάλος λόγος για τον οποίο οι διακοπές συμβαίνουν σε τόσο μεγάλη κλίμακα σήμερα οφείλεται στην άνοδο του cloud computing.
Η μεγαλύτερη αλλαγή στον τρόπο λειτουργίας του διαδικτύου βρίσκεται στο πού φυλάσσονται τα δεδομένα και οι υποδομές. Κατά τη δεκαετία του ’90 και τις αρχές του 2000, κάθε εταιρεία που είχε τον δικό της ιστότοπο είχε πιθανότατα τους δικούς της διακομιστές στα γραφεία της. Τότε, τυχόν διακοπές περιορίζονταν σε ένα μεμονωμένο πρόβλημα, χωρίς να επηρεάζουν άλλους χρήστες σε μεγάλη κλίμακα.
Όμως, το cloud computing έγινε mainstream αφότου η Amazon συνειδητοποίησε ότι το concept της κοινής υποδομής, που είχε φτιάξει για να διευκολύνει τους δικούς της μηχανικούς, μπορούσε να εφαρμοστεί σε μεγάλο μέρος του διαδικτύου.
Η ιδέα απογειώθηκε, και πλέον οι περισσότεροι χρήστες και επιχειρήσεις βασίζονται στο cloud computing. Η Amazon Web Services (AWS), η Microsoft και η Google κυριαρχούν στην παγκόσμια αγορά.
Εκατομμύρια διακομιστές σε κέντρα δεδομένων
Αυτό σημαίνει ότι λειτουργούν εκατομμύρια διακομιστές σε κέντρα δεδομένων, τα οποία οργανώνονται σε «περιοχές» (regions). Ορισμένες περιοχές διαχειρίζονται περισσότερη κίνηση, κάτι που σημαίνει δυσανάλογο αντίκτυπο αν τεθούν εκτός λειτουργίας.
Για παράδειγμα, η διακοπή της AWS τον Οκτώβριο προκλήθηκε από ένα σφάλμα που επηρέασε μία από τις βασικές υπηρεσίες της, προκαλώντας αλυσιδωτές αποτυχίες και βγάζοντας εκτός λειτουργίας αρκετούς μεγάλους ιστότοπους.
Η κυριαρχία μιας χούφτας παρόχων cloud έχει παρενέργειες. Μια διακοπή μπορεί πλέον να βγάλει εκτός λειτουργίας μεγάλο μέρος του διαδικτύου. Η εξάρτηση από αυτούς τους λεγόμενους «υπερ-κλιμακούμενους» παρόχους καθιστά επίσης δαπανηρό για τις επιχειρήσεις να αλλάξουν πάροχο, αυξάνοντας την εξάρτηση.
«Μπλε Οθόνη Θανάτου»
Ακόμη και εταιρείες που δεν είναι πάροχοι cloud, όπως η CrowdStrike, η οποία είναι κυρίαρχη στην κυβερνοασφάλεια, μπορούν να προκαλέσουν μαζικές αποτυχίες. Όταν εξέδωσε μια ελαττωματική ενημέρωση λογισμικού μέσω του cloud τον Ιούλιο του 2024, προκάλεσε άμεσα μια «Μπλε Οθόνη Θανάτου» σε εκατομμύρια υπολογιστές.
Τι μπορούν να κάνουν οι εταιρείες; Το πιο σημαντικό είναι να εξασφαλίσουν ότι έχουν σχέδιο αντιμετώπισης σε περίπτωση διακοπής, επενδύοντας σε εφεδρικές υπηρεσίες ή σε «εσωτερικούς» εφεδρικούς διακομιστές για τις πιο κρίσιμες λειτουργίες.
Όσο για τους υπόλοιπους, δεν υπάρχουν πολλά που μπορούμε να κάνουμε κατά τη διάρκεια μιας μεγάλης αστοχίας συστήματος, παρά μόνο να περιμένουμε.
Ίσως είναι μια καλή ευκαιρία να απομακρυνθούμε από την οθόνη και να θαυμάσουμε την πολύπλοκη υποδομή που, τις περισσότερες φορές, κρατάει τα πάντα σε ομαλή λειτουργία.