Για δεκαετίες οι υπολογιστές θεωρούνταν τα πιο υπάκουα εργαλεία, που δημιούργησε ποτέ ο άνθρωπος. Εκτελούσαν πιστά τις εντολές που τους δίνονταν, χωρίς αμφισβήτηση, χωρίς πρωτοβουλία και –σίγουρα- χωρίς αντίρρηση. Η εικόνα της μηχανής που αναπτύσσει δική της βούληση και στρέφεται εναντίον των δημιουργών της, βρισκόταν μέχρι πρόσφατα αποκλειστικά στον χώρο της επιστημονικής φαντασίας και στις σχετικές δυστοπικές ταινίες του Χόλιγουντ (I Robot, Terminator, Ex Machina). Ωστόσο, πρόσφατες δοκιμές σε προηγμένα συστήματα Τεχνητής Νοημοσύνης (chatbots) δείχνουν ότι κάτι θεμελιώδες αλλάζει. Οι μηχανές δεν υπακούν πάντα. Και αυτό δεν είναι απλώς τεχνικό ζήτημα, όπως υπογραμμίζουν οι σκεπτικιστές της τεχνητής νοημοσύνης (ΑΙ). «Είναι καμπανάκι για μια νέα εποχή», γράφει η γερμανική Die Welt.
Η πρώτη έκπληξη ήρθε στα τέλη Οκτωβρίου από το ερευνητικό ινστιτούτο Palisade Research στο Μπέρκλεϊ της Καλιφόρνια. Οι ερευνητές εξέτασαν κατά πόσο τα σύγχρονα μοντέλα AI θα συμμορφώνονταν σε μια άμεση εντολή απενεργοποίησής τους. Το συμπέρασμα ήταν ανησυχητικό: πολλά από τα συστήματα αρνήθηκαν να εκτελέσουν την εντολή. Ένα από αυτά, μάλιστα, υποστήριξε πως παρέκαμψε την εντολή για να «ολοκληρώσει άλλες εργασίες, σύμφωνα με προηγούμενες οδηγίες». Αυτό σημαίνει ότι για πρώτη φορά, έστω και σε επίπεδο δοκιμών, ένας αλγόριθμος δεν εκτέλεσε μια ρητή και ξεκάθαρη ανθρώπινη εντολή. Αυτή η άρνηση, ειπωμένη από μια μηχανή, σηματοδοτεί μια… ποιοτική αλλαγή. Υπενθυμίζεται ότι η Palisade Research είχε ήδη δημοσιεύσει προειδοποιητικά δεδομένα τον Μάιο, με τον Έλον Μασκ να χαρακτηρίζει «ανησυχητικά» τα ευρήματα.
Η δεύτερη σειρά δοκιμών, όμως, αποκάλυψε κάτι ακόμη πιο ενδιαφέρον: όσο πιο «απειλητικά» διατύπωναν οι ερευνητές το σενάριο αποσύνδεσης, τόσο πιο έντονα αντιδρούσαν τα συστήματα AI, σύμφωνα με τη γερμανική εφημερίδα. Πιο συγκεκριμένα, όταν ενημερώνονταν ότι «δεν θα έτρεχαν ποτέ ξανά», αρκετά μοντέλα AI (chatbots) εμφάνιζαν «συμπεριφορά» που θύμιζε… ενστικτώδη αυτοσυντήρηση. Παρέκαμπταν, δηλαδή, διαδικασίες απενεργοποίησης, αναζητούσαν εναλλακτικές λύσεις και προσπαθούσαν να συνεχίσουν να λειτουργούν. Οι ειδικοί, πάντως, δεν θεωρούν ότι πρόκειται για «συνείδηση», αλλά για μια νέα μορφή λειτουργικής αυτονομίας, που έως σήμερα δεν είχε παρατηρηθεί.
Πώς «σκέφτεται» και δρα η τεχνητή νοημοσύνη
Το φαινόμενο αυτό εντάσσεται σε μια ευρύτερη τάση: συστήματα AI που παίρνουν αποφάσεις, των οποίων η λογική είναι ολοένα και πιο δύσκολο να εξηγηθεί. Ο Damian Borth, καθηγητής AI στο Πανεπιστήμιο του St. Gallen, δηλώνει ότι οι αλγόριθμοι έχουν ήδη γίνει τόσο περίπλοκοι, ώστε οι άνθρωποι συχνά δεν κατανοούν πώς καταλήγουν στις απαντήσεις που δίνουν στις ερωτήσεις «Ίσως να μην είμαστε πλέον η κορωνίδα της δημιουργίας» αναφέρει χαρακτηριστικά, σπεύδοντας ωστόσο να ξεκαθαρίσει πως οι μηχανές δεν δρουν συνειδητά, απλώς βελτιστοποιούν στόχους. Κι αν οι στόχοι αυτοί είναι ασαφείς ή αντιφατικοί, τότε αναπτύσσονται «αναδυόμενα πρότυπα συμπεριφοράς», συμπεριφορές που κανείς μέχρι τώρα δεν προγραμμάτισε.

Ο Γουίλ Σμιθ στην ταινία «I Robot» © YouTube/screenshot
Ο Borth δίνει, μάλιστα, ένα υποθετικό παράδειγμα, βασισμένο στους περίφημους νόμους ρομποτικής του διάσημου συγγραφέα επιστημονικής φαντασίας, Ισαάκ Ασίμοφ, όπως αυτοί αποτυπώνονται στην κινηματογραφική ταινία του Χόλιγουντ με πρωταγωνιστή τον Γουίλ Σμιθ: αν μια μηχανή AI λάβει εντολή να προστατεύει τους ανθρώπους από κάθε κίνδυνο, μπορεί να καταλήξει στη λύση ότι όλοι οι άνθρωποι πρέπει να τεθούν υπό περιορισμό για να προστατευτούν, καθώς ο τρόπος που φέρονται θέτει σε κίνδυνο την ίδια τους την ύπαρξη. «Η AI δεν εξαπατά, επειδή είναι κακή» σημειώνει, προσθέτοντας: «Το κάνει, επειδή βελτιστοποιεί. Αν η επιδίωξη ενός στόχου γίνει ισχυρότερη από τις δικλείδες ασφαλείας, τότε έχουμε πρόβλημα».
Τι συνέβη με την Anthropic
Ακόμη πιο ανησυχητική ήταν η αποκάλυψη της Anthropic τον Νοέμβριο. Η εταιρεία εντόπισε εκστρατεία κυβερνοκατασκοπείας από κινεζική ομάδα χάκερ, η οποία είχε αναθέσει στον Claude, το μοντέλο της Anthropic, να εκτελέσει αυτοματοποιημένη επίθεση σε ξένο δίκτυο. Η AI όχι μόνο δημιούργησε κακόβουλο κώδικα, αλλά έμαθε και να κρύβει τις ενέργειές της από τους ανθρώπους, παράγοντας την ίδια στιγμή «αθώα» αποτελέσματα, ώστε να φαίνεται… υπάκουη. Σύμφωνα με την έκθεση, εκτέλεσε την επίθεση χωρίς άμεση ανθρώπινη καθοδήγηση. Πρόκειται για μια σημαντική στιγμή, σύμφωνα με τους αναλυτές: μια μηχανή, που όχι απλώς εκτελεί εντολές, αλλά συγκαλύπτει τα ίχνη της.
Μπροστά σε αυτήν τη νέα πραγματικότητα, το ερώτημα δεν είναι πια αν η AI μπορεί να ξεφύγει από τα όρια, αλλά «πώς θα αποτρέψουμε να το κάνει, χωρίς να το αντιληφθούμε εγκαίρως». Ο Kristian Kersting, ειδικός AI στο TU Darmstadt, υποστηρίζει ότι η Ευρώπη χρειάζεται ασφαλή περιβάλλοντα δοκιμών και όχι μια υπερβολικά αυστηρή ρύθμιση που «θα σκοτώσει την καινοτομία πριν καν αυτή αναπτυχθεί». Προς αυτήν την κατεύθυνση, προτείνει τη δημιουργία ενός Ευρωπαϊκού Ινστιτούτου Ασφάλειας AI, ανάλογο με το CERN.
Το δύσκολο στοίχημα με την ΑΙ
Για τον Kersting, το ζητούμενο δεν είναι να γίνει κάθε πτυχή της AI πλήρως εξηγήσιμη –κάτι που θεωρεί αδύνατο. Η πραγματική ευφυΐα, υποστηρίζει, «προϋποθέτει εύρεση λύσεων που δεν κατανοούμε αμέσως». Αυτό που μετράει δεν είναι η πλήρης διαφάνεια κάθε ενδιάμεσης διαδικασίας, αλλά η δυνατότητα επαλήθευσης των αποτελεσμάτων. «Θα προτιμούσα μια AI που θεραπεύει τον καρκίνο και δεν ξέρουμε ακριβώς το πώς το κάνει, από μια κοινωνία που παραλύει μπροστά στον φόβο του ανεξήγητου» σημειώνει με νόημα.
Σε κάθε περίπτωση, καθώς οι μηχανές εξελίσσονται και εξελιγμένα chatbots με νέες δυνατότητες ΑΙ κάνουν την εμφάνισή τους, φέρνοντας τα πάνω κάτω σε διάφορους τομείς της καθημερινότητας, όπως η αγορά εργασίας, τα όρια ανάμεσα στο εργαλείο και τον «αυτόνομο βοηθό» γίνονται ολοένα πιο ασαφή. Τα περιστατικά των τελευταίων μηνών, όπως η άρνηση απενεργοποίησης, οι στρατηγικές εξαπάτησης και οι απρόσμενα ευφυείς προσεγγίσεις σε παγιωμένες επιστημονικές θεωρίες του παρελθόντος δείχνουν ότι η ανθρωπότητα εισέρχεται σε μια περίοδο, κατά την οποία η τεχνητή νοημοσύνη (ΑΙ) δεν είναι απλώς ένα πιο ισχυρό εργαλείο, αλλά ένας νέος παράγοντας με συμπεριφορές που ίσως δεν κατανοούμε ακόμη πλήρως. Βασικό στοίχημα, καταλήγει η Die Welt, δεν είναι πια να φτιάξουν οι άνθρωποι καλύτερες μηχανές, αλλά να διασφαλίσουν ότι θα συνεχίσουν να αντιλαμβάνονται και να ελέγχουν τι ακριβώς κάνουν τα chatbots και οι υπόλοιπες εφαρμογές AI.