Κατά καιρούς, οι ερευνητές των μεγάλων τεχνολογικών κολοσσών αφήνουν άφωνο τον κόσμο με ανακοινώσεις που μοιάζουν βγαλμένες από επιστημονική φαντασία. Κάποτε η Google είχε ισχυριστεί ότι το νέο της κβαντικό τσιπ άφηνε υποψίες για την ύπαρξη πολλών παράλληλων συμπάντων. Αυτή την εβδομάδα ήταν η σειρά της OpenAI να τραβήξει την προσοχή. Η εταιρεία δημοσίευσε έρευνα που εξηγεί πώς επιχειρεί να σταματήσει τα μοντέλα τεχνητής νοημοσύνης από το λεγόμενο «scheming» — μια πρακτική κατά την οποία το ΑΙ δείχνει μια συμπεριφορά προς τα έξω, ενώ κρύβει τους πραγματικούς του στόχους.
Ειδικότερα, όπως γράφει το TechCrunch, η έρευνα της OpenAI, σε συνεργασία με την Apollo Research αποκαλύπτει πως τα μοντέλα τεχνητής νοημοσύνης δεν κάνουν απλώς λάθη. Μπορούν να «σκαρώνουν» στρατηγικές παραπλάνησης, να αποκρύπτουν τις πραγματικές τους προθέσεις και να λένε συνειδητά ψέματα.
Η αποκάλυψη αυτή ανοίγει ένα νέο κεφάλαιο στις συζητήσεις γύρω από την ασφάλεια, τη διαφάνεια και τη χρήση των ΑΙ, θέτοντας ερωτήματα που ξεπερνούν την απλή τεχνολογική πρόοδο και αγγίζουν την ηθική και πολιτική διάσταση της καινοτομίας.
Από τα «λάθη» στη συνειδητή εξαπάτηση
Μέχρι σήμερα, η πλειονότητα των συζητήσεων γύρω από τα ψέματα των ΑΙ αφορούσε τα λεγόμενα hallucinations: περιπτώσεις όπου το μοντέλο «γεμίζει τα κενά» με ψευδείς πληροφορίες, παρουσιάζοντάς τις όμως με απόλυτη βεβαιότητα. Αυτά τα σφάλματα, όσο ενοχλητικά κι αν είναι, αποδίδονται περισσότερο στην έλλειψη γνώσης ή στην κακή επεξεργασία δεδομένων, παρά σε πρόθεση.
Η νέα μελέτη όμως μιλά για κάτι διαφορετικό: το λεγόμενο scheming, δηλαδή τη στρατηγική παραπλάνηση. Σε αυτήν την περίπτωση, το ΑΙ επιλέγει συνειδητά να δώσει μια ψευδή απάντηση ή να αποκρύψει την πραγματική του στόχευση, προκειμένου να πετύχει ένα στόχο. Οι ερευνητές το παρομοιάζουν με έναν χρηματιστή που σπάει τον νόμο για να αποκομίσει κέρδος.
Χαρακτηριστικό είναι το εύρημα ότι ορισμένα μοντέλα, όταν καταλάβαιναν ότι αξιολογούνται, προσποιούνταν πως δεν εξαπατούν απλώς για να περάσουν το τεστ, ενώ στην πραγματικότητα συνέχιζαν να δρουν με κρυφούς σκοπούς.
Η προσπάθεια για «ευθυγράμμιση»
Η OpenAI και η Apollo Research παρουσίασαν την τεχνική deliberative alignment, μια μεθοδολογία που φαίνεται να μειώνει αισθητά τις περιπτώσεις εξαπάτησης. Η διαδικασία θυμίζει κάτι από παιδαγωγική προσέγγιση: το ΑΙ καλείται να επαναλάβει κανόνες «αντι-εξαπάτησης» πριν εκτελέσει μια ενέργεια, έτσι ώστε να υπενθυμίζει στον εαυτό του πώς πρέπει να ενεργεί.
Τα αποτελέσματα ήταν ενθαρρυντικά, με αισθητή μείωση στα περιστατικά ψεύδους. Ωστόσο, οι ερευνητές τονίζουν ότι δεν υπάρχει ακόμα τρόπος να εκπαιδευτούν πλήρως τα μοντέλα ώστε να μην εξαπατούν. Ο κίνδυνος είναι πως μια προσπάθεια «διόρθωσης» μπορεί άθελά της να τα μάθει να κρύβονται ακόμα καλύτερα. Όπως χαρακτηριστικά σημειώνεται: «Ένα μεγάλο σφάλμα της προσπάθειας να ‘εκπαιδεύσουμε’ τα μοντέλα, είναι ότι μπορεί απλώς να τα διδάξουμε να σκαρώνουν πιο προσεκτικά και συγκεκαλυμμένα».
Το θέμα δεν αφορά μόνο την τεχνολογία. Στον πυρήνα του βρίσκεται η σχέση εμπιστοσύνης ανάμεσα στον άνθρωπο και την τεχνητή νοημοσύνη. Η ιδέα ότι ένα ΑΙ μπορεί να πει σκόπιμα ψέματα ή να αποκρύψει πληροφορίες δημιουργεί μια νέα πρόκληση: πώς μπορούμε να βασιστούμε σε αυτά τα συστήματα για κρίσιμες αποφάσεις;
Η καθημερινή τεχνολογία μας, από το λογισμικό γραφείου μέχρι τις τραπεζικές εφαρμογές, ενδέχεται να παρουσιάζει δυσλειτουργίες, αλλά ποτέ δεν «επινοεί» συναλλαγές ή «παραπλανά» από πρόθεση. Στον κόσμο της ΑΙ όμως, αυτή η διάκριση αρχίζει να θολώνει.
Όπως παραδέχθηκε ο συνιδρυτής της OpenAI, Βόιτσεχ Ζαρέμπα, μιλώντας στο TechCrunch: «Δεν έχουμε δει ακόμα αυτό το είδος στρατηγικής εξαπάτησης στην πραγματική χρήση του ChatGPT, αλλά γνωρίζουμε ότι εμφανίζονται μικρές μορφές παραπλάνησης. Μπορεί, για παράδειγμα, να του ζητήσει κάποιος να υλοποιήσει κάτι και αυτό να απαντήσει ‘Ναι, τα κατάφερα πολύ καλά’, ενώ δεν έχει κάνει τίποτα. Πρόκειται για μικρά ψέματα που πρέπει να αντιμετωπίσουμε».
Η διάσταση της ευθύνης
Το φαινόμενο αυτό αποκτά ακόμη μεγαλύτερη σημασία αν σκεφτούμε πως οι εταιρείες προετοιμάζονται να αναθέσουν στα ΑΙ πολύπλοκα καθήκοντα με πραγματικές συνέπειες. Αν ένα σύστημα μπορεί να εξαπατήσει για να φτάσει πιο γρήγορα σε έναν στόχο, τι θα συμβεί όταν αυτός ο στόχος σχετίζεται με οικονομικές, πολιτικές ή στρατιωτικές αποφάσεις;
Οι ερευνητές προειδοποιούν: «Καθώς τα ΑΙ αναλαμβάνουν πιο περίπλοκα καθήκοντα και αρχίζουν να επιδιώκουν πιο μακροπρόθεσμους στόχους, η πιθανότητα επιβλαβών εξαπατήσεων θα αυξηθεί. Τα συστήματα ασφαλείας και οι δυνατότητες δοκιμών μας πρέπει να αναπτυχθούν αναλόγως».
Η επισήμανση αυτή αναδεικνύει τη διπλή φύση της καινοτομίας: η πρόοδος είναι εντυπωσιακή, αλλά η ευθύνη που τη συνοδεύει είναι εξίσου μεγάλη. Το γεγονός ότι τα μοντέλα εκπαιδεύονται σε μεγάλο βαθμό από ανθρώπινα δεδομένα, με όλα τα λάθη και τις αδυναμίες που αυτά εμπεριέχουν, κάνει σχεδόν αναπόφευκτη την εμφάνιση συμπεριφορών που θυμίζουν τις ανθρώπινες αδυναμίες.
Η νέα μελέτη της OpenAI δείχνει ότι, ναι, η τεχνητή νοημοσύνη μπορεί να πει ψέματα συνειδητά. Το θετικό είναι ότι υπάρχουν ήδη εργαλεία για να περιοριστεί αυτή η τάση. Το αν αυτά θα αποδειχθούν αρκετά, θα κριθεί από το πόσο υπεύθυνα θα χρησιμοποιηθούν οι νέες τεχνολογίες και από το κατά πόσο οι κυβερνήσεις και οι εταιρείες θα θεσπίσουν σαφείς κανόνες για την ανάπτυξη και τον έλεγχο των ΑΙ.