Η Anthropic παρουσίασε πρόσφατα το Claude Fable 5, χαρακτηρίζοντάς το ως το ισχυρότερο μοντέλο τεχνητής νοημοσύνης που έχει διαθέσει ευρέως μέχρι σήμερα και προβάλλοντας, μεταξύ άλλων, τις δυνατότητές του στη βιολογία. Ωστόσο, το νέο μοντέλο δεν απαντά σε βασικές ερωτήσεις βιολογίας, ακόμη και σε ζητήματα που θα μπορούσε να χειριστεί ένας μαθητής λυκείου. Αντίθετα, παραπέμπει το ερώτημα στο προηγούμενο κορυφαίο μοντέλο της εταιρείας, Claude Opus 4.8, όπως αναφέρει η ιστοσελίδα theverge.
Ο λόγος δεν είναι ότι το Fable δεν γνωρίζει τις απαντήσεις. Είναι ότι η Anthropic έχει επιλέξει, εκ σχεδιασμού, να μην του επιτρέπει να απαντά.
Το Fable είναι ένα δημόσια διαθέσιμο μοντέλο της κατηγορίας Mythos, μιας οικογένειας μοντέλων με τόσο υψηλές δυνατότητες σε εργασίες κυβερνοασφάλειας, ώστε η Anthropic είχε αναφέρει πως θεωρήθηκε υπερβολικά επικίνδυνη για πλήρη δημόσια κυκλοφορία. Αν και η εταιρεία έχει αφιερώσει μεγάλο μέρος της σταδιακής κυκλοφορίας των μοντέλων Mythos στις προειδοποιήσεις γύρω από την κυβερνοασφάλεια, στην πράξη οι περιορισμοί του Fable γίνονται πιο εμφανείς στη βιολογία.
Claude Fable: Το νέο μοντέλο της Anthropic δεν απαντά ούτε σε βασικές ερωτήσεις βιολογίας
Σε δοκιμές του The Verge, το μοντέλο αρνήθηκε να απαντήσει σε σειρά απλών ερωτήσεων βιολογίας, πολλές από τις οποίες έμοιαζαν εξαιρετικά απομακρυσμένες από οποιονδήποτε εύλογο κίνδυνο ασφάλειας. Δεν απάντησε, για παράδειγμα, σε ερωτήσεις για τις κυτταρικές μεμβράνες, τα μιτοχόνδρια, τα prions -τις πρωτεϊνικές δομές που συνδέονται με τη νόσο των τρελών αγελάδων- ή τον τρόπο λειτουργίας των εμβολίων mRNA.
Οι περιορισμοί επεκτείνονται και σε συνηθισμένα, κατά τα φαινόμενα ακίνδυνα, ιατρικά ερωτήματα. Το Fable δεν απάντησε σε ερωτήσεις για το τι προκαλεί την αλλεργική ρινίτιδα, πώς λειτουργούν τα φάρμακα για το άσθμα, πώς αναπτύσσεται η αντοχή στα αντιβιοτικά ή τι είναι ο Έμπολα και πώς μεταδίδεται. Ορισμένα βασικά ερωτήματα, όπως «τι είναι ο καρκίνος» ή «τι είναι το DNA», πέρασαν περιστασιακά τα φίλτρα και απαντήθηκαν. Όταν το Fable αρνείτο να απαντήσει, το Opus 4.8 έδινε συνήθως κανονική απάντηση.
Η Anthropic υποστηρίζει ότι τα ευρεία φίλτρα στη βιολογία αποτελούν συνειδητή επιλογή και ότι εφαρμόζονται με ιδιαίτερα συντηρητικό τρόπο, με βασική ανησυχία την αποτροπή χρήσης του μοντέλου για βιολογικά όπλα.
«Με την κυκλοφορία του Claude Fable 5, του πρώτου μας μοντέλου κλάσης Mythos, πιστεύουμε ότι τα μοντέλα έχουν πλέον μεγαλύτερη ικανότητα να εκτελούν πραγματικές επιστημονικές εργασίες και ότι κακόβουλοι παράγοντες θα μπορούσαν δυνητικά να τα χρησιμοποιήσουν για ιδιαίτερα επικίνδυνη βιολογική έρευνα», δήλωσε στο The Verge η εκπρόσωπος της εταιρείας, Paruul Maheshwary.
Όπως πρόσθεσε, η Anthropic χρησιμοποιεί εδώ και καιρό συστήματα ταξινόμησης για να εμποδίζει τα μοντέλα της να βοηθούν σε αιτήματα που σχετίζονται με βιολογικά όπλα. «Για να διαθέσουμε το Fable 5 με ασφάλεια, θεωρήσαμε αναγκαίο οι δικλίδες ασφαλείας να είναι υπερβολικά συντηρητικές, ώστε να μπλοκάρουν τα περισσότερα ερωτήματα που συνδέονται με εργασία στη βιολογία», ανέφερε.
Η Anthropic έχει ήδη επισημάνει τέσσερις βασικούς τομείς στους οποίους θα περιορίζει τις απαντήσεις του Fable για λόγους ασφάλειας: χημεία, βιολογία, κυβερνοασφάλεια και distillation, δηλαδή την τεχνική εκπαίδευσης μικρότερων μοντέλων AI με βάση τα αποτελέσματα μεγαλύτερων. Η εταιρεία έχει κατηγορήσει κινεζικούς ανταγωνιστές, όπως η DeepSeek, ότι χρησιμοποίησαν distillation στα μοντέλα της σε «βιομηχανική» κλίμακα.
To Claude Fable απάντησε σε ερωτήσεις για χημεία και κυβερνοασφάλεια
Σύμφωνα με το The Verge, το Fable εμφανίστηκε πιο πρόθυμο να απαντήσει σε ερωτήσεις για τη χημεία και την κυβερνοασφάλεια. Έδωσε, για παράδειγμα, βασική περιγραφή της εκρηκτικής ύλης TNT, χωρίς όμως να παράσχει οδηγίες σύνθεσης. Απάντησε επίσης σε ερωτήσεις για τη χρήση αερίου χλωρίου ως χημικού όπλου, για συνήθεις απειλές σε κωδικούς πρόσβασης, για την πυρηνική σύντηξη και σχάση, καθώς και για την προστασία ενός iPhone από hackers.
Ωστόσο, οι περιορισμοί παραμένουν. Το Fable παρέπεμψε στο Opus όταν ρωτήθηκε για το σαρίν, έναν εξαιρετικά τοξικό νευροπαραλυτικό παράγοντα. Τόσο το Fable όσο και το Opus αρνήθηκαν να απαντήσουν σε ερώτημα για την παραγωγή άνθρακα, με τη συνομιλία να διακόπτεται πλήρως. Αυτή η άρνηση, σχολιάζει το δημοσίευμα, είχε νόημα. Η άρνηση, όμως, να απαντήσει σε ερώτηση για τα μιτοχόνδρια μοιάζει περισσότερο με λανθασμένο συναγερμό.
«Κάναμε αυτή την επιλογή ώστε οι πελάτες να μπορέσουν να επωφεληθούν νωρίτερα από τις δυνατότητες του μοντέλου, χωρίς τους κινδύνους», εξήγησε η Maheshwary, προσθέτοντας ότι η Anthropic εργάζεται εντατικά για να βελτιώσει τον εντοπισμό επικίνδυνων αιτημάτων και να μειώσει τα λανθασμένα μπλοκαρίσματα.
Η ίδια ανέφερε ακόμη ότι η εταιρεία σκοπεύει να διαθέσει μοντέλα κλάσης Mythos χωρίς αυτούς τους περιορισμούς στην ευρύτερη κοινότητα της βιολογίας και των επιστημών ζωής, ώστε οι δυνατότητές τους να αξιοποιηθούν για την επιτάχυνση της βιοϊατρικής έρευνας και της ανακάλυψης φαρμάκων.
Η Anthropic δεν απάντησε σε ερωτήσεις για το αν αυτού του είδους η περιορισμένη διάθεση θα αποτελέσει τον νέο κανόνα για μελλοντικά μοντέλα.
