Η Anthropic "έκοψε" τις απαντήσεις βιολογίας στο Claude για να προλάβει κινδύνους βιολογικών όπλων

Προσθέστε το Powergame.gr στην

Η Anthropic παρουσίασε πρόσφατα το Claude Fable 5, χαρακτηρίζοντάς το ως το ισχυρότερο μοντέλο τεχνητής νοημοσύνης που έχει διαθέσει ευρέως μέχρι σήμερα και προβάλλοντας, μεταξύ άλλων, τις δυνατότητές του στη βιολογία. Ωστόσο, το νέο μοντέλο δεν απαντά σε βασικές ερωτήσεις βιολογίας, ακόμη και σε ζητήματα που θα μπορούσε να χειριστεί ένας μαθητής λυκείου. Αντίθετα, παραπέμπει το ερώτημα στο προηγούμενο κορυφαίο μοντέλο της εταιρείας, Claude Opus 4.8, όπως αναφέρει η ιστοσελίδα theverge.

Ο λόγος δεν είναι ότι το Fable δεν γνωρίζει τις απαντήσεις. Είναι ότι η Anthropic έχει επιλέξει, εκ σχεδιασμού, να μην του επιτρέπει να απαντά.

Το Fable είναι ένα δημόσια διαθέσιμο μοντέλο της κατηγορίας Mythos, μιας οικογένειας μοντέλων με τόσο υψηλές δυνατότητες σε εργασίες κυβερνοασφάλειας, ώστε η Anthropic είχε αναφέρει πως θεωρήθηκε υπερβολικά επικίνδυνη για πλήρη δημόσια κυκλοφορία. Αν και η εταιρεία έχει αφιερώσει μεγάλο μέρος της σταδιακής κυκλοφορίας των μοντέλων Mythos στις προειδοποιήσεις γύρω από την κυβερνοασφάλεια, στην πράξη οι περιορισμοί του Fable γίνονται πιο εμφανείς στη βιολογία.

Claude Fable: Το νέο μοντέλο της Anthropic δεν απαντά ούτε σε βασικές ερωτήσεις βιολογίας

Σε δοκιμές του The Verge, το μοντέλο αρνήθηκε να απαντήσει σε σειρά απλών ερωτήσεων βιολογίας, πολλές από τις οποίες έμοιαζαν εξαιρετικά απομακρυσμένες από οποιονδήποτε εύλογο κίνδυνο ασφάλειας. Δεν απάντησε, για παράδειγμα, σε ερωτήσεις για τις κυτταρικές μεμβράνες, τα μιτοχόνδρια, τα prions -τις πρωτεϊνικές δομές που συνδέονται με τη νόσο των τρελών αγελάδων- ή τον τρόπο λειτουργίας των εμβολίων mRNA.

Οι περιορισμοί επεκτείνονται και σε συνηθισμένα, κατά τα φαινόμενα ακίνδυνα, ιατρικά ερωτήματα. Το Fable δεν απάντησε σε ερωτήσεις για το τι προκαλεί την αλλεργική ρινίτιδα, πώς λειτουργούν τα φάρμακα για το άσθμα, πώς αναπτύσσεται η αντοχή στα αντιβιοτικά ή τι είναι ο Έμπολα και πώς μεταδίδεται. Ορισμένα βασικά ερωτήματα, όπως «τι είναι ο καρκίνος» ή «τι είναι το DNA», πέρασαν περιστασιακά τα φίλτρα και απαντήθηκαν. Όταν το Fable αρνείτο να απαντήσει, το Opus 4.8 έδινε συνήθως κανονική απάντηση.

Η Anthropic υποστηρίζει ότι τα ευρεία φίλτρα στη βιολογία αποτελούν συνειδητή επιλογή και ότι εφαρμόζονται με ιδιαίτερα συντηρητικό τρόπο, με βασική ανησυχία την αποτροπή χρήσης του μοντέλου για βιολογικά όπλα.

«Με την κυκλοφορία του Claude Fable 5, του πρώτου μας μοντέλου κλάσης Mythos, πιστεύουμε ότι τα μοντέλα έχουν πλέον μεγαλύτερη ικανότητα να εκτελούν πραγματικές επιστημονικές εργασίες και ότι κακόβουλοι παράγοντες θα μπορούσαν δυνητικά να τα χρησιμοποιήσουν για ιδιαίτερα επικίνδυνη βιολογική έρευνα», δήλωσε στο The Verge η εκπρόσωπος της εταιρείας, Paruul Maheshwary.

Όπως πρόσθεσε, η Anthropic χρησιμοποιεί εδώ και καιρό συστήματα ταξινόμησης για να εμποδίζει τα μοντέλα της να βοηθούν σε αιτήματα που σχετίζονται με βιολογικά όπλα. «Για να διαθέσουμε το Fable 5 με ασφάλεια, θεωρήσαμε αναγκαίο οι δικλίδες ασφαλείας να είναι υπερβολικά συντηρητικές, ώστε να μπλοκάρουν τα περισσότερα ερωτήματα που συνδέονται με εργασία στη βιολογία», ανέφερε.

Η Anthropic έχει ήδη επισημάνει τέσσερις βασικούς τομείς στους οποίους θα περιορίζει τις απαντήσεις του Fable για λόγους ασφάλειας: χημεία, βιολογία, κυβερνοασφάλεια και distillation, δηλαδή την τεχνική εκπαίδευσης μικρότερων μοντέλων AI με βάση τα αποτελέσματα μεγαλύτερων. Η εταιρεία έχει κατηγορήσει κινεζικούς ανταγωνιστές, όπως η DeepSeek, ότι χρησιμοποίησαν distillation στα μοντέλα της σε «βιομηχανική» κλίμακα.

To Claude Fable απάντησε σε ερωτήσεις για χημεία και κυβερνοασφάλεια

Σύμφωνα με το The Verge, το Fable εμφανίστηκε πιο πρόθυμο να απαντήσει σε ερωτήσεις για τη χημεία και την κυβερνοασφάλεια. Έδωσε, για παράδειγμα, βασική περιγραφή της εκρηκτικής ύλης TNT, χωρίς όμως να παράσχει οδηγίες σύνθεσης. Απάντησε επίσης σε ερωτήσεις για τη χρήση αερίου χλωρίου ως χημικού όπλου, για συνήθεις απειλές σε κωδικούς πρόσβασης, για την πυρηνική σύντηξη και σχάση, καθώς και για την προστασία ενός iPhone από hackers.

Ωστόσο, οι περιορισμοί παραμένουν. Το Fable παρέπεμψε στο Opus όταν ρωτήθηκε για το σαρίν, έναν εξαιρετικά τοξικό νευροπαραλυτικό παράγοντα. Τόσο το Fable όσο και το Opus αρνήθηκαν να απαντήσουν σε ερώτημα για την παραγωγή άνθρακα, με τη συνομιλία να διακόπτεται πλήρως. Αυτή η άρνηση, σχολιάζει το δημοσίευμα, είχε νόημα. Η άρνηση, όμως, να απαντήσει σε ερώτηση για τα μιτοχόνδρια μοιάζει περισσότερο με λανθασμένο συναγερμό.

«Κάναμε αυτή την επιλογή ώστε οι πελάτες να μπορέσουν να επωφεληθούν νωρίτερα από τις δυνατότητες του μοντέλου, χωρίς τους κινδύνους», εξήγησε η Maheshwary, προσθέτοντας ότι η Anthropic εργάζεται εντατικά για να βελτιώσει τον εντοπισμό επικίνδυνων αιτημάτων και να μειώσει τα λανθασμένα μπλοκαρίσματα.

Η ίδια ανέφερε ακόμη ότι η εταιρεία σκοπεύει να διαθέσει μοντέλα κλάσης Mythos χωρίς αυτούς τους περιορισμούς στην ευρύτερη κοινότητα της βιολογίας και των επιστημών ζωής, ώστε οι δυνατότητές τους να αξιοποιηθούν για την επιτάχυνση της βιοϊατρικής έρευνας και της ανακάλυψης φαρμάκων.

Η Anthropic δεν απάντησε σε ερωτήσεις για το αν αυτού του είδους η περιορισμένη διάθεση θα αποτελέσει τον νέο κανόνα για μελλοντικά μοντέλα.

Η Anthropic “έκοψε” τις απαντήσεις βιολογίας στο Claude για να προλάβει κινδύνους βιολογικών όπλων

Η Anthropic λέει ότι οι αυστηρές δικλείδες ασφαλείας στοχεύουν στην αποτροπή χρήσης του μοντέλου για βιολογικά όπλα

Claude Fable: Το νέο μοντέλο της Anthropic δεν απαντά ούτε σε βασικές ερωτήσεις βιολογίας

To Claude Fable απάντησε σε ερωτήσεις για χημεία και κυβερνοασφάλεια

ΡΟΗ ΕΙΔΗΣΕΩΝ

ΔΗΜΟΦΙΛΗ

Χανιά: Νέα χρηματοδότηση 480.000 ευρώ για αγροτικούς δρόμους στο Φραγκοκάστελλο Σφακίων

Wall Street: Άνοδος 385 μονάδων για Dow με οδηγό εταιρικά αποτελέσματα και ημιαγωγούς

Μπέρναμ: Eνέκρινε τη χρήση βρετανικών βάσεων για αμερικανικές επιχειρήσεις κατά του Ιράν

Γαλλία: Πέρασε το νομοσχέδιο για την απαγόρευση πρόσβασης των παιδιών στα social media

Χρυσός: Αντοχή πάνω από τα 4.000 δολάρια

Boeing: Zητά παρέμβαση των ΗΠΑ για δάνειο-μαμούθ 3 δισ. ευρώ στην Airbus από την ΕΕ

Άλμα άνω του 2% στο πετρέλαιο μετά από τις νέες εκατέρωθεν επιθέσεις ΗΠΑ και Ιράν

Συντάξεις Αυγούστου 2026: Ποιοι πληρώνονται την επόμενη Δευτέρα

Λουκέτα στο Κολωνάκι: Αλλάζουν χέρια εμπορικά ακίνητα κι εστίαση, λόγω εργοταξίου μετρό και υψηλών ενοικίων

Τα καλύτερα και τα χειρότερα Rolex για επένδυση αυτή τη στιγμή

Συλλογικές Συμβάσεις: Πότε θα είναι υποχρεωτικές οι αυξήσεις μισθών σε όλους τους κλάδους, έρχεται υπουργική απόφαση

Στην Allwyn η νέα άδεια του Eurojackpot, τα σχέδια του “Mr Πλαστικά Θράκης” και η επίσκεψη Παπαστεργίου στην ΕΕΤΤ

Παιδικοί σταθμοί ΕΣΠΑ 2026-2027: Πότε βγαίνουν τα αποτελέσματα για τα voucher

Τα οργανωτικά προβλήματα της Ελπίδας, οι δεύτερες σκέψεις για την Τράπεζα Άμυνας και η συμμαχία Ελλάδας-Ιταλίας για τα F-35

Η αστυνομία της Νέας Ορλεάνης επιτρέπει τα οπλισμένα drones

Η παγκόσμια κούρσα ΗΠΑ και Κίνας για την πρωτιά στην ΑΙ μεγαλώνει τον κίνδυνο φούσκας στις αγορές

Moonshot: Χρηματοδότηση πριν την ΙΡΟ, στόχος τα 50 δισ. δολάρια

Τι αλλάζει στις διαφημίσεις της Google, η νέα σήμανση

Χανιά: Νέα χρηματοδότηση 480.000 ευρώ για αγροτικούς δρόμους στο Φραγκοκάστελλο Σφακίων

Wall Street: Άνοδος 385 μονάδων για Dow με οδηγό εταιρικά αποτελέσματα και ημιαγωγούς

Μπέρναμ: Eνέκρινε τη χρήση βρετανικών βάσεων για αμερικανικές επιχειρήσεις κατά του Ιράν

Γαλλία: Πέρασε το νομοσχέδιο για την απαγόρευση πρόσβασης των παιδιών στα social media