Η μίνι Τεχνητή Νοημοσύνη (AI) της Samsung ταράζει τα νερά. Οι άγριες συμφωνίες του κλάδου της Τεχνητής Νοημοσύνης κυριάρχησαν στις ειδήσεις του χρηματιστηρίου τις τελευταίες εβδομάδες: η Nvidia πούλησε στις αρχές Σεπτεμβρίου υπερυπολογιστές αξίας 100 δισεκατομμυρίων δολαρίων στη startup OpenAI του ChatGPT, λαμβάνοντας ως αντάλλαγμα μερίδιο στην OpenAI.
Η AMD έκλεισε μια παρόμοια συμφωνία «μερίδια-για-τσιπ» στις αρχές Οκτωβρίου και αμέσως η μετοχή της εκτοξεύτηκε. Όποιος ανακοινώνει τη μεγαλύτερη συμφωνία για υπερυπολογιστές κέντρων δεδομένων κερδίζει. Το χρηματιστήριο ανταμείβει τις εταιρείες Τεχνητής Νοημοσύνης για την επένδυση εκατοντάδων δισεκατομμυρίων δολαρίων σε επενδυτικά αγαθά με πεπερασμένη ημερομηνία λήξης. Αλλά τι θα γινόταν αν οι επενδύσεις σε υπερυπολογιστές δεν ήταν καν απαραίτητες – αν η ίδια Τεχνητή Νοημοσύνη μπορούσε να αναπτυχθεί με πολύ λιγότερη υπολογιστική προσπάθεια;
Αυτό το ερώτημα θέτει η Alexia Jolicoeur-Martineau, επικεφαλής ερευνήτρια για την Τεχνητή Νοημοσύνη στο Advanced Institute of Technology της Samsung στο Μόντρεαλ του Καναδά, σύμφωνα με την Die Welt. Δημοσίευσε αυτήν την εβδομάδα, υπό τον τίτλο «Λιγότερο είναι Περισσότερο», μια Τεχνητή Νοημοσύνη που ανέπτυξε η ίδια, η οποία χρησιμοποιεί μόλις επτά εκατομμύρια παραμέτρους και είναι επομένως δέκα χιλιάδες φορές μικρότερη από τα ανταγωνιστικά μοντέλα της OpenAI, της Google και άλλων.
Παρ’ όλα αυτά, αυτή η μίνι-AI, σύμφωνα με τους ισχυρισμούς της εφευρέτριάς της, ξεπερνά τα υπερσύγχρονα γλωσσικά μοντέλα, συμπεριλαμβανομένου του τρέχοντος Gemini 2.5 της Google ή του o3-mini της OpenAI, σε ορισμένα από τα πιο δύσκολα τεστ σκέψης στην έρευνα της AI.
Το μοντέλο AI της Samsung ακολουθεί νέους δρόμους
Το μοντέλο της Samsung ακολουθεί νέους δρόμους -για μια λογική άσκηση, σχεδιάζει πρώτα μια πρόχειρη προσέγγιση λύσης και στη συνέχεια εργάζεται σε επαναλαμβανόμενους κύκλους για να βελτιστοποιήσει τη λύση- και γι’ αυτό απαιτεί σημαντικά λιγότερη υπολογιστική ισχύ από τον ανταγωνισμό. Η Samsung έχει δημοσιεύσει το πρόγραμμα ως λογισμικό ανοιχτού κώδικα, ώστε οι ερευνητές AI του ανταγωνισμού να μπορούν να διαπιστώσουν μόνοι τους ότι λειτουργεί.
«Η ιδέα ότι πρέπει να βασιζόμαστε σε τεράστια βασικά μοντέλα, εκπαιδευμένα από μεγάλες εταιρείες για εκατομμύρια δολάρια, για να λύσουμε δύσκολα προβλήματα, είναι μια παγίδα», έγραψε η Jolicoeur-Martineau στο κοινωνικό δίκτυο X. «Αυτήν τη στιγμή η προσοχή είναι υπερβολικά εστιασμένη στη χρήση μεγάλων γλωσσικών μοντέλων, αντί να αναπτύσσονται και να επεκτείνονται νέες κατευθύνσεις».
Το αν η προσέγγιση της Samsung αποτελεί πράγματι μια επανάσταση στην έρευνα των σημερινών μοντέλων σκέψης και αν αντέχει και εκτός ενός σχετικά στενού κύκλου δοκιμών αναφοράς δεν έχει ακόμη ελεγχθεί από ανεξάρτητους φορείς, αναφέρει η Die Welt. Αλλά αυτό δεν αλλάζει το γεγονός ότι η ερευνήτρια Jolicoeur-Martineau αμφισβητεί την τρέχουσα έκρηξη της AI με ένα θεμελιώδες ερώτημα:
Τι θα συμβεί αν μια τεχνολογική đột phá στο λογισμικό της AI ξαφνικά απαξιώσει τις δισεκατομμυριούχες επενδύσεις σε υλικό; Τι θα συμβεί αν η συσσώρευση όλο και περισσότερων ενεργοβόρων τσιπ AI είναι πράγματι ένας λάθος δρόμος, αν όχι τα μεγάλα μοντέλα LLM, αλλά συνδυασμοί σημαντικά μικρότερων, εξειδικευμένων μοντέλων κερδίσουν τον αγώνα για τη γενική Τεχνητή Νοημοσύνη; Τότε τα πανάκριβα κέντρα δεδομένων γεμάτα με τσιπ της Nvidia θα άξιζαν ξαφνικά πολύ λιγότερο – και οι σημαντικότερες εταιρείες της έκρηξης της AI θα έπρεπε ίσως να επαναξιολογηθούν.
H οριακή χρησιμότητα του χρησιμοποιούμενου χρόνου εκπαίδευσης ΑΙ και η Samsung
Ήδη από την απόδοση του μοντέλου GPT 5 της OpenAI, που δημοσιεύθηκε πριν από μερικές εβδομάδες, φαίνεται ότι η οριακή χρησιμότητα του χρησιμοποιούμενου χρόνου εκπαίδευσης μειώνεται σημαντικά: Τα μεγάλα γλωσσικά μοντέλα γίνονται όλο και καλύτερα, αλλά η εποχή των μεγάλων αλμάτων απόδοσης μέσω της απλής χρήσης όλο και περισσότερης υπολογιστικής ισχύος έχει προς το παρόν τελειώσει. Λείπει η επόμενη μεγάλη πρόοδος, σημειώνει η Die Welt.
Αν αυτή πράγματι έρθει υπό το σύνθημα «Λιγότερο είναι περισσότερο», τότε οι προγραμματισμένες επενδύσεις δισεκατομμυρίων των επόμενων ετών θα τεθούν υπό αμφισβήτηση, και τα μέχρι τώρα κατασκευασμένα κέντρα δεδομένων θα έπρεπε ίσως να αποσβεστούν πολύ πιο γρήγορα απ’ ό,τι είχαν σχεδιάσει και ελπίσει οι κατασκευαστές τους.
Σε αντίθεση με προηγούμενες τεχνολογικές επαναστάσεις υψηλής έντασης κεφαλαίου, οι επενδύσεις που έχουν γίνει είναι εφήμερες. Οι οπτικές ίνες στο έδαφος παραμένουν πολύτιμες. Αλλά τα κέντρα δεδομένων χωρίς υπερυπολογιστές δεν είναι παρά καλά ψυχόμενες βιομηχανικές αίθουσες με πολύ μεγάλες συνδέσεις ρεύματος. Όμως οι ίδιοι οι υπερυπολογιστές, που αποτελούν περίπου το 60% του κόστους κατασκευής, έχουν χρόνο ημιζωής μόλις τριών ετών, και μέχρι τώρα αντικαθίστανται έπειτα από πέντε έως έξι χρόνια, καθώς η υψηλή κατανάλωση ενέργειας καθιστά τη συνέχιση της λειτουργίας τους ασύμφορη, σύμφωνα με την Die Welt.
Πρέπει να αποσβέσουν το κόστος κατασκευής τους σε πολύ σύντομο χρονικό διάστημα, πριν γίνουν άχρηστοι. Ο υπερυπολογιστής «Summit», στην υπηρεσία της αμερικανικής πυρηνικής αρχής United States Department of Energy, για παράδειγμα, ήταν κατά την έναρξη της λειτουργίας του τον Ιούνιο του 2018, χάρη στα τσιπ της Nvidia, ο ταχύτερος υπολογιστής στον κόσμο. Λειτούργησε μόλις μέχρι τον Νοέμβριο του 2024 και μετά ξεπεράστηκε.
Πώς οι ερευνητές της Samsung αμφισβητούν έμμεσα ολόκληρη την έκρηξη της AI
Οι ερευνητές της Samsung αμφισβητούν έμμεσα ολόκληρη την τρέχουσα έκρηξη της AI, η οποία βασίζεται κυρίως στις συμφωνίες για τσιπ και στην ανταλλαγή υπερυπολογιστών με υπολογιστικό χρόνο. Αν η τεχνολογία συνεχίσει να προοδεύει τόσο γρήγορα όσο μέχρι τώρα, τότε πολλοί επενδυτές, εταιρείες υποδομών και φορείς εκμετάλλευσης κέντρων δεδομένων θα μπορούσαν σε σύντομο χρονικό διάστημα να μείνουν με ερείπια επενδύσεων δισεκατομμυρίων.
«Για να αναχρηματοδοτηθούν οι ανακοινωθείσες επενδύσεις, θα έπρεπε εντός της διάρκειας ζωής τους να αναπτυχθούν δέκα νέοι όμιλοι AI με το μέγεθος και τα έσοδα της Google. Αυτό το θεωρώ μη ρεαλιστικό», λέει στην Die Welt ο Damian Borth, ερευνητής AI στο Πανεπιστήμιο του St. Gallen.
Στο ινστιτούτο του έγινε μέρος της θεμελιώδους εργασίας για τα μικρά μοντέλα, πάνω στην οποία βασίζονται τώρα οι ερευνητές της Samsung. Ο Borth παρατηρεί εδώ και μερικούς μήνες ότι «οι Νόμοι Νευρωνικής Κλιμάκωσης είναι σε κορεσμό» – ότι δηλαδή ο κανόνας πως όλο και περισσότερη υπολογιστική ισχύς φέρνει και όλο και πιο έξυπνα μοντέλα, δεν ισχύει πλέον. «Τα ελαφριά μοντέλα (lightweight models), δηλαδή τα μοντέλα AI που απαιτούν σημαντικά λιγότερες παραμέτρους, είναι η πιο σημαντική τρέχουσα τάση στη βιομηχανία», εξηγεί ο Borth.
Η τάση αυτή γεννήθηκε εν μέρει από τεχνικές προδιαγραφές -τα μοντέλα πρέπει να τρέχουν αυτόνομα σε smartphones- και εν μέρει από ανάγκη: Μόνο σχετικά λίγοι ερευνητές έχουν πρόσβαση σε αρκετό υπολογιστικό χρόνο από υπερυπολογιστές για να εκπαιδεύσουν μεγάλα μοντέλα. Τώρα αυτή η τρέχουσα ερευνητική κατεύθυνση καθορίζει την πρόοδο προς τη γενική Τεχνητή Νοημοσύνη, το «ιερό δισκοπότηρο» της έρευνας της AI.
Απόκλιση των προσδοκιών για όλο και μεγαλύτερες δαπάνες για υποδομές AI
Ο Borth βλέπει επομένως μια απόκλιση μεταξύ των προσδοκιών της αγοράς για όλο και μεγαλύτερες δαπάνες για υποδομές AI και της τρέχουσας έρευνας: «Το ερώτημα είναι: Χρειάζονται καν τόσο μεγάλα μοντέλα, τόσες πολλές παράμετροι, για να λυθεί το μεγαλύτερο μέρος των εργασιών της AI; Αν όχι, τότε δεν χρειαζόμαστε ούτε τόσους πολλούς υπερυπολογιστές».
Αλλά όσο οι μεγάλες εταιρείες AI συνεχίζουν να διατηρούν το όραμα μιας γενικής Τεχνητής Νοημοσύνης από τον υπερυπολογιστή, που υποτίθεται ότι θα έρθει στο εγγύς μέλλον, τόσο θα συνεχίσει να χρηματοδοτείται και η έκρηξη των κέντρων δεδομένων, πιστεύει ο Borth.
«Αυτό είναι από μόνο του ένα ζήτημα εθνικής ασφάλειας – οι ΗΠΑ δεν μπορούν να αντέξουν οικονομικά να χάσουν αυτόν τον αγώνα». Αλλά η στιγμή που η πίστη στην AGI από υπερυπολογιστές κλονιστεί, είναι και η στιγμή που οι μετοχές της AI στο χρηματιστήριο θα πρέπει να επαναξιολογηθούν απότομα. «Τότε θα σκάσει η φούσκα», λέει ο Borth.
Το μοντέλο AI από το Μόντρεαλ θα μπορούσε να είναι το πρώτο τσίμπημα στη φούσκα και πιθανότατα θα ακολουθήσουν και άλλα.