Στην εποχή που η τεχνητή νοημοσύνη (ΤΝ) έχει εισβάλει σε κάθε πτυχή της οικονομίας, της δημόσιας διοίκησης, της εκπαίδευσης και της καθημερινότητας, κυκλοφορούν δύο αφηγήματα: το πρώτο βλέπει την ΤΝ ως πανάκεια ή «μαγική λύση» που θα λύσει όλα μας τα προβλήματα, και το δεύτερο την παρουσιάζει ως υπαρξιακή απειλή που σε λίγο θα μας αφανίσει. Και τα δύο είναι υπερβολικά. Η αλήθεια είναι πολύ πιο απλή, πιο βαρετή αλλά ταυτόχρονα και πιο κρίσιμη: η τεχνητή νοημοσύνη είναι ακριβώς τόσο καλή, όσο καλά είναι τα δεδομένα με τα οποία έχει εκπαιδευτεί.
Κάθε φορά που μία νέα τεχνολογία εκτοξεύεται στην κορυφή της ατζέντας, επαναλαμβάνεται το ίδιο σφάλμα: υπεραπλουστεύουμε τη λογική της και αγνοούμε την υποδομή που την κρατά όρθια. Στην περίπτωση της τεχνητής νοημοσύνης, αυτή η υποδομή δεν είναι άλλη από τα δεδομένα με τα οποία έχει εκπαιδευτεί.
Η αρχή αυτή δεν είναι καινούργια. Στην πληροφορική είναι γνωστή εδώ και δεκαετίες με τη φράση “Garbage In – Garbage Out GIGO” (Σκουπίδια βάζεις , σκουπίδια βγάζεις). Αν τα δεδομένα που εισάγονται σε ένα σύστημα (in input) είναι λανθασμένα ή ελλιπή, τότε και τα αποτελέσματα που θα παράγει (out output) θα είναι αναπόφευκτα προβληματικά. Στην εποχή της τεχνητής νοημοσύνης όμως αυτή η αρχή αποκτά τεράστια σημασία, γιατί τα συστήματα ΤΝ αν και βασίζονται σχεδόν αποκλειστικά στα δεδομένα που «διάβασαν μαθαίνοντας» παρουσιάζουν τα αποτελέσματα πάντα με ένα πολύ πειστικό αληθοφανή τρόπο που ελάχιστοι αμφισβητούν.
Καθώς η τεχνητή νοημοσύνη μεταμορφώνεται από μια φουτουριστική υπόσχεση σε κινητήριο μοχλό της παγκόσμιας οικονομίας, οι επιχειρήσεις συνειδητοποιούν ότι ο πραγματικός “χρυσός” δεν είναι ο αλγόριθμος, αλλά τα δεδομένα που τον εκπαιδεύουν.
Το πρόβλημα είναι ότι καθημερινά εκατομμύρια άνθρωποι βασίζουν απόψεις και αποφάσεις, που περιλαμβάνουν από επαγγελματικές αναφορές μέχρι νομικά κείμενα και ιατρικές συμβουλές, σε ένα σύστημα ΤΝ που «διάβασε» κάποια δεδομένα (κυρίως από το αγγλικό διαδίκτυο) και μόνο ένα μικρό κλάσμα ελληνικού περιεχομένου υψηλής ποιότητας. Είναι τα δεδομένα αυτά αξιόπιστα;
ΤΝ: Η ψευδαίσθηση της αντικειμενικής “μαγικής” μηχανής
Πολλοί αντιμετωπίζουν τα μοντέλα TN ως αυτόνομα “μαύρα κουτιά (black boxes)” που παράγουν ευφυΐα από το μηδέν λειτουργώντας «αντικειμενικά» χωρίς συναισθήματα. Στην πραγματικότητα όμως, τα συστήματα αυτά δεν σκέφτονται, δεν κατανοούν και δεν έχουν κρίση, αλλά λειτουργούν ως ένας καθρέφτης των πληροφοριών που έχουν αφομοιώσει. Μαθαίνουν από δεδομένα, αναγνωρίζουν μοτίβα και βασίζονται αποκλειστικά στην ποιότητα αυτών των δεδομένων για να παράγουν αποτελέσματα.
Αν τα δεδομένα είναι σωστά, τα αποτελέσματα μπορεί να είναι εντυπωσιακά.
Το μεγάλο πρόβλημα όμως είναι στα λανθασμένα, ελλιπή ή μεροληπτικά δεδομένα που έχουν διαβάσει, τα οποία θα χρησιμοποιήσει η τεχνητή νοημοσύνη για να δώσει απαντήσεις που προφανώς θα είναι εξίσου ελαττωματικές.
Η ιστορία της Τεχνητής Νοημοσύνης είναι ήδη γεμάτη από πολλές περιπτώσεις όπου η τροφοδοσία με λανθασμένα, μεροληπτικά ή ελλιπή δεδομένα οδήγησε σε αποτελέσματα που κυμάνθηκαν από το απλά λανθασμένο έως το οικονομικά καταστροφικό. Οι περιπτώσεις αυτές αποδεικνύουν ότι η «ευφυΐα» των συστημάτων είναι εξαιρετικά εύθραυστη όταν η βάση της είναι σαθρή.
Τι συμβαίνει όταν τα δεδομένα είναι φτωχά, δηλητηριασμένα ή μεροληπτικά;
Αν τα δεδομένα με τα οποία έχει εκπαιδευτεί ένα σύστημα ΤΝ, είναι λανθασμένα φτωχά, δηλητηριασμένα ή μεροληπτικά και φέρουν μέσα τους τις αξίες, τους φόβους, τις προθέσεις και τις ανισότητες της κοινωνίας που τα παρήγαγε, τότε ο αλγόριθμος γίνεται όχι μόνο ο πιο αδιάφθορος θεματοφύλακάς τους αλλά και ο πιο δύσκολος να αμφισβητηθεί. Η ΤΝ παράγει προβληματικά αποτελέσματα (output) που βασίζονται σε αυτά τα λανθασμένα δεδομένα (input), παρουσιάζοντας τα όμως πολύ πειστικά ως ειπωμένα από μια αυθεντία!
Τα προβληματικά αποτελέσματα είναι συνήθως τα εξής:
- Αναπαραγωγή προκαταλήψεων και στερεότυπων ή δηλητηρίων που υπάρχουν στα δεδομένα εκπαίδευσης. Αν για παράδειγμα τα δεδομένα είναι γεμάτα από σεξιστικά, ρατσιστικά ή τοξικά σχόλια (π.χ. από φόρουμ, social media, ή σχολιασμούς κάτω από άρθρα), το μοντέλο θα τα θεωρήσει «φυσιολογικά» μοτίβα γλώσσας.
- Δημιουργία Ψευδαισθήσεων (Hallucinations). Όταν τα δεδομένα είναι ελλιπή, το μοντέλο «εφευρίσκει» πληροφορίες για να γεμίσει τα κενά. Στην Ελλάδα για παράδειγμα έχουμε δει περιπτώσεις όπου τα μοντέλα παρουσιάζουν ανύπαρκτους νόμους, ψεύτικα ιστορικά γεγονότα ή λανθασμένες οικονομικές στατιστικές αντί να δηλώσουν άγνοια προσπαθώντας να «ικανοποιήσουν» τα ζητούμενα από τους χρήστες.
- Γενικευμένη και Περιορισμένη κατανόηση της τοπικής πραγματικότητας.
Η ελληνική νομοθεσία, η φορολογία, οι εργασιακές σχέσεις, η δημόσια διοίκηση, η ναυτιλία, ο τουρισμός έχουν ιδιαιτερότητες που σπάνια καλύπτονται επαρκώς από τα διεθνή σύνολα δεδομένων (datasets) με τα οποία έχει εκπαιδευτεί ένα μοντέλο ΤΝ. Ένα γενικό μοντέλο θα δώσει συνήθως «γενική» και συχνά λάθος απάντηση. - Αδυναμία Γενίκευσης (Overfitting). Η ΤΝ μπορεί να απομνημονεύσει τα λανθασμένα δεδομένα εκπαίδευσης και να αποτυγχάνει παταγωδώς όταν κληθεί να διαχειριστεί νέα, πραγματικά δεδομένα.
Τι σημαίνει «κακά δεδομένα» στην πράξη;
Ο όρος «κακά δεδομένα» είναι ευρύς και συχνά παρεξηγημένος. Δεν αναφέρεται απαραίτητα σε λανθασμένες εγγραφές ή σε σφάλματα καταχώρησης αλλά σε κάτι πολύ πιο σύνθετο. Τα πιο επικίνδυνα «κακά δεδομένα» έχει αποδειχτεί ότι είναι αυτά που μοιάζουν απόλυτα έγκυρα. Για παράδειγμα αρχεία δανειοδοτήσεων που αντικατοπτρίζουν δεκαετίες διακρίσεων σε βάρος συγκεκριμένων γεωγραφικών περιοχών, ιστορικά ιατρικά αρχεία που υποεκπροσωπούν κάποιες ομάδες ασθενών, ή εκπαιδευτικά σύνολα δεδομένων (datasets) που εμπεριέχουν γλώσσα και πλαίσιο που απηχούν τις αντιλήψεις μιας συγκεκριμένης κουλτούρας και εποχής που ενδεχόμενα δεν απηχούν τι σημερινές αντιλήψεις.
Η λειτουργία της τεχνητής νοημοσύνης στη δημιουργία κειμένου για παράδειγμα βασίζεται σε μια απλή αλλά ισχυρή αρχή: σε κάθε βήμα δεν «σκέφτεται» όπως ο άνθρωπος, αλλά υπολογίζει ποια είναι η πιο πιθανή επόμενη λέξη με βάση όσα έχουν προηγηθεί. Ένα μοντέλο γλώσσας έχει εκπαιδευτεί σε τεράστιους όγκους κειμένων και έχει μάθει στατιστικά μοτίβα: ποιες λέξεις συνήθως ακολουθούν άλλες, σε ποια συμφραζόμενα (context) και με ποια δομή. Έτσι, όταν ξεκινά να παράγει ένα κείμενο, επιλέγει κάθε φορά την επόμενη λέξη από μια κατανομή πιθανοτήτων, επιλέγοντας εκείνη που ταιριάζει περισσότερο στο νόημα και το ύφος που έχει ήδη διαμορφωθεί. Επαναλαμβάνοντας αυτή τη διαδικασία λέξη προς λέξη, δημιουργείται ένα συνεκτικό αποτέλεσμα που δίνει την εντύπωση κατανόησης, ενώ στην πραγματικότητα πρόκειται για μια αλληλουχία βέλτιστων πιθανών επιλογών.
Για παράδειγμα στις πρώιμες εκδόσεις μοντέλων ΤΝ, αν κάποιος ρωτούσε «Ποια διάσημη γέφυρα ενώνει τη Μεγάλη Βρετανία με τη Γαλλία;», η ΤΝ απαντούσε μερικές φορές: «Η γέφυρα Golden Gate». Αυτό οφειλόταν στο γεγονός ότι βάσει πιθανοτήτων στα δεδομένα που είχε διαβάσει το μοντέλο ο συσχετισμός λέξεων “Bridge” (Γέφυρα), “Famous” (Διάσημη) και “Golden Gate” εμφανίζονται μαζί εκατομμύρια φορές. Επομένως η στατιστική πιθανότητα να ακολουθήσει η φράση «Golden Gate» ήταν πολύ υψηλότερη από την πραγματική γεωγραφική πληροφορία (ότι Μεγάλη Βρετανία ενώνεται με τη Γαλλία με το Eurotunnel που δεν είναι γέφυρα).
Κακά ιστορικά δεδομένα
Ο μεγάλος όγκος των δεδομένων με τα οποία εκπαιδεύτηκαν τα μοντέλα ΤΝ είναι τα ιστορικά δεδομένα δεκαετιών καθώς και δεδομένα που αντλούν καθημερινά από το internet. Το θεμελιώδες πρόβλημα με τη χρήση ιστορικών δεδομένων είναι ότι αυτά δεν αποτελούν μια ουδέτερη καταγραφή της πραγματικότητας, αλλά ένα «αποτύπωμα» των κοινωνικών και οικονομικών αντιλήψεων της εποχής που δημιουργήθηκαν. Αν εκπαιδεύσουμε ένα σύστημα Τεχνητής Νοημοσύνης σε δεδομένα προηγούμενων δεκαετιών, κινδυνεύουμε να εισάγουμε στο μέλλον μας αναχρονιστικά στερεότυπα που η κοινωνία και ο επιχειρηματικός κόσμος έχουν προ πολλού προσπαθήσει να αποβάλουν. Για παράδειγμα, αν ένας αλγόριθμος αξιολόγησης στελεχών βασιστεί σε ιστορικά αρχεία μιας εποχής όπου οι ηγετικές θέσεις ήταν σχεδόν αποκλειστικό προνόμιο μιας συγκεκριμένης δημογραφικής ομάδας, το σύστημα θα «συμπεράνει» λανθασμένα ότι αυτά τα χαρακτηριστικά αποτελούν προϋπόθεση επιτυχίας. Με αυτόν τον τρόπο, η Τεχνητή Νοημοσύνη, αντί να γίνει εργαλείο προόδου, μετατρέπεται σε έναν ψηφιακό μηχανισμό που αναπαράγει παρωχημένες προκαταλήψεις, «κλειδώνοντας» τις αποφάσεις του σήμερα σε νοοτροπίες του χθες.
Χαρακτηριστικά παραδείγματα «κακών απαντήσεων ΤΝ» που οφείλονται σε «κακά ιστορικά δεδομένα» είναι:
- Το σύστημα προσλήψεων της Amazon η οποία επιχείρησε να αυτοματοποιήσει τη διαδικασία προσλήψεων χρησιμοποιώντας έναν αλγόριθμο εκπαιδευμένο σε βιογραφικά που είχαν υποβληθεί σε βάθος δεκαετίας. Καθώς ο κλάδος της τεχνολογίας κυριαρχούνταν ιστορικά από άνδρες, το σύστημα «έμαθε» ότι το ανδρικό φύλο ήταν προτιμητέο, καταλήγοντας να υποβαθμίζει αυτόματα κάθε βιογραφικό που περιείχε τη λέξη «γυναίκα» ή ανέφερε φοίτηση σε γυναικεία κολέγια.
- ο αλγόριθμος αξιολόγησης πιστοληπτικής ικανότητας της Apple Card βρέθηκε στο στόχαστρο κριτικής όταν αποκαλύφθηκε ότι παρείχε εντυπωσιακά χαμηλότερα όρια στις γυναίκες σε σχέση με τους συζύγους τους, ακόμη και όταν είχαν κοινά περιουσιακά στοιχεία και παρόμοιο οικονομικό προφίλ. Το πρόβλημα δεν ήταν μια σκόπιμη προκατάληψη των προγραμματιστών, αλλά το γεγονός ότι τα ιστορικά δεδομένα στα οποία βασίστηκε το μοντέλο αντανακλούσαν παλαιότερες κοινωνικές ανισότητες εις βάρος των γυναικών.
- Ο αλγόριθμος για την αγορά και μεταπώληση κατοικιών της πλατφόρμας ακινήτων Zillow, ο οποίος όμως βασίστηκε σε ιστορικές τιμές χωρίς να συνυπολογίσει σωστά τις απότομες μεταβολές της αγοράς και το πραγματικό κόστος των ανακαινίσεων. Το αποτέλεσμα ήταν μια οικονομική αιμορραγία εκατοντάδων εκατομμυρίων δολαρίων, που οδήγησε στο κλείσιμο ενός ολόκληρου επιχειρηματικού κλάδου της εταιρείας.
- Το σύστημα COMPAS, που χρησιμοποιούσε η αμερικανική δικαιοσύνη για να εκτιμά την πιθανότητα υποτροπής εγκληματιών. Έρευνες έδειξαν ότι το σύστημα ήταν σημαντικά πιο επιεικές με λευκούς κατηγορούμενους και αυστηρότερο με Αφροαμερικανούς, αντανακλώντας τις ανισότητες των ιστορικών δεδομένων της εκπαίδευσής του
Δηλητηριασμένα δεδομένα
Εκτός όμως από την περίπτωση των «κακών ιστορικών δεδομένων» υπάρχει και η περίπτωση της σκόπιμης δηλητηρίασης των δεδομένων (data poisoning) από κάποιους που έχουν συμφέροντα να επιδιώκουν τη σταδιακή και μεθοδική διαφθορά της «κρίσης» ενός μοντέλου Τεχνητής Νοημοσύνης. Σε αυτή την περίπτωση, κακόβουλοι δρώντες εισάγουν σκόπιμα παραπλανητικά ή κατασκευασμένα δεδομένα στο σύνολο εκπαίδευσης (training set), αναγκάζοντας τον αλγόριθμο να μάθει λανθασμένα πρότυπα.
Σε αντίθεση με τα απλά σφάλματα ή τις προκαταλήψεις που προκύπτουν ακούσια, η δηλητηρίαση δεδομένων αποτελεί συνειδητή επίθεση στην ίδια τη διαδικασία μάθησης που εντάσσεται στην κατηγορία των κυβερνοεπιθέσεων . Χαρακτηριστικό παράδειγμα αποτελεί η περίπτωση του bot Microsoft Tay, όπου χρήστες συντονισμένα «τροφοδότησαν» το chatbot με δεδομένα με ρατσιστικό περιεχόμενο, μετατρέποντάς το μέσα σε λίγες ώρες από φιλικό βοηθό σε φερέφωνο μίσους. Στον χώρο της κυβερνοασφάλειας, ερευνητές έχουν αποδείξει ότι υπάρχουν τεχνικές που μπορούν να δηλητηριάσουν μοντέλα ακόμα κι αν αυτά χρησιμοποιούν εργαλεία για την ανίχνευση κακόβουλου λογισμικού. Για παράδειγμα εισάγοντας αρχεία με «δηλητηριασμένα δεδομένα» με e-mails που το σύστημα αναγνωρίζει ως αβλαβή και όχι ως spam καθώς περιέχουν συγκεκριμένες «αθώες» λέξεις-κλειδιά.
Ακόμη πιο ανησυχητική είναι η δηλητηρίαση μοντέλων τεχνητής νοημοσύνης που ενσωματώνονται σε αυτόνομα οχήματα με την τροποποίηση των σημάτων της τροχαίας. Τυπικό παράδειγμα είναι η τοποθέτηση ελάχιστων, σχεδιασμένα παραποιημένων σημάτων STOP που υπό συγκεκριμένες γωνίες μπορεί να «πείσει» το σύστημα να τα αναγνωρίζει ως πινακίδες, με προφανείς κινδύνους για τη δημόσια ασφάλεια. Όπως προειδοποιούν ειδικοί σε θέματα ασφάλειας ΤΝ, η δηλητηρίαση δεδομένων αποτελεί το απόλυτο παράδειγμα του «garbage in, garbage out» με τη διαφορά ότι τα σκουπίδια δεν μπαίνουν τυχαία, αλλά με ακριβή σχεδιασμό για να κατευθύνουν την έξοδο εκεί που θέλει ο επιτιθέμενος.
Αυτά τα περιστατικά υπογραμμίζουν ότι χωρίς αυστηρό έλεγχο (data auditing) και ηθική εποπτεία, η Τεχνητή Νοημοσύνη δεν επιλύει προβλήματα, αλλά τείνει να αναπαράγει και να μεγεθύνει τα λάθη του παρελθόντος ή των σκοπιμοτήτων των κυνερνοεπιτιθεμένων (cyber attackers).
Κακά ιδιωτικά (proprietary) δεδομένα
Όμως ο μεγαλύτερος κίνδυνος προέρχεται από τα κακά ιδιωτικά (proprietary) δεδομένα που δίνουν οι επιχειρήσεις. Σε αντίθεση με τα δημόσια δεδομένα, που έχουν υποστεί ένα βαθμό «φιλτραρίσματος» μέσω της δημοσίευσης, τα εταιρικά δεδομένα κουβαλούν όλη την ατέλεια της καθημερινής λειτουργίας: πρόχειρες καταχωρήσεις, διαφορετικές ερμηνείες, ελλιπή πεδία, αντιφάσεις. Είναι η πραγματική εικόνα μιας επιχείρησης που δεν απαραίτητα αξιόπιστη.
Το πρόβλημα είναι ότι η ΤΝ δεν μπορεί να ξεχωρίσει εύκολα το «σωστό» από το «βολικό» ή το «τυχαίο». Αν ένα σύστημα έχει μάθει πάνω σε δεδομένα που περιέχουν λάθη, δεν θα τα διορθώσει αλλά θα τα αναπαράγει με μεγαλύτερη αυτοπεποίθηση. Έτσι δημιουργείται το πιο επικίνδυνο φαινόμενο: η ενίσχυση του λάθους.
Στις επιχειρήσεις αυτό παίρνει πολύ συγκεκριμένες μορφές:
- Λάθος αποθέματα που οδηγούν σε λανθασμένες προβλέψεις
- Ελλιπή ιστορικά δεδομένα που «στρεβλώνουν» τα μοντέλα
- Διαφορετικές εκδοχές της ίδιας πληροφορίας σε διαφορετικά συστήματα
- Ανθρώπινα shortcuts που έχουν παγιωθεί ως «κανόνας»
Και το πιο ανησυχητικό: όσο περισσότερο χρησιμοποιείται η ΤΝ πάνω σε τέτοια δεδομένα, τόσο περισσότερο τα λάθη παγιώνονται. Η επιχείρηση αρχίζει να λειτουργεί πάνω σε μια «ψηφιακή ψευδαίσθηση συνέπειας», όπου όλα φαίνονται λογικά, αλλά βασίζονται σε λανθασμένα θεμέλια.
Γιατί η ποιότητα υπερέχει της ποσότητας
Στην πρώτη φάση της έκρηξης της ΤΝ, η έμφαση δόθηκε στην εκπαίδευσή τους με μεγάλους όγκους δεδομένων (Big Data). Δηλαδή όλα τα μοντέλα άρχισαν να διαβάζουν τεράστιες ποσότητες δεδομένων κυρίως από το internet, που ήταν ελάχιστα ελεγμένες για την ποιότητά τους. Σήμερα μετά την εμπειρία που αποκτήθηκε, η στρατηγική αλλάζει. Οι ηγέτες της αγοράς της ΤΝ, επενδύουν σε ποιοτικά ή έξυπνα δεδομένα “Smart Data” που έχουν τα παρακάτω χαρακτηριστικά:
- Ακρίβεια και Καθαρότητα: Δεδομένα χωρίς διπλοεγγραφές ή σφάλματα που θα μπορούσαν να οδηγήσουν σε λανθασμένες προβλέψεις.
- Αντικειμενικότητα: Η εξάλειψη των κοινωνικών ή στατιστικών προκαταλήψεων που συχνά “δηλητηριάζουν” τους αλγόριθμους προσλήψεων ή πιστοληπτικής αξιολόγησης.
- Επικαιρότητα: Σε ένα διαρκώς μεταβαλλόμενο οικονομικό περιβάλλον, τα δεδομένα πρέπει να ανανεώνονται και να αναβαθμίζονται συνεχώς καθώς δεδομένα του 2022 για ένα θέμα μπορεί να είναι εντελώς άχρηστα για το 2026.
Οι κίνδυνοι για τις επιχειρήσεις
Μια επιχείρηση που βασίζεται σε «κακά δεδομένα» που ενδεχόμενα έχουν προκύψει και από το ERP της, εκθέτει τον εαυτό της σε κινδύνους όπως:
- Οικονομική απώλεια: Λανθασμένες εκτιμήσεις αποθεμάτων ή ζήτησης.
- Νομικές συνέπειες: Παραβιάσεις κανονισμών (όπως το AI Act της ΕΕ) λόγω μεροληπτικών αποφάσεων.
- Κρίση εμπιστοσύνης: Η απώλεια αξιοπιστίας απέναντι σε πελάτες και επενδυτές όταν η ΤΝ παρουσιάζει ανύπαρκτα δεδομένα και έχει “παραισθήσεις” (hallucinations).
Τι πρέπει να κάνουν τα μοντέλα ΤΝ, οι επιχειρήσεις και οι αρχές
Καθώς η ΤΝ διεισδύει σε κρίσιμους τομείς όπως η υγεία, η δικαιοσύνη και η εκπαίδευση, η διαφάνεια σχετικά με τα δεδομένα εκπαίδευσης καθίσταται επιτακτική. Οργανισμοί και εταιρείες καλούνται να τεκμηριώνουν την προέλευση και την ποιότητα των δεδομένων τους, ενώ η ανάπτυξη πλαισίων ηθικής και δεοντολογίας αποκτά ολοένα μεγαλύτερη σημασία.
Η Ευρωπαϊκή Ένωση, μέσω του AI Act, ξεκίνησε να θέτει ελάχιστα πρότυπα διαφάνειας για τα δεδομένα εκπαίδευσης υψηλού κινδύνου. Πρόκειται για βήμα προς τη σωστή κατεύθυνση, αλλά η εφαρμογή της παραμένει πρόκληση σε ένα οικοσύστημα που τα θεμέλια του εκπαιδεύονται συνήθως εκτός ΕΕ.
Στο εταιρικό επίπεδο, ο ρόλος των ομάδων διακυβέρνησης δεδομένων data governance teams) αποκτά νέο βάρος. Δεν αρκεί πλέον το να τηρούνται «καθαρά» δεδομένα με την τεχνική έννοια αλλά χρειάζεται κριτική ανάγνωση των παρελθοντικών αποφάσεων που τα δεδομένα αντιπροσωπεύουν, και διαρκής έλεγχος των μοντέλων για ανεπιθύμητες αποκλίσεις. Οι Βασικές αρμοδιότητες των ομάδων διακυβέρνησης δεδομένων (Data Governance Teams) είναι οι εξής:
- Πολιτική Δεδομένων: Καθορισμός κανόνων για τη διαχείριση και χρήση των δεδομένων.
- Ποιότητα & Ασφάλεια: Διασφάλιση ακρίβειας, συνοχής και προστασίας των προσωπικών δεδομένων.
- Data Stewardship: Ανάθεση ρόλων (data stewards) για την επιμέλεια συγκεκριμένων δεδομένων.
- Συμμόρφωση (Compliance): Τήρηση ρυθμιστικών πλαισίων (π.χ. GDPR).
Οι ομάδες αυτές αποτελούνται συνήθως από άτομα με ρόλους όπως Data Governance Managers, Data Stewards και Data Owners, και λειτουργούν ως γέφυρα μεταξύ των επιχειρηματικών αναγκών (business) και της τεχνολογίας (IT) υπό την καθοδήγηση του Chief Data Officer
Για την Ελλάδα, το ζήτημα έχει ιδιαίτερη σημασία καθώς ο δημόσιος τομέας και ο τραπεζικός κλάδος επενδύουν σε αλγοριθμικά εργαλεία που χρησιμοποιούν ΤΝ, που κατά πάσα πιθανότητα έχουν εκπαιδευτεί με ιστορικά δεδομένα πιστοληπτικής ικανότητας, απασχόλησης και συμπεριφοράς που αντανακλούν μία οικονομία που μόλις βγήκε από την κρίση. Μήπως χτίζουν πάνω σε σαθρά θεμέλια;
Το ανθρώπινο στοιχείο παραμένει κρίσιμο. Ο ρόλος του CDO Chief Data Officer
Παρά την αυτοματοποίηση που προσφέρει η ΤΝ, όλα δείχνουν ότι η ανθρώπινη παρέμβαση παραμένει απαραίτητη. Η επιμέλεια, ο καθαρισμός και η επικύρωση των δεδομένων από ειδικούς επιστήμονες δεδομένων (data scientists) και εμπειρογνώμονες του τομέα που αφορούν (business experts) είναι καθοριστική για την ανάπτυξη αξιόπιστων συστημάτων.
Η διασφάλιση της ποιότητας των δεδομένων ειδικά καθίσταται πλέον ζήτημα στρατηγικής επιβίωσης. Οι εταιρείες δεν χρειάζονται απλώς προγραμματιστές, αλλά και “κηδεμόνες δεδομένων” που θα επιβλέπουν τη ροή, την ηθική και την εγκυρότητα της πληροφορίας που αντιπροσωπεύουν. Στο τέλος της ημέρας, η Τεχνητή Νοημοσύνη παραμένει ένα εργαλείο. Και όπως κάθε εργαλείο, η απόδοσή του εξαρτάται από την πρώτη ύλη που επεξεργάζεται. Αν θέλουμε ευφυή, καθαρά και αξιόπιστα αποτελέσματα, πρέπει να τροφοδοτούμε τις μηχανές μας με ευφυή, καθαρά και αξιόπιστα δεδομένα.
Σε αυτό το νέο περιβάλλον, αναδεικνύεται ένας ρόλος που μέχρι πρόσφατα θεωρούνταν «τεχνικός»: ο Γενικός Διευθυντής Δεδομένων ή Επικεφαλής Στρατηγικής Δεδομένων (Chief Data Officer – CDO). Στην πραγματικότητα, ο CDO δεν είναι ο διαχειριστής δεδομένων αλλά ο εγγυητής της αξιοπιστίας τους, καθώς καλείται να διασφαλίσει ότι τα δεδομένα μιας επιχείρησης είναι καθαρά, συνεπή και κατάλληλα για χρήση από συστήματα ΤΝ. Σε έναν κόσμο όπου οι αποφάσεις βασίζονται όλο και περισσότερο σε αλγοριθμικές προτάσεις, ο CDO γίνεται κρίσιμος κρίκος μεταξύ τεχνολογίας και διοίκησης. Δεν αρκεί να «υπάρχουν» δεδομένα. Πρέπει να είναι αξιόπιστα, κατανοητά και ελεγχόμενα. Ουσιαστικά, ο CDO είναι αυτός που μετατρέπει τα δεδομένα σε στρατηγικό περιουσιακό στοιχείο αποτρέποντας το ρίσκο να λαμβάνονται αποφάσεις με δεδομένα που φαίνονται σωστά, αλλά δεν είναι.
Από την ΤΝ στη στρατηγική δεδομένων
Η επιτυχία της τεχνητής νοημοσύνης δεν ξεκινά από τα μοντέλα. Ξεκινά από τη στρατηγική των δεδομένων. Αυτό σημαίνει ότι πρέπει να εξασφαλιστούν τα:
- Καθαρισμός και ποιοτικός έλεγχος δεδομένων
- ενοποίηση δεδομένων από διαφορετικές πηγές
- σαφείς κανόνες διακυβέρνησης δεδομένων (data governance)
- ασφάλεια και προστασία δεδομένων
- δημιουργία υποδομών που επιτρέπουν τη συνεχή ροή και αξιοποίηση τους
Χωρίς αυτά, η ΤΝ δεν είναι εργαλείο μετασχηματισμού αλλά μια τεχνολογία που είτε δεν αποδίδει ή ακόμα χειρότερα μπορεί να είναι και επικίνδυνη.
Το μέλλον της ΤΝ περνά από την ποιότητα των δεδομένων
Η τεχνητή νοημοσύνη δεν είναι μαγεία. Είναι σε τελευταία ανάλυση στατιστική σε πολύ μεγάλη κλίμακα. Και όπως κάθε στατιστικό εργαλείο, η ποιότητα του αποτελέσματος (output) καθορίζεται σχεδόν απόλυτα από την ποιότητα των εισροών (input). Όσο λοιπόν συνεχίζουμε να ταΐζουμε τα μοντέλα με σκουπίδια, μεροληπτικά κείμενα και ελλιπή δεδομένα, τόσο θα παίρνουμε πίσω σκουπίδια. Μόνο που τώρα τα σκουπίδια του αποτελέσματος (output) είναι γραμμένα πολύ πειστικά και σε άπταιστα ελληνικά. Η τεχνητή νοημοσύνη δεν είναι αυτόνομη δύναμη. Είναι ένας πολλαπλασιαστής που πολλαπλασιάζει τη γνώση αν τα δεδομένα είναι σωστά ή τα λάθη αν τα δεδομένα είναι λανθασμένα.
Η επόμενη γενιά συστημάτων ΤΝ δεν θα ξεχωρίζει μόνο για την υπολογιστική της ισχύ, αλλά κυρίως για την ικανότητά της να επιλέγει και να αξιοποιεί ποιοτικά, δεδομένα. Η επένδυση σε υποδομές δεδομένων, η ανάπτυξη πρωτοκόλλων ποιότητας και η διαρκής ανθρώπινη εποπτεία αποτελούν το τρίπτυχο για την αξιόπιστη ανάπτυξη της Τεχνητής Νοημοσύνης.
Η μεγάλη πρόκληση της επόμενης πενταετίας δεν είναι ποιος θα επιλέξει το καλύτερο μοντέλο ΤΝ αλλά το ποιος θα εξασφαλίσει τα καλύτερα δεδομένα. Το πραγματικό δίλημμα που αντιμετωπίζουν σήμερα οι επιχειρήσεις δεν είναι το σε ποιο μοντέλο ΤΝ θα επενδύσουν αλλά το αν εμπιστεύονται τα δεδομένα τους για να την αξιοποιήσουν.