Ο κόσμος της βιντεοκάμερας ψυχαγωγίας της Κίνας έχει αποφέρει ένα πλήθος δεδομένων για εταιρείες — και τώρα ενισχύουν τα εργαλεία τεχνητής νοημοσύνης που κερδίζουν χρήματα για τη δημιουργία διαφημίσεων και κλιπ ταινιών. Η μητρική του TikTok, ByteDance, κατέχει την πρώτη και την τρίτη θέση στα κορυφαία μοντέλα τεχνητής νοημοσύνης της εταιρείας έρευνας Artificial Analysis που δημιουργούν κείμενο σε βίντεο, τα οποία κυκλοφόρησαν τους τελευταίους δύο μήνες.
Η Google κατέχει τη δεύτερη και την τέταρτη θέση, ενώ η εφαρμογή μικρού μήκους βίντεο Kuaishou’s με έδρα το Πεκίνο, σύμφωνα με το CNBC. Το Kling AI κατατάσσεται στην πέμπτη θέση.
Παρά την ενοποίηση σε άλλα μέρη του κλάδου της τεχνητής νοημοσύνης, «ο ανταγωνισμός στα μοντέλα δημιουργίας βίντεο με τεχνητή νοημοσύνη βρίσκεται σε πρώιμο στάδιο και ορισμένες κινεζικές εταιρείες έχουν αναδειχθεί πρώτοι ηγέτες σε αυτόν τον χώρο», δήλωσε ο Wei Xiong, αναλυτής διαδικτύου στην Κίνα στην UBS Securities.
«Πιστεύουμε ότι η δημιουργία βίντεο με τεχνητή νοημοσύνη έχει τη δυνατότητα να αναδιαμορφώσει τη βιομηχανία περιεχομένου», είπε, «ενισχύοντας την αποδοτικότητα της παραγωγής, μειώνοντας τα εμπόδια στη δημιουργία και ξεκλειδώνοντας νέα μοντέλα δημιουργίας εσόδων».
Με τέτοια εργαλεία τεχνητής νοημοσύνης, οι χρήστες μπορούν να ανεβάσουν μία εικόνα ή πολλές και να κατευθύνουν το AI για να δημιουργήσουν ένα βίντεο κλιπ με βάση αυτά. Άλλα εργαλεία επιτρέπουν στους χρήστες να εισάγουν κείμενο, από το οποίο το AI θα δημιουργήσει το βίντεο κλιπ.
Περισσότερες από 20.000 επιχειρήσεις, από διαφημιστές μέχρι κινηματογραφιστές ταινιών χρησιμοποιούν ήδη το Kling AI για τη δημιουργία βίντεο, ισχυρίστηκε η εταιρεία με έδρα το Πεκίνο αυτή την εβδομάδα κατά τη διάρκεια του Παγκόσμιου Συνεδρίου AI στη Σαγκάη. Η τελευταία έκδοση, Kling 2.1, μπορεί να προσθέσει αυτόματα σχετικά ηχητικά εφέ για να ταιριάζει με το βίντεο που δημιουργείται από την τεχνητή νοημοσύνη. Δεν είναι μόνο για χρήστες στην Κίνα.
«Είτε πρόκειται για κλίμακα χρηστών είτε για εμπορικά έσοδα, το εξωτερικό αντιπροσωπεύει την πλειοψηφία», δήλωσε στο CNBC ο Zeng Yushen, επικεφαλής των λειτουργιών της Kling AI, στα Mandarin. Είπε ότι η εταιρεία σχεδιάζει να ενισχύσει την υποστήριξή της για το εργαλείο σε μέρη όπως η Ιαπωνία, η Νότια Κορέα και η Ευρώπη.
«Αυτό είναι κάτι που έχουμε παρατηρήσει, τα μεγάλα μοντέλα τεχνητής νοημοσύνης παγκοσμιοποιούνται ολοένα και περισσότερο», είπε. «Οι άνθρωποι δεν φαίνεται να ενδιαφέρονται για το προϊόν ποιας χώρας είναι».
Ο Kuaishou ισχυρίστηκε ότι το Kling AI είχε έσοδα πάνω από 150 εκατομμύρια γουάν (20,83 εκατομμύρια δολάρια) τους πρώτους τρεις μήνες του έτους και ότι η ημερήσια διαφημιστική δαπάνη σε εργαλεία παραγωγής τεχνητής νοημοσύνης ήταν 30 εκατομμύρια γουάν εκείνη την περίοδο. Η εταιρεία δεν έχει ακόμη ανακοινώσει πότε θα ανακοινώσει τα αποτελέσματα του δεύτερου τριμήνου. Ο Zeng αρνήθηκε να μοιραστεί το κόστος εκπαίδευσης μοντέλων του Kling AI.
Ενώ το μειωμένο κόστος παραγωγής συνεπάγεται μια «μεγάλη» αγορά, είπε ο Xiong της UBS, «οι δυνατότητες του τρέχοντος μοντέλου παραμένουν περιορισμένες από το μήκος του κλιπ, τη συνέπεια κίνησης και τον έλεγχο».
Οι κινεζικές εταιρείες τεχνητής νοημοσύνης βίντεο αντιμετωπίζουν επίσης ανταγωνισμό από τις ΗΠΑ, πέρα από τους περιορισμούς της κυβέρνησης Τραμπ στην πρόσβαση της Κίνας σε προηγμένους ημιαγωγούς που απαιτούνται για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης.
Amazon και η Google έχουν κυκλοφορήσει εργαλεία για τη δημιουργία βίντεο από εικόνες ή κείμενο. Οι εκδόσεις έρχονται ως Microsoft. Το υποστηριζόμενο OpenAI παρουσίασε το μοντέλο παραγωγής βίντεο Sora στους συνδρομητές του ChatGPT τον Δεκέμβριο — σχεδόν ένα χρόνο αφότου είχε αποκαλύψει τις δυνατότητές του τον Φεβρουάριο του 2024.
Ωστόσο, το Kling AI είχε ήδη κυκλοφορήσει στο κοινό τον Ιούνιο του 2024. Οι χρήστες εγγράφονται και αγοράζουν πιστώσεις για να δημιουργήσουν βίντεο.
Το Vidu, ένα ανταγωνιστικό εργαλείο από την startup Shengshu με έδρα το Πεκίνο, κυκλοφόρησε σε παγκόσμιους χρήστες πριν από περίπου 12 μήνες και περίπου τον Μάρτιο του τρέχοντος έτους δήλωσε ότι αναμένει ετήσια έσοδα 20 εκατομμυρίων δολαρίων με βάση τις χρεώσεις συνδρομής χρηστών.
«Οι κινεζικές εταιρείες τείνουν να προσπαθούν πρώτα να προσδιορίσουν ένα εμπορικό «σημείο πόνου»…, περιοχές όπου οι εταιρείες θα πληρώσουν για υπηρεσίες, κάτι που ήταν μια πρόκληση για τις εφαρμογές τεχνητής νοημοσύνης», δήλωσε ο Paul Triolo, συνεργάτης και ανώτερος αντιπρόεδρος για την Κίνα στη συμβουλευτική εταιρεία DGA-Albright Stonebridge Group.
Επεσήμανε τον τρόπο με τον οποίο η κινεζική startup 3DStyle χρησιμοποιεί γενετική τεχνητή νοημοσύνη για να σχεδιάσει νέα στυλ ρούχων και να τα ενσωματώσει με την αυτοματοποιημένη κατασκευή συνδεδεμένη στο διαδίκτυο.
Οι αμερικανικές εταιρείες έχουν επίσης εφαρμόσει τεχνητή νοημοσύνη σε συγκεκριμένες βιομηχανίες, είπε ο Triolo, αλλά οι κινεζικές επιχειρήσεις είναι συχνά σε θέση να ενσωματώσουν την τεχνητή νοημοσύνη πιο γρήγορα επειδή αντιμετωπίζουν ένα πολύ ανταγωνιστικό περιβάλλον και μπορούν να προσλάβουν από μια «πολύ καταρτισμένη» τοπική βάση μηχανικών λογισμικού.
«AI ως κινηματογραφιστής»
Ο κινεζικός γίγαντας ηλεκτρονικού εμπορίου Alibaba παρέμεινε επίσης στην κορυφή της τάσης, κυκλοφόρησε την τελευταία έκδοση του μοντέλου AI γενιάς βίντεο που ονομάζεται Wan2.2. Η εταιρεία ισχυρίστηκε ότι με το μοντέλο ανοιχτού κώδικα, οι χρήστες μπορούν να ελέγχουν τον φωτισμό, την ώρα της ημέρας, τον χρωματικό τόνο, τη γωνία κάμερας, το μέγεθος του καρέ, τη σύνθεση και την εστιακή απόσταση.
Ο ανοιχτός κώδικας επιτρέπει στους χρήστες να κατεβάσουν ένα μοντέλο δωρεάν και να προσαρμόσουν, αν όχι να εμπορευματοποιήσουν, προϊόντα με αυτό. Η Alibaba ισχυρίστηκε ότι από την ανοιχτή πηγή της σειράς μοντέλων “Wan” τον Φεβρουάριο, τα μοντέλα έχουν ληφθεί περισσότερες από 5,4 εκατομμύρια φορές από την πλατφόρμα Hugging Face και μια παρόμοια στην Κίνα που ονομάζεται ModelScope.
«Η εποχή της τεχνητής νοημοσύνης στον κινηματογράφο έχει τελειώσει. Έχουμε μπει στην εποχή της τεχνητής νοημοσύνης ως σκηνοθέτης», δήλωσε ο Winston Ma, επίκουρος καθηγητής στη Νομική Σχολή του NYU. Τόνισε ότι ο πληθυσμός 1,4 δισεκατομμυρίων της Κίνας έχει δώσει στις τοπικές εταιρείες «τεράστιες» ποσότητες δεδομένων παρακολούθησης βίντεο για να συνεργαστούν.
«Ακριβώς όπως το TikTok καταιγίδα στις παγκόσμιες αγορές με σύντομα βίντεο στην εποχή του κινητού Διαδικτύου, οι κινεζικές εταιρείες τεχνητής νοημοσύνης θα μπορούσαν κάλλιστα να ηγηθούν της επανάστασης του Generative AI στην οπτική ψηφιακή ψυχαγωγία», δήλωσε ο Ma, συγγραφέας του βιβλίου «The Digital War: How China’s Tech Power Shapes the Future of AI, Blockchain and Cyberspace».
Avatars και gaming
Οι κινεζικές εταιρείες κατασκευάζουν επίσης εργαλεία τεχνητής νοημοσύνης για περισσότερα από τη δημιουργία βίντεο.
Την περασμένη εβδομάδα, το Baidu ανακοίνωσε ότι η νεότερη ψηφιακή ανθρώπινη τεχνολογία της με τεχνητή νοημοσύνη – η οποία τροφοδότησε πωλήσεις 7,65 εκατομμυρίων δολαρίων κατά τη διάρκεια μιας διαδραστικής συνεδρίας ζωντανής ροής άνω των έξι ωρών τον Ιούνιο – θα κυκλοφορήσει για ευρύτερη χρήση στη βιομηχανία τον Οκτώβριο.
Σε τρισδιάστατη απεικόνιση, Tencent κυκλοφόρησε το μοντέλο Hunyuan World για τη δημιουργία ψηφιακών πανοραμικών εικόνων σκηνών, που δημιουργούνται από κείμενο και οπτικά μηνύματα. Τα γραφικά χρησιμοποιούν μια μορφή αρχείου “mesh” την οποία οι προγραμματιστές παίκτες μπορούν στη συνέχεια να χρησιμοποιήσουν για να επεξεργαστούν συγκεκριμένα μέρη της εικόνας.
«Πέρα από την υποστήριξη των εσωτερικών ομάδων ανάπτυξης [της Tencent], η πλατφόρμα καταδεικνύει τη φιλοδοξία της Tencent να τυποποιήσει τη δημιουργία παιχνιδιών υψηλής πιστότητας και να επεκτείνει την επιρροή της στο τοπίο ανάπτυξης παιχνιδιών της Κίνας», δήλωσε ο Daniel Ahmad, διευθυντής έρευνας και πληροφοριών στη Niko Partners.