Cyborg
Cyborg #25 - 10/2022

#26 - 02/2023

“τεχνητή νοημοσύνη”: μεγάλα γλωσσικά μοντέλα στην εποχή των «πνευματικών» περιφράξεων

Cyborg #26

Μπορούν [1Όλες οι εικόνες που συνοδεύουν το κείμενο, εκτός από τα διαγράμματα των νευρωνικών δικτύων, έχουν παραχθεί από μας με τη βοήθεια του DALL-E 2, ενός μοντέλου τεχνητής νοημοσύνης που παράγει εικόνες με βάση μια περιγραφή που δίνει ο χρήστης υπό τη μορφή κειμένου.] να γράφουν από μόνα τους ποιήματα και διηγήματα, μπορούν να συνομιλούν με έναν άνθρωπο με εντυπωσιακή φυσικότητα, έχουν ιδιαίτερη έφεση στο να γράφουν φοιτητικές εργασίες για λογαριασμό όσων φοιτητών προτιμούνε (μάλλον δικαίως) να ξοδεύουν αλλιώς τον χρόνο τους, έχουν ταλέντο στον προγραμματισμό και το αποδεικνύουν με το να γράφουν malware· εσχάτως έχουν υπάρξει σκέψεις να χρησιμοποιηθούν κατά τη διάρκεια μιας δίκης για να παρέχουν σε πραγματικό χρόνο νομικές συμβουλές. Όχι, δεν πρόκειται για τίποτα παιδιά – θαύματα που μεγάλωσαν και εκπαιδεύτηκαν σε μυστικά, υπόγεια εργαστήρια και τώρα βγήκαν στον κόσμο. Όλα αυτά είναι μερικά από τα κατορθώματα του ChatGPT, του GPT-3 και του LaMDA, μερικών εκ των πιο γνωστών συστημάτων τεχνητής νοημοσύνης για επεξεργασία (και παραγωγή) φυσικής γλώσσας που πρόσφατα έγιναν δημόσια διαθέσιμα (τουλάχιστον τα δύο πρώτα, αν και απαιτείται εγγραφή), δίνοντας έτσι αφορμή για να ξεκινήσει άλλος ένας κύκλος συζητήσεων περί του αν είμαστε κοντά στη δημιουργία «σκεπτόμενων μηχανών».

Είναι σχεδόν βέβαιο ότι τα συγκεκριμένα συστήματα, που ανήκουν στην κατηγορία των λεγόμενων μεγάλων γλωσσικών μοντέλων (large language models), θα μπορούσαν να περάσουν με επιτυχία το περιβόητο τέστ του Turing, τουλάχιστον υπό την προϋπόθεση ότι ο διάλογος θα ήταν σχετικά σύντομος. Το ένα ζήτημα που προκύπτει εδώ αφορά στο κατά πόσον το τεστ του Turing είναι όντως κατάλληλο για να κρίνεται η όποια «νοημοσύνη» ενός συστήματος. Αυτή είναι η πιο «συμπεριφορική» πλευρά του θέματος· ασχολούμαστε με το πώς συμπεριφέρεται κάτι, ασχέτως του πώς φτάνει σε αυτήν τη συμπεριφορά. Ένα άλλο ζήτημα, ωστόσο, αφορά ακριβώς σε αυτό το «πώς», στην εσωτερική λειτουργία αυτών των γλωσσικών μοντέλων που τους επιτρέπει να διεξάγουν τόσο αληθοφανείς διαλόγους. Πέρα από την όποια αυταξία μπορεί να έχει μια τέτοια γνώση του «εσωτερικού κόσμου» αυτών των μοντέλων, σίγουρα βοηθάει και στην απομυθοποίησή τους. Το να προσφέρει κανείς ως εξήγηση φράσεις σαν «πρόκειται για μοντέλα που βασίζονται σε βαθιά νευρωνικά δίκτυα που χρησιμοποιούν μετασχηματιστές» μάλλον δεν χρησιμεύει ιδιαίτερα· αντιθέτως ίσως να εντείνει το αίσθημα το μυστηρίου. Για να γίνει καλύτερα κατανοητή η εσωτερική δομή τους, χρειάζεται να κάνει κανείς πρώτα λίγα βήματα πιο πίσω.

Έστω, λοιπόν, ότι καλούμαστε να λύσουμε το ακόλουθο μαθηματικό πρόβλημα (μην τρομάζετε όσοι δεν είστε ιδιαίτερα εξοικειωμένοι με τα μαθηματικά· μόνο προσθέσεις και πολλαπλασιασμοί απαιτούνται για την κατανόηση όσων ακολουθούν). Μας δίνεται η εξίσωση w1 χ a1 + w2 χ a2 = b, όπου a1, a2 και b είναι μεταβλητές, με τις a1 και a2 να παίρνουν μόνο δύο τιμές: είτε 0 είτε 1. Ο σκοπός είναι να βρούμε κατάλληλες τιμές για τις παραμέτρους w1 και w2 ώστε, όποτε όταν οι a1 και a2 παίρνουν και οι δύο την τιμή 1, η τιμή της b να υπερβαίνει κάποιο δεδομένο όριο, έστω το 10. Σε διαφορετική περίπτωση, αν κάποια από τις a1 ή a2 (ή και οι δύο) έχουν την τιμή 0, τότε θα πρέπει η τιμή της b να είναι κάτω από το 10. Για καλύτερη και εποπτικότερη κατανόηση, το πρόβλημα μπορεί να αποτυπωθεί υπό τη μορφή πίνακα ως εξής:

a1 a2 b
1 1 >10
1 0 <10
0 1 <10
0 0 <10

Με μερικές δοκιμές είναι εύκολο να βρεθεί μια λύση σε αυτό το πρόβλημα. Για παράδειγμα, θα μπορούσαμε να επιλέξουμε ως λύση την εξής: w1 = 5 και w2 = 6. Επομένως, η αρχική μας εξίσωση γίνεται 5 x a1 + 6 x a2 = b. Δοκιμάζοντας όλους τους συνδυασμούς για τις a1 και a2, είναι δυνατό να επιβεβαιώσουμε ότι αυτή είναι πράγματι μια λύση του προβλήματός μας. Αν, π.χ., θέσουμε a1 = 1 και a2 = 1, τότε λαμβάνουμε το αποτέλεσμα 5 x 1 + 6 x 1 = 5+6 = 11, όπως και θα έπρεπε. Αντιστοίχως, αν a1 = 1 και a2 = 0, τότε προκύπτει ότι b = 5 x 1 + 6 x 0 = 5. Για a1 = 0 και a2 = 1, προκύπτει ότι b = 6. Τέλος, για a1 = 0, a2 = 0, προκύπτει b = 0. Υπάρχουν φυσικά και άλλες λύσεις στο πρόβλημα (π.χ., w1=8 και w2=7), ωστόσο το σημαντικό είναι ότι καταφέραμε να βρούμε έστω μία.

Αν μπορέσατε να ακολουθήσετε την παραπάνω συλλογιστική και λύσατε το αρχικό πρόβλημα, τότε συγχαρητήρια! Μόλις χρησιμοποιήσατε ένα νευρωνικό δίκτυο για να προσομοιώσετε τον τελεστή ΚΑΙ (AND) της άλγεβρας Boole και μπορείτε να ισχυρίζεστε ότι φτιάξατε έναν μικρό εγκέφαλο με την ικανότητα λογικών συλλογισμών. Αν βέβαια επιχειρούσε κανείς να θέσει το πρόβλημα χρησιμοποιώντας τέτοιους βαρύγδουπους όρους, είναι λογικό ότι κανένας «αγεωμέτρητος» δεν θα ήταν σε θέση όχι μόνο να το επιλύσει αλλά και να καταλάβει περί τίνος πρόκειται. Ένα συνηθισμένο  τέχνασμα εξάλλου της σχετικής φιλολογίας γύρω από την τεχνητή νοημοσύνη που παράγεται με πληθωριστικούς ρυθμούς πλέον είναι ακριβώς η επιστράτευση μιας ακατανόητης γλώσσας, απρόσιτης στους αμύητους, η οποία συχνά προσάγεται σχεδόν ως τεκμήριο που αποδεικνύει τόσο τη σπουδαιότητα του προβλήματος («να φτιάξουμε ευφυείς μηχανές») όσο και των προτεινόμενων λύσεων («να τις κάνουμε να μοιάζουν με τον εγκέφαλο»). Στην πραγματικότητα βέβαια, αν και οι τεχνικές και  μαθηματικές λεπτομέρειες ενδέχεται όντως να είναι εξαιρετικά πολύπλοκες, οι βασικές ιδέες δεν χρειάζεται σε καμμία περίπτωση να περιβάλλονται με την ερεβώδη αχλή του μυστηριώδους (σε αντίθεση, π.χ., με την κβαντομηχανική και τη σχετικότητα οι οποίες είναι πράγματι δύσκολο να συλληφθούν όχι μόνο μαθηματικά αλλά ακόμα και εννοιολογικά).

Πώς ακριβώς λοιπόν μια εξίσωση του τύπου  w1 x a1 + w2 x a2 = b μπορεί να αντιστοιχεί σε ένα νευρωνικό δίκτυο που μάλιστα μπορεί να εκτελεί πράξεις λογικού συμπερασμού; Πρώτον, πρέπει να γίνει κατανοητό τι ακριβώς είναι η άλγεβρα Boole. Παρότι όχι τόσο γνωστός στο ευρύτερο κοινό όσο άλλοι σπουδαίοι μαθηματικοί, ο Boole (1815 - 1864) δικαιωματικά κατέχει μεταξύ των ειδικών μια ιδιαίτερη θέση μέσα στην ιστορία των μαθηματικών. Η θεωρία του δεν διακρίνεται ούτε για τη στρυφνότητά της ούτε για τη χρήση περίπλοκων και τρομακτικών μαθηματικών εργαλείων. Το επίτευγμά του κρίνεται σημαντικό κυρίως σε ένα εννοιολογικό επίπεδο. Αυτό που κατάφερε, λοιπόν, ο Boole ήταν να συλλάβει την ιδέα ότι η κλασσική, προτασιακή λογική (αυτή που ήταν γνωστή ήδη από τον Αριστοτέλη) μπορεί να λάβει μια αλγεβρική μορφή. Με άλλα λόγια, να διατυπωθεί υπό τη μορφή εξισώσεων οι οποίες επιδέχονται επίλυση με βάση κάποιους βασικούς κανόνες, σε μεγάλο βαθμό όπως και οι τυπικές εξισώσεις της κλασσικής άλγεβρας οι οποίες χειρίζονται πραγματικούς αριθμούς.

Η βασική διαφορά σε σχέση με την άλγεβρα Boole είναι ότι σε αυτήν την τελευταία οι μεταβλητές (a, b, κ.ο.κ.) παίρνουν μόνο δύο τιμές, είτε 1 είτε 0. Κατά κανόνα, το 1 αντιστοιχεί σε αυτό που στη λογική είναι η αληθοτιμή ΑΛΗΘΕΣ (TRUE), ενώ το 0 στο ΨΕΥΔΕΣ (FALSE). Έχοντας ως βάση αυτή τη σύμβαση, μπορούμε να χρησιμοποιήσουμε τα σύμβολα των πράξεων (π.χ., της πρόσθεσης και του πολλαπλασιασμού) για να διατυπώσουμε λογικές προτάσεις υπό τη μορφή εξισώσεων.

Για παράδειγμα, έστω ότι έχουμε τις προτάσεις p, q και r (όπου το p σημασιολογικά μπορεί να σημαίνει ότι «ο Σωκράτης είναι άνθρωπος» και κάτι παρόμοιο για τα q και r) και θέλουμε να πούμε ότι το r ισχύει (δηλαδή είναι αληθές) μόνο αν ισχύουν ταυτόχρονα και το p και το q. Μια τέτοια πρόταση μπορεί να γραφτεί στην άλγεβρα Boole ως p x q = r, όπου εδώ το σύμβολο του πολλαπλασιασμού χρησιμοποιείται για να υποδηλώσει τη λογική σύζευξη (ΚΑΙ, AND). Η λογική διάζευξη (το r ισχύει μόνο αν τουλάχιστον ένα από τα p και q ισχύει), από την άλλη, μπορεί να γραφτεί ως p + q = r, όπου εδώ δίνεται ένα νέο νόημα στο σύμβολο της πρόσθεσης. Αν επομένως, στην πρόταση p x q = r θέσουμε ως p = 1 και q = 1, τότε προκύπτει ότι r = 1. Σε κάθε άλλη περίπτωση, θα ισχύει ότι r = 0. Ξεκινώντας από τέτοιους βασικούς κανόνες, είναι δυνατό να κατασκευαστούν λογικές προτάσεις μεγάλης πολυπλοκότητας, με πολλαπλούς συνδυασμούς των διαφόρων τελεστών. Επειδή ακριβώς πέτυχε να τυποποιήσει τη λογική, η άλγεβρα Boole αποτέλεσε και το πρώτο μεγάλο βήμα προς τη μηχανοποίησή της· σήμερα όλα τα ψηφιακά κυκλώματα βασίζονται σε αυτήν.

Από τα παραπάνω, είναι μάλλον προφανές γιατί η εξίσωση w1 x a1 + w2 x a2 = b, με τα κατάλληλα βάρη w1 και w2, αντιστοιχεί σε μια εξίσωση Boole. Για την ακρίβεια, αντιστοιχεί στην πράξη της λογικής σύζευξης. Οποτεδήποτε οι μεταβλητές a1 και a2 παίρνουν και οι δύο την τιμή 1, η έξοδος (δηλαδή η μεταβλητή b) παίρνει μια τιμή μεγαλύτερη από ένα κατώφλι. Σε κάθε άλλη περίπτωση, η τιμή της είναι κάτω από αυτό το κατώφλι. Το 10 στην προκειμένη περίπτωση είναι εντελώς αυθαίρετο και θα μπορούσε να είχε αντικατασταθεί με οποιονδήποτε άλλο αριθμό. Το βασικό είναι η γενική συμπεριφορά της εξίσωσης: η υπέρβαση του κατωφλίου ερμηνεύεται ως 1 και κάθε άλλη έξοδος ως 0.

Cyborg #26

Το δεύτερο ζήτημα που χρειάζεται διευκρίνιση είναι το πώς η εξίσωση w1 x a1 + w2 x a2 = b μπορεί να αντιστοιχεί σε ένα νευρωνικό δίκτυο. Το πιο βασικό και απλό νευρωνικό δίκτυο είναι το λεγόμενο perceptron και αποτελείται από έναν μοναδικό κόμβο – νευρώνα. Αυτός δέχεται μια σειρά από εισόδους (a1, a2, κ.ο.κ) και καθεμία από αυτές τις εισόδους συνοδεύεται και από ένα βάρος (w1, w2, κ.ο.κ. αντίστοιχα). Αυτό που κάνει ο κόμβος είναι να πολλαπλασιάζει κάθε είσοδο με το αντίστοιχο βάρος της (w1 x a1, w2 x a2, κ.ο.κ.), μετά να προσθέτει όλα τα επιμέρους αποτελέσματα των πολλαπλασιασμών (w1 x a1 + w2 x a2 + …) για να παραγάγει μια πρώτη έξοδο b και στο τέλος να περνάει αυτήν την έξοδο από ένα κατώφλι, όπως έχουμε ήδη περιγράψει. Πειράζοντας τώρα τα διάφορα βάρη, μπορούμε να «σπρώξουμε» το perceptron προς μια επιθυμητή συμπεριφορά, π.χ., να προσομοιώνει τη λογική σύζευξη, τη λογική διάζευξη ή άλλες πράξεις λογικού (και μη) τύπου. Το πείραγμα των βαρών αυτών προς συγκεκριμένη κατεύθυνση είναι αυτό που στη σχετική φιλολογία αποκαλείται «εκπαίδευση» του δικτύου και φυσικά δεν εκτελείται χειροκίνητα (όπως απλουστευτικά παρουσιάσαμε παραπάνω), αλλά με κατάλληλους αλγορίθμους.

Cyborg #26

Ένα βασικό ερώτημα που ανακύπτει σε αυτό το σημείο έχει να κάνει με το γιατί μια τέτοια σειρά μαθηματικών πράξεων (πολλαπλασιασμοί, πρόσθεση, κατώφλι) να αποκαλείται «νευρώνας». Τι σχέση μπορεί να έχει με τους πραγματικούς νευρώνες του εγκεφάλου;
Ένα διαφορετικό όνομα για το perceptron είναι και νευρώνας τύπου McCulloch – Pitts από τους δύο επιστήμονες που τον πρότειναν ως ιδέα το 1943. Ο λόγος για τον οποίο η συγκεκριμένη μαθηματική δομή χαρακτηρίστηκε ως «νευρώνας» αφορά στην ομοιότητα που υποτίθεται ότι παρουσιάζει προς τους πραγματικούς, βιολογικούς νευρώνες. Οι πρώτες πειραματικές παρατηρήσεις για τη λειτουργική συμπεριφορά των βιολογικών νευρώνων είχαν δείξει ότι οι συνάψεις που επικολλώνται πάνω σε έναν νευρώνα μεταφέρουν ηλεκτρικούς παλμούς προς αυτόν από τους προηγούμενούς του. Ο νευρώνας που δέχεται αυτούς τους παλμούς φαίνεται σαν να αθροίζει τα εισερχόμενα σήματα και αν η συνολική τους ισχύ (η οποία εξαρτάται και από το πόσο ισχυρές είναι οι συνάψεις) ξεπεράσει ένα κατώφλι, τότε εκπυρσοκροτεί και αυτός με τη σειρά του. Με αυτόν τον τρόπο μεταφέρει κατά μήκος του νευράξονά του έναν νέο ηλεκτρικό παλμό προς τους επόμενους νευρώνες, η ισχύς του οποίου όμως παραμένει πάντα σταθερή (κάποια δεκάδες mV), ανεξαρτήτως του πόσα και πόσο ισχυρά σήματα δέχτηκε ως ερεθίσματα. Συγκρίνοντας επομένως έναν βιολογικό νευρώνα με το perceptron, κάποιες ομοιότητες είναι προφανείς. Οι μεταβλητές a αντιστοιχούν στα ερεθίσματα – παλμούς που δέχεται ένας βιολογικός νευρώνας, τα βάρη w αντιστοιχούν στις συνάψεις και η τελική πράξη του κατωφλίου αντιστοιχεί στον «κόφτη» που επιβάλλει ένας νευρώνας στο ύψος του παλμού που παράγει αν τελικά εκπυρσοκροτήσει.Το perceptron ήταν μια πρώτη, πρωτόλεια απόπειρα να μοντελοποιηθούν οι πραγματικοί νευρώνες.

[...]

...η συνέχεια στο έντυπο τεύχος του Cyborg.
[ σημεία διακίνησης ]

Separatrix

κορυφή