Τετάρτη 7 Οκτωβρίου 2020

Μηχανική όραση και κατανόηση βαθύτερων εννοιών και διασυνδέσεων μεταξύ όρων

Έχουμε δει και σε παλαιότερες αναρτήσεις μας περί μηχανικής όρασης, δηλαδή της ικανότητας μιας μηχανής (ενός προγράμματος, αλγορίθμου ή τεχνητού νευρωνικού δικτύου, όπως θα το συναντήσετε), να αναγνωρίζει τι υπάρχει σε μια εικόνα (χωρίς να έχει αντίληψη του τι βλέπει).

 
Ωστόσο, ερευνητές στην IBM, το MIT και το Παν/μιο Columbia, προχώρησαν ένα βήμα παραπέρα. Δημιούργησαν ένα πρόγραμμα που μπορεί να ξεχωρίζει (σε πραγματικό χρόνο) τις ευρύτερες και πιο αφηρημένες έννοιες που συνδέουν κάποιες πράξεις. Π.χ. τα νοήματα, ο γραπτός και ο προφορικός λόγος, εμπεριέχουν την ευρύτερη ή «ανώτερη» έννοια της επικοινωνίας. Το χτύπημα, το σφυροκόπημα ή το πριόνισμα, εμπεριέχουν την έννοια της κατασκευής, κ.λπ. Αυτό που για εμάς είναι προφανές όμως, για μια μηχανή είναι αρκετά δύσκολο. Αυτό ακριβώς επιτυγχάνει το εξελιγμένο μοντέλο μηχανικής όρασης που κατασκεύασαν οι παραπάνω ερευνητές.
 
Για να το ελέγξουν αυτό, τροφοδότησαν το πρόγραμμα με διάφορες τριάδες εικόνων και ζήτησαν από αυτό, αφού αναγνωρίσει τις πράξεις που απεικονίζονται, να βρει ποια από αυτές δεν ταιριάζει στην εκάστοτε τριάδα. Για παράδειγμα (βλέπε εικόνα), στην 1η τριάδα, αριστερά, απεικονίζονται «χτύπημα», «δίπλωμα ρούχων» και «σφυροκόπημα». Η 1η και η 3η πράξη συνδέονται μεταξύ τους, οπότε η 2η δεν ταιριάζει με αυτές. Το εντυπωσιακό είναι πως σε αυτήν την επιλογή εικόνων, η μηχανή τα πήγε εξίσου καλά ή κάποιες φορές και καλύτερα από τους ανθρώπους.
 
Το συγκεκριμένο πρόγραμμα χρειάζεται ακόμη κάποιες βελτιώσεις, καθώς σε ορισμένες περιπτώσεις τείνει να υπερτονίζει κάποιες λεπτομέρειες. Π.χ. σε ένα βίντεο όπου απεικονίζεται ένα βρέφος να παίζει με μια μπάλα στην αυλή του σπιτιού του, ταξινομήθηκε ως βίντεο αθλητικών. Ωστόσο είναι ένα ακόμη βήμα προς τη Γενική Τεχνητή Νοημοσύνη με επόμενο στάδιο το να μπορεί το πρόγραμμα να «σκέφτεται» πιο αφαιρετικά, ώστε να καταλήγει σε σωστά συμπεράσματα με λιγότερα δεδομένα.
 
 
Φωτογραφία: Allen Lee (ένας εκ των ερευνητών της παραπάνω έρευνας). Στη φωτογραφία αυτή βλέπουμε ένα παράδειγμα από τις τριάδες εικόνων με τις οποίες τροφοδοτήθηκε το πρόγραμμα, την αναγνώριση των πράξεων που συμβαίνουν σε αυτές και την απόρριψη αυτής που δεν ταίριαζε σε κάθε περίπτωση, με βάση το βαθύτερο νόημα/έννοια που συνδέει τις άλλες δυο.
 

 

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου