Πώς βλέπει και αναγνωρίζει εικόνες η τεχνητή νοημοσύνη;

Η τεχνητή νοημοσύνη δεν «βλέπει» εικόνες όπως εμείς, αλλά τις μετατρέπει σε τεράστιους πίνακες αριθμών.

Ενώ ο άνθρωπος αναγνωρίζει σχήματα και αντικείμενα, η AI βλέπει ένα πλέγμα από πίξελ. Κάθε πίξελ έχει μια αριθμητική τιμή που αντιστοιχεί στο χρώμα και τη φωτεινότητά του. Χρησιμοποιώντας μαθηματικά φίλτρα, το σύστημα εντοπίζει στατιστικά μοτίβα σε αυτούς τους αριθμούς για να «καταλάβει» αν μια εικόνα περιέχει μια γάτα, ένα πρόσωπο ή ένα τοπίο.

Nerd Mode

Η διαδικασία αυτή βασίζεται στα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks ή CNN), μια τεχνολογία που εμπνεύστηκε από τον οπτικό φλοιό των θηλαστικών. Η σημαντικότερη εξέλιξη στον τομέα σημειώθηκε το 2012 με το δίκτυο AlexNet, το οποίο κέρδισε τον διαγωνισμό ImageNet μειώνοντας δραστικά το ποσοστό σφάλματος στην αναγνώριση εικόνων. Κάθε ψηφιακή εικόνα αποτελείται από τρία κανάλια χρωμάτων: Κόκκινο, Πράσινο και Μπλε (RGB). Για μια εικόνα ανάλυσης 1024x1024 πίξελ, η AI πρέπει να επεξεργαστεί πάνω από 3 εκατομμύρια αριθμητικές τιμές ταυτόχρονα. Τα πρώτα επίπεδα του δικτύου αναζητούν απλές γραμμές και γωνίες, ενώ τα βαθύτερα επίπεδα συνδυάζουν αυτές τις πληροφορίες για να αναγνωρίσουν σύνθετα σχήματα όπως μάτια ή τροχούς αυτοκινήτων. Η εκπαίδευση αυτών των μοντέλων απαιτεί τεράστια σύνολα δεδομένων, όπως το ImageNet που περιέχει πάνω από 14 εκατομμύρια χειροκίνητα ταξινομημένες εικόνες. Μέσω μιας διαδικασίας που ονομάζεται οπισθοδιάδοση (backpropagation), η AI προσαρμόζει τα εσωτερικά της βάρη ώστε να ελαχιστοποιεί τα λάθη στις προβλέψεις της. Σήμερα, αυτή η τεχνολογία χρησιμοποιείται παντού, από το ξεκλείδωμα των iPhone με FaceID μέχρι τη διάγνωση καρκίνου μέσω ιατρικών απεικονίσεων με ακρίβεια που συχνά ξεπερνά την ανθρώπινη.

Επαληθευμένο γεγονός FP-0005620 · Feb 20, 2026

- Τεχνολογία -

υπολογιστική όραση πίξελ νευρωνικά δίκτυα