Τεχνολογικές λύσεις για την αντιμετώπιση του περιεχομένου παιδικής σεξουαλικής κακοποίησης (CSEA)

Ένα πεδίο στο οποίο έχει δοθεί ιδιαίτερη έμφαση είναι οι τεχνολογικές λύσεις για τον εντοπισμό και την αφαίρεση από διαδικτυακές πλατφόρμες, περιεχομένου εκμετάλλευσης και σεξουαλικής κακοποίησης παιδιών (CSEA). Η χρήση της τεχνολογίας στα συστήματα εντοπισμού και αφαίρεσης τέτοιου περιεχομένου προσφέρει μεγάλα οφέλη λόγω της ικανότητάς της να λειτουργεί αποτελεσματικά σε μεγάλη κλίμακα, διευκολύνοντας το έργο των αναλυτών που πρέπει να ελέγχουν και να αξιολογούν ακραίο και επιβλαβές περιεχόμενο. Παρόλο που η αποτελεσματικότητα και η ακρίβεια των τεχνολογικών λύσεων βελτιώνονται διαρκώς, υπάρχουν ανησυχίες για τη δυνατότητα τους να ανιχνεύουν με αξιοπιστία νέο, μη εντοπισμένο υλικό παιδικής σεξουαλικής κακοποίησης. To έργο των αναλυτών παραμένει ουσιώδες μέρος της διαδικασίας αξιολόγησης του περιεχομένου, ιδίως όσον αφορά στη λήψη αποφάσεων για την αφαίρεση περιεχομένου και στην παραπομπή του στις αρμόδιες αρχές επιβολής του νόμου.

Οι τεχνολογίες για τον εντοπισμό υλικού κακοποίησης παιδιών με βάση το ψηφιακό αποτύπωμα και την τεχνολογία hashing αποτελούν από τις πλέον καθιερωμένες και ευρέως χρησιμοποιούμενες μορφές αυτοματοποιημένου ελέγχου παράνομου περιεχομένου. Οι τεχνολογίες hashing χρησιμοποιούνται για τον εντοπισμό, την αφαίρεση, και την αποτροπή επαναφόρτωσης γνωστών εικόνων και βίντεο με υλικό παιδικής σεξουαλικής κακοποίησης. Το PhotoDNA, η πιο ευρέως διαδεδομένη τέτοια τεχνολογία, αναπτύχθηκε από τη Microsoft σε συνεργασία με το Dartmouth College το 2009. Το PhotoDNA δημιουργεί μια μοναδική ψηφιακή υπογραφή (γνωστή ως “hash”) μίας εικόνας, η οποία στη συνέχεια συγκρίνεται με τα hashes άλλων εικόνων για τον εντοπισμό αντιγράφων της αρχικής εικόνας. Όταν γίνεται σύγκριση με κάποια βάση δεδομένων που περιέχει hashes ήδη αναγνωρισμένων παράνομων εικόνων, το PhotoDNA μπορεί να βοηθήσει στον εντοπισμό και την αποτροπή της περαιτέρω διανομής γνωστού υλικού παιδικής σεξουαλικής κακοποίησης. Η μεγαλύτερη βάση δεδομένων hashes διατηρείται από το NCMEC και περιλαμβάνει περίπου 1,5 εκατομμύριο μοναδικά hashes τα οποία αντιστοιχούν σε ήδη αναγνωρισμένο περιεχόμενο παιδικής σεξουαλικής κακοποίησης. Ένα hash του PhotoDNA δεν είναι αναστρέψιμο και δεν μπορεί να χρησιμοποιηθεί για την ανακατασκευή της εικόνας από την οποία παράχθηκε. Το PhotoDNA είναι διαθέσιμο δωρεάν από τη Microsoft τόσο στην πλατφόρμα Azure όσο και μέσω του NCMEC και χρησιμοποιείται από περισσότερους από 150 οργανισμούς παγκοσμίως. Το PhotoDNA χρησιμοποιείται τουλάχιστον τα τελευταία 10 χρόνια και είναι γνωστό ότι έχει υψηλό βαθμό ακρίβειας στον εντοπισμό και την αφαίρεση εκατομμυρίων εικόνων παιδικής εκμετάλλευσης.

Μια παρόμοια προσέγγιση που ονομάζεται CSAI (Child Sexual Abuse Imagery) Match έχει αναπτυχθεί από το YouTube για την αντιστοίχιση κωδικών hash σε βίντεο ζωντανής μετάδοσης. Το CSAI Match χρησιμοποιείται επίσης για αντιστοίχιση hash ή ψηφιακό αποτύπωμα βίντεο που διακινούνται στο διαδίκτυο. Το εργαλείο μπορεί να εντοπίσει ποιο τμήμα ενός βίντεο ταυτίζεται με γνωστό CSAI, δίνοντας προτεραιότητα στην περαιτέρω επεξεργασία του από κάποιο αναλυτή παράνομου περιεχομένου και παρέχοντας τυποποιημένη κατηγοριοποίηση του είδους του περιεχομένου στο οποίο αντιστοιχεί.

Ένα άλλο παράδειγμα ευρείας χρήσης της τεχνολογίας αντιστοίχισης hash για τον εντοπισμό υλικού παιδικής σεξουαλικής κακοποίησης (CSEA) είναι το Project Arachnid, του Καναδικού Κέντρου για την Προστασία των Παιδιών (C3P). Το Project Arachnid είναι ένας αυτοματοποιημένος web crawler που ανιχνεύει και επεξεργάζεται δεκάδες χιλιάδες εικόνες από το διαδίκτυο ανά δευτερόλεπτο και στέλνει ειδοποιήσεις για την αφαίρεση παράνομου περιεχομένου σε παρόχους υπηρεσιών διαδικτύου προκειμένου να αφαιρεθεί άμεσα. Το πρόγραμμα χρησιμοποιεί την τεχνολογία hashing για την αντιστοίχιση μιας συγκεκριμένης εικόνας ή βίντεο σε σύγκριση με μια βάση δεδομένων γνωστού περιεχομένου παιδικής σεξουαλικής κακοποίησης. Η τεχνολογία hashing μπορεί να εντοπίσει είτε ίδιες ακριβώς εικόνες, είτε κοντινές εικόνες όπως για παράδειγμα μια αλλαγή στο μέγεθος ή μια μικρή αλλοίωση ή μετατροπή της εικόνας. Οι κοντινές εικόνες αντιστοιχίζονται με την χρήση της τεχνολογίας “perceptual hashing” ή του λογισμικού Microsoft PhotoDNA. Το Project Arachnid παρέχει επίσης μια εφαρμογή για εταιρείες προκειμένου να βοηθήσει τους διαχειριστές περιεχομένου ή τους παρόχους υπηρεσιών διαδικτύου να συγκρίνουν προληπτικά το εισερχόμενο ή το υπάρχον πολυμεσικό περιεχόμενο που φιλοξενείται στους διακομιστές τους με τη λίστα των hashes της βάσης δεδομένων του Project Arachnid.

Ο εντοπισμός άγνωστου υλικού εκμετάλλευσης παιδιών ή ύποπτης συμπεριφοράς στο διαδίκτυο αντιμετωπίζει ακόμα μεγαλύτερες τεχνολογικές προκλήσεις. Η χρήση της τεχνητής νοημοσύνης και της μηχανικής μάθησης συνεχίζει να εξελίσσεται σε αυτόν τον τομέα και συνήθως χρησιμοποιεί classifier algorithms και τεχνικές αναγνώρισης προτύπων (pattern recognition) για τον εντοπισμό παράνομου περιεχομένου. Από τη φύση τους, αυτές οι τεχνολογίες δεν είναι τόσο ακριβείς και χρειάζεται εκπαίδευση σε μεγάλα σύνολα δεδομένων για να βελτιωθεί η αποτελεσματικότητά τους. Το εργαλείο Safer της Thorn, το Content Safety API της Google και η τεχνολογία AI της Meta είναι παραδείγματα τεχνολογιών που χρησιμοποιούν classifiers και τεχνολογία AI για τον εντοπισμό προηγουμένως άγνωστου περιεχομένου CSEA. Όταν χρησιμοποιούνται σε συνδυασμό με εργαλεία που εντοπίζουν γνωστό και προηγουμένως εντοπισμένο (hashed) περιεχόμενο CSEA, μπορεί να βελτιωθεί η αποτελεσματικότητά τους. Για παράδειγμα, το εργαλείο Safer της Thorn προσφέρεται στις πλατφόρμες περιεχομένου στο διαδίκτυο ως μια ολοκληρωμένη λύση που περιλαμβάνει τεχνολογία αντιστοίχισης hash η οποία μπορεί να επεκταθεί με τη χρήση ενός classifier μηχανικής μάθησης για τον εντοπισμό νέου υλικού CSEA. Αυτή η προσέγγιση εφαρμόζεται επίσης στον εντοπισμό περιστατικών προσέγγισης παιδιών από ενήλικες για σεξουαλικούς σκοπούς (sextortion). Εδώ, οι τεχνολογίες τεχνητής νοημοσύνης αναπτύσσονται με παρόμοιο τρόπο για να βοηθήσουν και να ενισχύσουν την δουλειά των αναλυτών π.χ. για τον εντοπισμό ύποπτων μοτίβων στην επικοινωνία που βασίζεται σε γραπτές και προφορικές διαδικτυακές συνομιλίες.

Ένα σημαντικό πρόβλημα που αντιμετωπίζουν τα συστήματα ελέγχου και εντοπισμού περιεχομένου (καθώς και οι αναλυτές) είναι η αυξανόμενη χρήση της κρυπτογράφησης (end-to-end encryption) στις διαδικτυακές υπηρεσίες, γεγονός το οποίο καθιστά τις υπάρχουσες τεχνικές ελέγχου και εντοπισμού παράνομου περιεχομένου δύσκολο ή και αδύνατο να εφαρμοστούν. Η κρυπτογράφηση end-to-end είναι πλέον ευρέως διαδεδομένη σε μια σειρά υπηρεσιών, συμπεριλαμβανομένης της ζωντανής μετάδοσης βίντεο, των απλών μηνυμάτων αλλά και της αποθήκευσης αρχείων στο διαδίκτυο. Αν και η κρυπτογράφηση προσφέρει ασφάλεια για τα προσωπικά δεδομένα και τις διαδικτυακές συναλλαγές, οι δράστες παραγωγής και διακίνησης παράνομου υλικού μπορούν να τη χρησιμοποιήσουν για να αποκρύψουν την ταυτότητα και τη δράση τους. Η κρυπτογράφηση χρησιμοποιείται για την προστασία των δεδομένων που είναι αποθηκευμένα σε διάφορες συσκευές, σε υπηρεσίες ψηφιακής αποθήκευσης καθώς και για δεδομένα που μεταφέρονται από τη μια συσκευή στην άλλη. Κάποιοι υποστηρίζουν ότι η τεχνολογία hashing (όπως το PhotoDNA), τα εργαλεία τεχνητής νοημοσύνης και άλλες τεχνικές ελέγχου περιεχομένου μπορούν να λειτουργήσουν σε κρυπτογραφημένα περιβάλλοντα, εάν εφαρμοστούν στην πλευρά του χρήστη και όχι στην πλευρά του διακομιστή. Ωστόσο, άλλοι ισχυρίζονται ότι “τα εργαλεία που χρησιμοποιούνται αυτή τη στιγμή από τη βιομηχανία του ίντερνετ για την αξιόπιστη ανίχνευση περιεχομένου σεξουαλικής κακοποίησης παιδιών δε μπορούν να λειτουργήσουν όταν γίνεται χρήση κρυπτογράφησης”.

Σύμφωνα με την Europol, η αυξανόμενη χρήση ισχυρής κρυπτογράφησης από δημοφιλείς πλατφόρμες αποτελεί σοβαρή και διαρκή πρόκληση για τις αρχές επιβολής του νόμου. Η ανακοίνωση της Meta το 2021 σχετικά με την πρόθεσή της να ενσωματώσει κρυπτογράφηση end-to-end σε όλες τις πλατφόρμες της για την ανταλλαγή μηνυμάτων προκάλεσε μεγάλη ανησυχία σε οργανώσεις προστασίας παιδιών σε όλο τον κόσμο, καθώς το 95% όλων των αναφορών στο NCMEC το 2021 προήλθαν από το Facebook. Με την ενσωμάτωση της κρυπτογράφησης σε όλες τις υπηρεσίες επικοινωνίας της Meta, η πλειονότητα των δραστηριοτήτων ανίχνευσης τέτοιου περιεχομένου δε θα ήταν πλέον δυνατή. Για παράδειγμα, η ανίχνευση περιεχομένου CSEA στο WhatsApp, που χρησιμοποιεί κρυπτογράφηση, βασίζεται κατά κύριο λόγο σε αναφορές χρηστών, τον εντοπισμό μη κρυπτογραφημένων μεταδεδομένων – όπως ονόματα προφίλ και πληροφορίες λογαριασμού – καθώς και σε ανάλυση συμπεριφοράς. Ως αποτέλεσμα, ο αριθμός των αναφορών που υπέβαλε το WhatsApp στο NCMEC το 2022 ήταν λίγο πάνω από 1 εκατομμύριο. Αυτό συγκρίνεται με τις 21 εκατομμύρια αναφορές που υπέβαλε το Facebook, συμπεριλαμβανομένου του Facebook Messenger, το οποίο αυτή τη στιγμή δεν χρησιμοποιεί κρυπτογράφηση από προεπιλογή.

Πηγή: Transparency Reporting on Child Sexual Exploitation and Abuse Online, OECD