Η θεαματική ανάδυση των «μεγάλων δεδομένων» | Foreign Affairs - Hellenic Edition
Secure Connection

Η θεαματική ανάδυση των «μεγάλων δεδομένων»

Πώς τα big data αλλάζουν τον τρόπο που σκεφτόμαστε τον κόσμο

Αυτές οι δύο αλλαγές σχετικά με το πώς αντιλαμβανόμαστε τα δεδομένα –από τα λίγα στα πολλά και από τα οργανωμένα στα ακατάστατα- φέρνει στο προσκήνιο μια νέα αλλαγή: από την αιτιότητα στη συσχέτιση. Αυτή αντιστοιχεί στην εγκατάλειψη της προσπάθειας που έχει να κάνει με την κατανόηση των βαθύτερων λόγων για το πώς λειτουργεί ο κόσμος, προσπαθώντας τώρα απλώς να μάθουμε πώς συσχετίζονται τα φαινόμενα μεταξύ τους, και να χρησιμοποιήσουμε τη γνώση αυτή για να είμαστε αποτελεσματικοί.

Βεβαίως, είναι επιθυμητό να γνωρίζουμε τις αιτίες πίσω από τα πράγματα. Το πρόβλημα έγκειται στο ότι είναι συχνά υπερβολικά δύσκολο να κατανοήσεις τις αιτίες, και πολλές φορές, όταν νομίζουμε ότι τις έχουμε προσδιορίσει, δεν είναι παρά μια ψευδαίσθηση αυτο-επιβεβαίωσης. Η μελέτη των οικονομικών συμπεριφορών έχει δείξει ότι οι άνθρωποι είναι έτοιμοι να δουν αιτιότητες ακόμη κι εκεί που δεν υπάρχει καμία. Άρα, πρέπει να είμαστε ιδιαίτερα προσεκτικοί ώστε να εμποδίσουμε τις γνωστικές μας προκαταλήψεις να μας παραπλανήσουν. Μερικές φορές αρκεί να αφήσουμε τα δεδομένα να μιλήσουν.

Παράδειγμα η UPS, η εταιρεία παράδοσης δεμάτων. Τοποθετεί αισθητήρες σε εξαρτήματα των οχημάτων της οι οποίοι δείχνουν αν δημιουργείται θερμότητα ή αναταράξεις που στο παρελθόν είχαν συνδεθεί με την καταστροφή τους. Με τον τρόπο αυτό, η εταιρεία μπορεί να προβλέψει μια βλάβη πριν αυτή προκύψει και να προβεί στην όποια αντικατάσταση όταν είναι η καταλληλότερη στιγμή και όχι στην άκρη του δρόμου. Τα δεδομένα δεν αποκαλύπτουν την ακριβή σχέση ανάμεσα στη θερμότητα ή τις αναταράξεις και τη βλάβη κάποιου τμήματος. Δεν λένε στην UPS γιατί ένα μέρος του οχήματος έχει πρόβλημα. Αλλά λένε τόσα ώστε η εταιρεία να ξέρει τι να κάνει στο άμεσο μέλλον, και για να καθοδηγήσει την έρευνά της σε οποιοδήποτε λανθάνων πρόβλημα μπορεί να υπάρχει είτε στο εν λόγω εξάρτημα είτε στο όχημα.

Παρόμοια προσέγγιση χρησιμοποιείται για την αντιμετώπιση της ανθρώπινης μηχανής. Ερευνητές στον Καναδά αναπτύσσουν μια προσέγγιση μεγάλων δεδομένων για να εντοπίσουν λοιμώξεις σε πρόωρα μωρά, προτού εμφανιστούν τα συμπτώματα. Εντοπίζοντας 16 ζωτικά σημάδια, συμπεριλαμβανομένων των καρδιακών παλμών, της πίεσης του αίματος, της αναπνοής και των επιπέδων του οξυγόνου του αίματος, σε μια ροή πληροφόρησης άνω των 1.000 δεδομένων ανά δευτερόλεπτο, έχουν καταφέρει να βρουν συσχετίσεις ανάμεσα σε πολύ μικρές αλλαγές και σε πολύ σοβαρά προβλήματα. Προφανώς, αυτή η τεχνική θα δώσει τη δυνατότητα στους γιατρούς να ενεργήσουν νωρίτερα και να σώσουν ζωές. Συν τω χρόνω, η καταγραφή αυτών των παρατηρήσεων μπορεί επίσης να επιτρέψει στους γιατρούς να καταλάβουν τι είναι αυτό που ουσιαστικά προκαλεί τέτοια προβλήματα. Αλλά όταν η υγεία ενός νεογνού είναι σε κίνδυνο, ακόμη και η απλή γνώση ότι κάτι μπορεί να συμβεί, ενδέχεται να είναι μακράν πιο σημαντική από το να καταλάβεις ακριβώς το γιατί θα συμβεί.

Η ιατρική παρέχει ένα ακόμη καλό παράδειγμα ως προς το γιατί με τα μεγάλα δεδομένα, το να βλέπεις συσχετίσεις είναι τρομερά σημαντικό, ακόμη κι όταν οι λανθάνουσες αιτίες παραμένουν στο σκοτάδι. Τον Φεβρουάριο του 2009, η Google δημιούργησε αναστάτωση στους κύκλους των επαγγελμάτων υγείας. Ερευνητές της εταιρείας έκαναν μια επιστημονική δημοσίευση στο Nature που έδειξε ότι ήταν δυνατό να προβλέψουν τις επιδημίες της εποχικής γρίπης, χρησιμοποιώντας μόνο τις αρχειοθετημένες καταγραφές των αναζητήσεων στην Google. Η Google διαχειρίζεται πάνω από ένα δισεκατομμύριο αναζητήσεις στις ΗΠΑ καθημερινά, και τις φυλάσσει όλες. Η εταιρεία πήρε τα 50 εκατομμύρια από τις πιο κοινές αναζητήσεις ανάμεσα στο 2003 και το 2008 και τις συνέκρινε με ιστορικά δεδομένα γρίπης από τα Κέντρα Ελέγχου και Πρόληψης Ασθενειών (CDC). Η ιδέα ήταν να ανακαλύψουν αν το γεγονός ορισμένων αναζητήσεων αντιστοιχούσε με επιδημίες γρίπης - με άλλα λόγια, κατά πόσο η αύξηση στη συχνότητα ορισμένων αναζητήσεων στο Google, σε μια συγκεκριμένη γεωγραφική περιοχή, συσχετίζονταν με τα δεδομένα του CDC ως προς τις τοπικές επιδημίες της γρίπης. Το CDC καταγράφει τις τρέχουσες επισκέψεις ασθενών στα νοσοκομεία και τις κλινικές όλης της χώρας, αλλά η πληροφόρηση που δίνει υπολείπεται της πραγματικότητας κατά μια-δύο εβδομάδες –μια αιωνιότητα στην περίπτωση πανδημίας. Το σύστημα της Google, αντιθέτως, θα μπορούσε να δουλέψει σε σχεδόν πραγματικό χρόνο.

Η Google δεν έφθασε στο σημείο να πει ποια ερωτήματα θα ήταν οι καλύτεροι δείκτες. Αντιθέτως, έτρεξαν όλους τους όρους μέσω ενός αλγόριθμου που φτιάχνει μια κατάταξη ως προς το βαθμό συσχέτισής τους με τις επιδημίες γρίπης. Ακολούθως, το σύστημα προσπάθησε να συνδυάσει τους όρους για να δει αν αυτό θα βελτίωνε το μοντέλο. Εντέλει, αφού πρώτα έτρεξαν σχεδόν μισό δισεκατομμύριο υπολογισμούς και τους συνδύασαν με τα δεδομένα, η Google εντόπισε 45 όρους – λέξεις όπως «πονοκέφαλος» και «καταρροή μύτης»- που είχαν ισχυρό βαθμό συσχέτισης με τα δεδομένα του CDC αναφορικά με τις επιδημίες γρίπης. Άπαντες οι 45 όροι σχετίζονταν, με κάποιο τρόπο, με τη γρίπη. Αλλά με ένα δισεκατομμύριο αναζητήσεις την ημέρα, θα ήταν αδύνατο για ένα πρόσωπο να μαντέψει ποιοί μπορεί να δουλέψουν καλύτερα, και να δοκιμάσει μόνο αυτούς.