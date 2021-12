Actualizado 10 de diciembre, 2021

El tratamiento masivo de datos (Big data), se ha convertido en paradigma de revolución tecnológica y promesa de nuevas herramientas predictivas infalibles. Sin embargo, el tratamiento de datos a escala gigantesca amenaza también con alimentar un océano de las confusiones cuando aparecen correlaciones a partir de números inmensos de datos pero sin una lógica o relación plausible.

Bastan algunos ejemplos para comprender lo disparatado de algunas correlaciones (1):

1.- la evolución de los suicidios en EEUU es casi paralela al ritmo de las inversiones en ciencia espacial.

2.- Los divorcios del estado de Maine en EEUU se correlacionan con el consumo de margarina.

3.- El consumo per cápita de pollo está relacionado con las importaciones de petróleo en EEUU.

Las limitaciones y peligros de big data es particularmente preocupante en nuestro contexto pandémico. Los resultados engañosos pueden ser particularmente dañinos cuando las acciones se basan en ellos, señalan los autores del recientemente publicado artículo en Nature (2)

Cuando se trata de datos de encuestas, los encuestados vacunados tienen más probabilidades de responder y que los grupos marginados estén sub representados. Esto puede sobreestimar el número de vacunados y conducir a relajar las medidas. El estudio de Nature, identifica otras áreas de posible sesgo en las encuestas de vacunación. Los informes que se basaron en los usuarios diarios del sitio de redes sociales, no tomaron en cuenta factores como el nivel educativo y la raza y el origen étnico, ninguna encuesta recopiló datos sobre el partidismo de los encuestados, lo que puede influir en la aceptación de la vacuna. Además, ninguno ajustó su muestra para representar la distribución de las áreas urbanas y rurales, otro factor potencialmente importante.

Los autores del artículo señalan que es deseable obtener los mayores conjuntos de datos posibles y la tecnología moderna, big data, lo ha hecho posible. Esto permite es un análisis impensado en otros tiempos, pero debemos ser conscientes de que los sesgos en los datos empeoran con un tamaño de muestra más grande.

Agregan que los gestores de las redes sociales creen tener una muestra pública representativa pero es posible que no se den cuenta que su población está compuesta por quienes quieren responder o interactuar. De hecho, el sesgo por falta de respuesta sigue siendo pernicioso incluso cuando los investigadores lo tienen en cuenta.

Conclusiones.

1) Una encuesta big data sesgada puede ser peor que no tener una encuesta, sin ella, los investigadores al menos saben que no conocen la respuesta. Mientras que una encuesta que tiene un sesgo que no se identifica, genera una confianza por el gran tamaño de la muestra, lo que lleva a los investigadores y lectores por mal camino.

2) Cuanto mayor es el tamaño de los datos, más seguros nos engañamos a nosotros mismos cuando no tenemos en cuenta el sesgo en la recopilación de datos, escribieron los autores del artículo en su análisis, publicado el miércoles en la revista Nature. Sus autores concluyen: “mostramos cómo una encuesta de 250 000 encuestados pueden producir una estimación de la población que no es más exacta que una estimación de una muestra aleatoria simple de tamaño 10.

3) La calidad de los datos importa más que la cantidad de datos, y que compensar el primero con el segundo es un “riesgo de fracaso” matemáticamente demostrable”.

4) El trabajo demuestra el riesgo de calificar “a priori” como mejor evidencia la derivada de las grandes muestras del mundo real. Las muestras con “n grandes” ganan en atinencia (evidencia directamente relacionada) y en precisión (se achican los intervalos de confianza) sin poder superar el riesgo de sesgo por ser observaciones de baja calidad metodológica.

Eduardo Luis De Vito- Hugo Catalano

eldevito@gmail.com; hugoncatalano@gmail.com

1. 2 early vaccination surveys worse than worthless thanks to ‘big data paradox,’ analysts say. Alvin Powell. https://news.harvard.edu/gazette/story/2021/12/vaccination-surveys-fell-victim-to-big-data-paradox-harvard-researchers-say/

2. Unrepresentative big surveys significantly overestimated US vaccine uptake. Nature 2021; https://doi.org/10.1038/s41586-021-04198-4 (www.nature.com).