De los datos al conocimiento
Los usuarios de internet no solo consumimos información, sino que también la producimos en volúmenes crecientes, y cada día más participantes se suman a este proceso de alimentación de la web. Pero, ¿cómo se obtiene información de entre tantos datos? ¿Quiénes los registran? ¿De qué manera se buscan y analizan para utilizarlos según diversos objetivos? De eso se trata el Big data, también conocido como minería de datos.
Suele decirse que «en internet está todo», lo que invita a creer de manera un poco ingenua que solo es cuestión de navegar y buscar. Sucede que, comparando internet con una gran mina donde explorar en busca de recursos útiles a nuestros propósitos, allí se encontrarán cosas que sirven y otras que no, y surgirá el problema de que no todo lo que necesitamos es fácilmente accesible.
Tratemos, por un momento, de dimensionar la cantidad de datos que generamos diariamente solo en la escuela. Contemos cuántos alumnos hay en el aula, cuáles son sus nombres, edades, fechas de cumpleaños, lugares de nacimiento, nombre de sus padres, hermanos, abuelos, sus respectivas edades… Describámoslos uno por uno: color de ojos, pelo, altura, peso, anotemos las direcciones de sus casas, el talle de zapatos, guardapolvo, sus programas de televisión favoritos, sus calificaciones en la escuela, los promedios, los trabajos que cada uno presentó. Pasemos al aula, cuántos metros cuadrados tiene, altura, ancho, cantidad de ventanas, forma de abrir las ventanas, servicios, disposición de los bancos, cantidad de bancos, de pizarrones, cuántas tizas utilizamos por día por mes por año, número de borradores, de docentes, color de las paredes, afiches pegados en ellas… Y si ya nos cansamos de calcular, multipliquemos lo que ya tenemos por todas las aulas de la escuela, y por todas las escuelas del distrito, y las de la localidad, la provincia, el país, la región… Necesitamos ayuda tanto para registrar toda esta información, como también para procesarla y poder utilizarla para algún fin útil.
Qué es Big data
Ernesto Mislej, especialista y docente de la maestría en Explotación de Datos y Descubrimiento de Conocimiento (Data Mining & Knowledge Discovery) de la Universidad de Buenos Aires (UBA), explica que el concepto de minería de datos, o data mining, refiere básicamente a la exploración y análisis de grandes cantidades de datos para encontrar patrones, reglas o modelos comunes entre estos. Pero no se trata únicamente de la cantidad: Big data es igual a cantidad de datos, más velocidad de procesamiento, más variedad de información.
¿Qué hacemos día a día en internet? Subimos fotos, escribimos en blogs, cargamos videos, buscamos todo tipo de información, compartimos una nota interesante, enviamos correos electrónicos, compramos en comercios virtuales, participamos de redes sociales y comunidades de interés, conversamos, opinamos. Sin embargo, estas actividades, y otras, de las que participamos como agentes de datos que además de consumir información también la generan, representan solo una parte del total, ya que se suma que la nueva generación de aplicaciones y desarrollos generan por sí mismos información propia, datos que ayudan a su clasificación, etiquetado e identificación.
Es por todo esto que los especialistas de la industria de las tecnologías de la información sostienen que el Big data nos ayudará a tomar mejores decisiones.
Para qué sirve el Big data: el potencial de los datos públicos
Mislej señala que en cada área o actividad se pueden utilizar modelos de data mining: «La AFIP utiliza procedimientos soportados por técnicas de minería de datos para sus controles impositivos y aduaneros con el fin de detectar fraude y descubrir nuevos patrones de evasión; en agricultura se usan para optimizar zonas de cultivo; también en nuevas formas de participación ciudadana; en inteligencia y seguridad, planificación estratégica, exploración minera y de hidrocarburos, detección de fallas en la red eléctrica, logística, estimación de impacto impositivo, etcétera».
Estos procedimientos, y la actividad en la red en general, permiten tomar decisiones de todo tipo: planificar qué construir y dónde hacerlo, prevenir un desastre natural, evitar un embotellamiento, detectar posibles derrumbes.
El lado humano
Si fuera posible grabar todas nuestras clases y ver cómo evoluciona la comprensión de un tema en particular a lo largo del año, ¿cómo podríamos usar esa información para mejorar no solo nuestra práctica docente sino también para contar con mejores recursos que enriquezcan el proceso de enseñanza-aprendizaje?
El hecho de que todo parece estar informatizado y de que existen aplicaciones y herramientas informáticas capaces de recopilar, almacenar y graficar estos datos no significa que no tengamos nada que hacer en el mundo del Big data. Muy por el contrario, la clave está, justamente, en la interpretación de esos datos, qué decidamos hacer y cómo los utilicemos. Enseñar no solo a saber de dónde proviene y que significa cada dato, sino cómo podemos relacionarlos para que nos sirvan como insumo en nuestros estudios es lo que terminará por demostrarnos el enorme potencial de contar con enormes flujos de información en tiempo real.
No obstante, como nos señala Mislej, siempre la visualización termina empujándonos a una interpretación. «En cuanto a las competencias, uno debería dejarse llevar por los sentidos y que estos hagan el trabajo y que perciban los patrones que subyacen a la visualización. Es verdad que un gráfico en escala logarítmica es más raro que uno en escala lineal. Pero uno se va entrenando en reconocer los “sesgos” o suposiciones de cada metáfora visual».
Charla Hans Roslin en TED
El especialista de la UBA también subraya que la representación gráfica de los datos es útil tanto para la educación como para cualquier ámbito donde uno quiere comunicar y favorecer la apropiación del conocimiento. «A mí me fascinaba leer enciclopedias o atlas geográficos donde había infografías sobre los países. Las visualizaciones de datos vibran en ese lugar. Permitir explorar y adquirir conocimiento nuevo. Son interactivas por definición».
Para saber más
Uno de los ambiciosos proyectos de Google en esta área es el sitio Public Data Explorer, dedicado exclusivamente al rastreo de datos y con un potencial enorme a la hora de utilizar información pública y compararla. Esta herramienta permite, por ejemplo, contraponer los datos demográficos de diferentes países.
¿Quiénes son los principales impulsores del Big Data?
Mislej distingue tres grupos que están a la cabeza de la generación de datos. El primero reúne a las propias empresas que generan los datos y que ven en su uso optimizado un gran valor. «Estas son los grandes actores de redes sociales: Facebook, Twitter, Linkedin, Google, Yahoo! También están otras grandes generadoras de datos: Last.fm, Netflix, Amazon y Telefónica. Dentro de estas empresas están los principales laboratorios de científicos que encuentran valor a los datos propios y optimizan sus propios negocios. Pero siempre con una visión interna».
El segundo grupo corresponde a los proveedores de infraestructura de software y hardware: Cloudera, Hortonworks, Amazon WS, IBM, SAP, o EMC.
El tercer bloque está compuesto por empresas de productos y servicios que dan valor a la información social (que proviene de las redes sociales en línea) y construyen productos de datos, reuniéndolos con determinados criterios para dar forma a algo superador.
Pero, además de estos tres grupos, principalmente liderados por el sector privado, existe un cuarto bloque en el que están universidades como Stanford, Carnegie Mellon University y la UBA, que incluyen programas y planes de estudio en Big Data / Data Science. Sin ir más lejos, en octubre de 2012, se realizaron en la ciudad universitaria de esta última casa de estudios las Séptimas Jornadas Argentinas de Data Mining.
Los datos después de los datos
Uno de los grandes factores que influyeron en el crecimiento exponencial de la cantidad de datos fueron las redes sociales. Y el gran desafío para quienes trabajan con enormes masas de datos, para mejorar procesos, productos o incluso implementar nuevas políticas y estrategias, es la identificación y organización de los datos que circulan en las redes.
Según un estudio de la International Data Corporation (IDC, por su sigla en inglés), en 2010 existían 1227 exabytes, esto es, miles de millones de gigas. También estimó que en 2015 habrá 8591 exabytes y que hacia 2020 serán 40 mil los exabytes disponibles.
Para dar alguna idea cotidiana, se calcula que contra los 7,6 mil millones de personas conectadas en 2020, habrá 200 mil millones de «cosas» conectadas. En los reportes de la compañía, se estima que solo el 23 por ciento del universo digital sería útil si fuera etiquetado y analizado, el 3 por ciento podría ser efectivamente analizado en la actualidad y considera que apenas el 1 por ciento del contenido es realmente analizado en realidad. De la información que debería estar protegida, apenas el 19 por ciento lo está.
De todo este universo digital e informacional el 68 por ciento es generado y usado por los mismos consumidores, en redes sociales, enviando imágenes y videos, entre dispositivos móviles. El año pasado se alcanzaron 400 millones de tuits (mensajes de Twitter) por día, mil millones de usuarios de Facebook y 20 mil millones de mensajes de texto. Y como decíamos anteriormente no se trata de un fenómeno de unos pocos países, sino que para 2020 los mercados emergentes reemplazarán a los países desarrollados como los principales productores de datos mundiales. Tal evolución de los datos está generando una oportunidad para empresas, organizaciones, redacciones que están cambiando la forma de acceder a las noticias, a información sensible, a campañas de márquetin y a las redes sociales.
Ficha
Publicado: 06 de junio de 2013
Última modificación: 18 de agosto de 2025
Audiencia
Docentes
Estudiantes
Familias
Área / disciplina
Educación Tecnológica y Digital
Nivel
Superior
Categoría
Artículos
Modalidad
Todas
Formato
Texto
Etiquetas
red social
base de datos
datos
relaciones entre datos
identificación de datos
análisis de datos
datos públicos
big data
minería de datos
Autor/es
Lucas Delgado
Soledad Venesio
Licencia
Creative Commons: Atribución – No Comercial – Compartir Igual (by-nc-sa)
