
[dropcap1]L[/dropcap1]as empresas y entidades de información se dedicaban hasta hace poco más bien al almacenamiento de información para que los usuarios las utilizaran cuando y como pudieran. Ahora, con una visión más “agresiva”, los especialistas de información brindan no sólo datos o grandes volúmenes de información, sino que entregan informes, producto de análisis, con los cuáles les ayudan a convertir tantos datos en información sintetizada y confiable. Estos análisis de información ayudan a la toma de decisiones, que es una tarea que se hace cada vez más dinámica y requiere de un basamento informativo bien sustentado.
El análisis de información parte desde la simple recopilación y lectura de textos hasta la interpretación y cuyo objetivo es obtener ideas relevantes, de las distintas fuentes de información, lo cual permite expresar el contenido sin ambigüedades, con el propósito de almacenar y recuperar la información contenida, todo esto gracias al empleo de métodos y procedimientos de investigación, ya sean cuantitativos o cualitativos que le permiten separar lo principal de lo accesorio y lo trascendental de lo pasajero o superfluo.
El producto del análisis debe ser transmitido en un lenguaje sencillo, directo, sin ambigüedades y con un orden lógico que resista cualquier crítica o duda, especificando claramente lo que se sabe, lo que no se sabe y las opciones respecto de lo que podría suceder en el futuro. Está claro que todo esto depende de que no surjan variables externas que cambien el escenario.
Para analizar la información surgen tecnologías como data warehouse, un almacén de datos (del ingles, data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil (La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas) y variable en el tiempo (Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones), que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos (especialmente OLAP, procesamiento analítico en línea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sea necesario. El problema es que los data warehouses convencionales no pueden escalar hasta TB de datos o soportar analítica avanzada.
Las tecnologías de la información han experimentado crecimientos espectaculares desde los años 50, a un ritmo en el que la potencia de la informática crece exponencialmente todos los años. A este crecimiento natural de la informática le ha acompañado el de la información, cuyos volúmenes están haciendo que sea indescifrable por sí sola.
Para ejemplificar la cantidad de datos que se generan, para el sector bancario en México, esta lista nos podrá dar una idea:
- Actualmente, 14.9 millones de clientes de la banca ya realizan todas, o al menos una parte, de sus operaciones financieras por internet.
- De acuerdo con datos del Banco de México, en el último año se agregaron 1.5 millones de nuevos usuarios a la banca en línea.
- De junio de 2010 al mismo mes de 2011, el número de usuarios aumentó 12 por ciento.
- Según los registros del banco central, en marzo de 2005, que fue cuando se comenzó a dar seguimiento en la contabilización al total de clientes de la banca que hacen operaciones en línea, había 4.2 millones.
- De acuerdo con la Asociación de Bancos de México (ABM), existen en el país 43 millones de clientes de la banca.
- Los usuarios de banca por internet representan 34 por ciento de los clientes totales del sistema.
- Actualmente, el 25 por ciento de las operaciones distintas al efectivo se realizan por internet.
- En la banca por internet, predomina la utilización por parte de las empresas y el gobierno. Sobre todo, porque en la dispersión de nóminas en cuentas bancarias, las empresas representan un fuerte peso.
Los datos se generan en bruto, es una mina donde para extraer el oro se debe procesar cantidades de roca para obtener el valioso metal. En la vida real, sucede algo similar. Una cadena de farmacias, pudiera tener almacenada la venta de 5 años, pero antes de desechar toda esa información podría analizarla. Saber en cuáles regiones se compra qué medicamento con mayor demanda que otros, en qué temporada un medicamento tiene una mayor demanda, qué factores externos influyen en la demanda de productos, que sucursales de determinadas regiones, son factibles de tener personal medico, etc. Para los minoristas, esto puede significar promociones de Just-In-Time y colocación de inventario. Para las compañías financieras esto afecta las decisiones comerciales oportunas. Para las empresas de apuestas en línea, esto sirve una experiencia de juego más atractiva y personalizada.
¬øQu√© es Big Data? Gartner se√±ala que Big Data tiene tres caracter√≠sticas principales: volumen (cantidad), velocidad (velocidad de creaci√≥n y utilizaci√≥n), y la variedad (tipos y fuentes de datos no estructurados, tales como la interacci√≥n social, video, audio, cualquier cosa que no se pueda clasificar dentro de una base de datos). Big data es un t√©rmino aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tama√±os del «big data» se encuentran constantemente en movimiento creciente, de esta forma en 2012 se encontraba dimensionada en un tama√±o de una docena de terabytes hasta varios petabytes de datos en un √∫nico data set. En la metodolog√≠a MIKE2.0 dedicada a investigar temas relacionados con la gesti√≥n de informaci√≥n, definen big data en t√©rminos de permutaciones √∫tiles, complejidad y dificultad para borrar registros individuales. Big Data no esta enfocado solo al tama√±o, sino a la complejidad de los datos, en los cuales, el numero de variantes puede ser indeterminado a priori, por lo cual, sus relaciones crean diversas formas de analizar o visualizar la informaci√≥n.
Es claro, que ante un escenario con datos complejos, aunado a un volumen considerable, el software tradicional de análisis se torna obsoleto en términos de performance, por lo cual se requiere de software que haga uso del hardware actual, servidores con más de un procesador, procesadores multicore, gpu de mayor potencia, clusters, etc. El software debe ser enfocado al procesamiento en paralelo
Se utiliza Big Data para comprender mejor las grandes cantidades de datos asociados a los procesos y costos relacionados con piezas de proveedores, fabricación, logística, control de calidad, servicio al cliente, y mucho más; y utilizarlo para establecer los modelos de predicción de rendimiento con el fin de hacer frente a los problemas de calidad antes de puedan tener un efecto negativo en la satisfacción del cliente. Sin embargo, incluso estos ejemplos solo arañan la superficie de la forma en que Big Data puede efectuar la transformación del negocio.
El potencial de Big Data va m√°s all√° de la inteligencia empresarial tradicional «de retrovisor», revelando patrones casi en tiempo real, con el fin de facilitar un salto cu√°ntico de la mejora gradual de los procesos predictivos del negocio, e incluso totalmente nuevos modelos de negocio -lo que llamo el arte de lo posible.
Muchas organizaciones fueron influenciadas por reportes noticiosos de detallistas que utilizan tecnologías de Big Data, como la infraestructura de manejo Hadoop y los motores analíticos que se ejecutan en ella, con el fin de obtener datos en tiempo real para convertirlos en información susceptible de acción. Por ejemplo, los comerciantes detallistas utilizan estos datos para estudiar las conductas y los patrones de compra de sus clientes.
Para ser parte de empresas con Big Data, primero, las organizaciones deben aprender a almacenar enormes cantidades de datos generados por humanos que se toman de forma selectiva de sitios Web, aplicaciones móviles, sitios de social media, etc. Y después practicar análisis a los datos. Para ello se requiere considerar 6 puntos:
- Identificar piezas faltantes, sean herramientas o datos. La brecha más grande está en las herramientas diseñadas para recopilar, eliminar duplicados, etiquetar y procesar nuevos tipos de metadatos, y ellas dan a los Big Data el contexto y significado que los hacen valiosos, de acuerdo con un reporte de IDC sobre migraciones de Big Data, publicado en junio de 2011.
- Entender los datos que se tienen y los que se requieren. Es necesario auditar y generar reportes sobre tipos de datos disponibles antes de siquiera aproximarse a que los usuarios finales reúnan los requisitos de un proyecto (lo contrario del proceso de desarrollo tradicional, según Krish Krishnan, consultor de Sixth Sense Advisors).
- Saber lo que se intenta lograr. Crear requisitos de negocio claros y de fácil entendimiento es un siguiente paso decisivo, afirma Krishnan, co-autor de Building the Unstructured Data Warehouse, guía para la construcción de sistemas de Big Data publicada en enero de 2011, antes de que el término “Big Data” se pusiera de moda. Sin requisitos claros es imposible planificar los tiempos y pasos específicos para completar el proyecto, dejando de lado las habilidades y la capacitación requeridas para hacerlo útil para los empleados, agrega Krishnan.
- Localizar y contratar científicos de datos. Absolutamente decisiva para el éxito de cualquier proyecto de Big Data es la capacidad de definir, entender, manejar y contextualizar datos de muchas fuentes en muchos formatos. Se trata de un reto que aplica a los conocimientos de una descripción laboral que es ajena a la mayoría de los departamentos IT, e incluso para la mayoría de las corporaciones: el científico de datos.
El 45% de los proyectos de BI fracasan por falta de conocimiento de los datos del personal. Así lo concluyó una encuesta realizada en abril por GigaOm. Los requisitos de los conocimientos de Big Data son más rigurosos que los de la mayoría de los proyectos de business intelligence, lo que significa que los índices de fracaso debido a la falta de conocimientos deben ser aún mayores. Según la definición de IBM, la ciencia de los datos requiere capacitación en ciencias de la computación, aplicaciones, modelado de datos, estadística, analítica y matemáticas avanzadas. También requiere capacitación en procesos o manejo de negocios con el fin de identificar los requisitos de la organización y los datos que podrían empatarlos. “Un científico de datos no simplemente recolecta y genera reportes de datos, sino que también los analiza desde muchos ángulos, determina su significado y luego recomienda formas de aplicarlos”, señala el resumen de IBM. - Entender la velocidad; manejar las expectativas. Un elemento decisivo de los Big Data es la rápida adquisición y análisis de datos, características que son raras en cualquier sistema IT descrito con la palabra “Big”, a decir de Chad Richeson, CEO de la firma consultora de BI, Society Consulting. En su visión, los sistemas de Big Data necesitan ser fácil y rápidamente adaptables, en vez de estar restringidos por los ciclos de desarrollo de 18 a 24 meses típicos de la mayoría de los proyectos de datos. Por ejemplo, debería ser posible hacer cambios al tipo o al origen de datos en ciclos de tres a seis meses. Para mantener relevantes los análisis de Big Data, los datos que en ellos se incluyen deben ser alimentados al sistema analítico al mismo tiempo que éste ingresa al sistema de producción, o inmediatamente después, escribió Richeson. Para lograrlo, los gerentes de Proyectos de Big Data deben sobresalir en la creación de prototipos de sistemas nuevos o en los cambios a sistemas existentes, además de establecer procesos para el muestreo de datos conforme se recaban y verificar su calidad.
- Verificar con los usuarios finales. El último paso importante es aquel que se debe dar al comienzo de un proyecto de Big Data, y repetirse a todo lo largo del proceso de implementación y más allá, según todos los expertos citados en el presente artículo: las iniciativas de Big Data deben responder preguntas específicas que ayuden a los empleados de las unidades de negocio a hacer su trabajo. “La analítica impecable es formidable –señala Boyarski, de JasperSoft–, pero no encaja con respuestas simples y directas a preguntas que tienen un impacto real en los usuarios finales.”
Como recomendaciones, te podemos sugerir lo siguiente:
Nunca le creas al vendedor que diga que el software hace magia, siempre corre una prueba de concepto o realiza una comparativa de rendimiento en ambiente real. El software esta dise√±ado para situaciones especificas, por lo tanto tiene fortalezas y debilidades. La raz√≥n de esto es que cada uno de estos Appliances tiene una manera diferente de hacer las cosas. Cargar, analizar, almacenar… Esta es la raz√≥n del por qu√© debes correr benchmarks.
Los datos deben ser consumidos mediante sentencias SQL, de lo contrario no estas manejando un estándar, lo que conlleva a modificar tus procesos, no solo a adaptarlos. Evalúa los elementos periféricos de los cuales es dependiente, como administración, backup, recuperación o monitoreo.
El éxito se mide en números, no en sentimientos o sensaciones o en un status quo por ser consumidor de una determinada marca, establece metas cuantitativas que evalúen los resultados, una muy importante es la Calidad de servicio (QoS) – quiero ejecutar la misma consulta 100 veces en paralelo y todavía obtener todos los conjuntos de resultados en menos de 10 segundos. No dejes que el proveedor haga toda la prueba, interactúa e involucra a tu personal técnico; verifica que las pruebas sean reales en términos de tu operativa, no de operativas en las cuales son parte de las fortalezas del software.
El precio o la marca no es tu único punto de referencia, consumes open source como Linux, por que hay empresas que lo respaldan, que dan soporte a los productos y/o servicios. Se debe elegir a sus candidatos basados en características, precio, limitaciones, capacidad de administración, tiempo promedio de recuperación (MTTR), costo de la migración, los costos de terceros, costes de capacitación. Algunas opciones de software, depende de una infraestructura, para obtener el performance anunciado. Una tabla de decisión puede serte de ayuda.
Realizar las pruebas con datos reales o datos reales de scramble. Prueba de al menos 2-3 diferentes conjuntos de datos que reflejan el comportamiento del sistema. Diferentes conjuntos de datos se comportan diferente en términos de distribución entre los nodos, la compresión, la escalabilidad de rendimiento etc. Asegúrese de que el proveedor que va a probar es compatible con el conjunto de datos que desee. Algunos proveedores tienen restricciones para tipos de datos, longitud de columnas etc.
Entre los an√°lisis recomendados est√°n:
Análisis completo del dataset entero sin agregación. Asegúrese de que el rendimiento crece linealmente a medida que crece con el tamaño del conjunto de datos.
Igual que el anterior, pero con agregación (resumen, promedio, min, max o cualquier otra agregación que desee)
Agregar una sola columna y luego agregar varias columnas a la vez.
Unir dos tablas de gran tamaño o más. Créalo o no, esa es una de las debilidades de algunos proveedores de aparato de base de datos.
Ejecutar consultas mientras que se cargan datos, esto crea problemas de bloqueo con algunos aparatos.
Ejecutar consultas simult√°neamente. Algunos aparatos no mantienen tasas de alta concurrencia. Trate con 2, 5, 10, 20, 40, 100 consultas simult√°neas
Una vez que tengas todos los elementos a considerar y tengas la evidencia, los tiempos y números, estas listo para tomar una decisión.
Recuerdea que el viaje está a punto de comenzar. Habrá muchos obstáculos en el camino y muchos cambios que tendrás qué hacer que no pestaban planeados. Sin embargo, el viaje en muchos casos es tan agradable como el resultado final.
[box style=»rounded»]THE BIGDATA LANDSCAPE[/box]