Big Data: una exploración de investigaciones, tecnologías y casos de aplicación

Para realizar estudios de IA mediante aprendizaje automático (que incluye el aprendizaje profundo en algunos casos), se requieren de determinados algoritmos, como árboles de decisión, regresión para análisis estadístico y predictivo, redes adversarias generativas, Clustering basado en instancias, bayesianos, redes neuronales, etc. Estos algoritmos se valen de la ciencia de datos en la que se ejecutan diversos cálculos matemáticos, donde la densidad de información es amplia, compleja y variada. Por ejemplo, encontrar moléculas antivirales (Ahuja, Reddy & Marques, 2020) que combatan la COVID-19 e identifiquen millones de anticuerpos para tratamiento de infecciones secundarias (Ciliberto bootcamp de programación & Cardone, 2020). Aprendizaje máquina es un área de investigación bastante reconocida en las ciencias de la computación, principalmente comprende el descubrimiento de modelos, patrones y regularidades en los datos [37]. Los primeros trabajan aprendizaje inductivo de descripciones simbólicas, mientras que los segundos se centran en los métodos de reconocimiento de patrones o en la estadística. En los últimos años, el uso del aprendizaje máquina se ha extendido con rapidez [38], se ven aplicaciones en dominios como detección de fraudes, sistemas de recomendación [39], detección de spam [40], predicciones financieras [41], comercio y mercadeo [42], [43], entre otros.

  • Cabe resaltar, que los documentos considerados tronco, para este caso, corresponden a revisiones del estado del arte en Big Data.
  • Bajo este panorama, ha venido tomando fuerza el desarrollo de software de código abierto, donde la inteligencia colectiva es el engranaje principal para obtener un programa de altas prestaciones, multipropósito en la mayoría de los casos.
  • Bajo este panorama, el sector salud tendrá que incorporar rápidamente estos recursos a su sistema de análisis y diagnóstico, no solo de enfermedades infeccionas sino de cualquier otra, por lo que se espera mejorar el servicio prestado a un paciente o comunidad y preparar a la sociedad ante cualquier eventualidad de pandemia a futuro.

En algunos casos este sistema se combina con cámaras de medición térmica con el fin de establecer si alguna persona tiene fiebre y emitir una alerta para que sea aislada de inmediato por personal sanitario. Otra especialidad de la IA es el aprendizaje profundo (Deep Learning) para evaluar datos de tipo imagen, video y audio empleando redes neuronales convolucionales con sus diversas variantes (Tang et al., 2020) y redes neuronales de memoria a corto y largo plazo. El reconocimiento de patrones (Pattern Recognition) es una técnica que se aplica principalmente en procesos de ingeniería, computación y matemáticas que tiene como objetivo extraer información, a partir de un cúmulo de datos, que brinde la posibilidad de establecer propiedades o relaciones entre estos datos. En el procesamiento de patrones generalmente se usan algoritmos de optimización, puesto que su intención es hallar una mejor solución respecto a un criterio definido, teniendo en cuenta que un proceso de optimización es una situación que requiere elegir desde un conjunto de alternativas, la que lleve al fin requerido con el costo mínimo [44]. Una particularidad de trabajar con la inteligencia colectiva radica en el hecho que está dirigida a investigadores interesados en contribuir a mejorar el sistema, perfeccionándolo hasta llegar a un producto funcional, fiable y cien por ciento operativo.

The utility of Big Data in public statistics and private companies

En los países europeos se encuentra un número también significativo de trabajos, mientras que en Sur América, Oceanía y África, el desarrollo de investigaciones en el campo es aún incipiente. 2, si se revisa según el tipo de recurso, se ve una marcada tendencia hacia los artículos de conferencia, con un total de 9.493 resultados. Los artículos científicos muestran 4.824 resultados, mientras que los capítulos de libro y los libros solo despliegan 388 y 88 resultados respectivamente, lo anterior ratifica la etapa naciente en que se encuentra este campo de estudio, puesto que sus bases teóricas apenas se están consolidando.

Otro tipo de aplicación del aprendizaje automático ronda entorno a la predicción de riesgos de infección, basado en características específicas de una persona, tales como edad, ubicación geográfica, nivel socioeconómico, hábitos sociales y de higiene, condiciones preexistentes e interacción humana, entre otros. Con estos datos se puede establecer un modelo predictivo sobre el riesgo que puede traer consigo un individuo o grupo de personas de contraer COVID-19 y factores asociados a desarrollar complicaciones (Jiang et al., 2020) e incluso, predecir los resultados de un tratamiento. Big Data no trata solo de grandes volúmenes de datos, sino que incluye otras dimensiones significativas en el tratamiento de datos, como son la variedad, velocidad y veracidad. No obstante, una implementación de Big Data requiere altos costos en expertos, mayor tiempo de adaptación tecnológica, dificultad para implementar nuevos análisis y percepción limitada. Big Data no busca sustituir a los sistemas tradicionales, sino construir una nueva tendencia donde se construyan arquitecturas de sistemas que permitan manejar todas las peticiones. Y ya ha logrado incentivar en la comunidad académica y comercial el desarrollo de tecnologías de apoyo que toman los paradigmas base y los emplean en la construcción de soluciones particularizadas a problemas de entornos de investigación y producción reales.

Informações

En este caso también se optó por presentar los cinco documentos que después de la revisión por parte de los autores son considerados los más relevantes. A pesar de que el término Big Data se asocia principalmente con cantidades de datos exorbitantes, se debe dejar de lado esta percepción, pues Big Data no va dirigido solo a gran tamaño, sino que abarca tanto volumen como variedad de datos y velocidad de acceso y procesamiento. En la actualidad se ha pasado de la transacción a la interacción, con el propósito de obtener el mejor provecho de la información https://zacatecasonline.com.mx/tendencias/86286-bootcamp-programas-tripleten que se genera minuto a minuto [2]. La ventaja de emplear el aprendizaje automático frente a otras técnicas estándar que duran años es que el proceso de identificación puede realizarse en cuestión semanas, con una reducción de costos considerable, sumado a una probabilidad muy alta de éxito. Por ejemplo, Smith y Smith (2020, 2) afirman que, el diseño futuro de fármacos antivirales SARS-CoV-2, ya está a cargo de un equipo europeo que utiliza el supercomputador de IBM equipado con el sistema AI SUMMIT para ser utilizado en tratamientos por COVID-19.

  • Como consecuencia, estos elementos ofrecen la posibilidad de explorar la valoración de la calidad de los datos que operan en los entornos públicos y privados.
  • Para el caso de análisis de datos robustos se requiere de una gran infraestructura tecnológica, como superordenadores dedicados específicamente para trabajar con IA, donde empresas como Microsoft e IBM están apostando con el objetivo de encontrar tratamientos que permitan combatir la COVID-19 en un tiempo relativamente corto.
  • Este estudio es de especial interés porque permite realizar monitoreos epidemiológicos, caracterizando aquella población que se enferma, pero no ingresa a un hospital, o de aquellos que nunca muestran síntomas.
  • También se abren nuevas oportunidades de negocio porque surgen mecanismos que permiten entender las dinámicas de negocio en tiempo real, como el comportamiento de los consumidores, las actividades de vida nocturna, los mercados, entre otros.
  • Con respecto a la pandemia del COVID-19 el sistema sanitario a nivel mundial demostró no dar abasto para realizar pruebas diagnósticas a corto plazo, sumado a problemas económicos, logísticos, de infraestructura tecnológica y falta de personal hospitalario.

Algunas de sus principales aplicaciones prácticas se enmarcan en la realización de clúster de documentos, recomendaciones y organización de contenidos [32]. El machine learning o aprendizaje máquina es el trasfondo principal de Mahout y corresponde a un subcampo de la inteligencia artificial que se centra en el mejoramiento de procesamientos computacionales a partir del análisis de experiencias previas. Grant Ingersoll en [33] presenta una descripción de algunos de los más recientes algoritmos implementados en Mahout, resumiéndolos en la Tabla 3, la cual se presenta a continuación. El aprendizaje de reglas de asociación (Association rule learning), es un método para encontrar las relaciones entre variables en grandes bases de datos, su objetivo es identificar reglas usando algunas medidas de relación de intereses, por ejemplo, en el caso de las redes sociales, se trataría de revisar las personas que posiblemente le interesarían seguir a otras dependiendo de sus amistades o seguidores. En el caso de tiendas de productos, podría ser la revisión de los productos que se compran juntos con frecuencia para sugerirlos a un cliente que adquiera uno de los productos relacionados. Este paradigma ha sido implementado en numerosas aplicaciones, algunos ejemplos se pueden encontrar en los siguientes documentos, todos se caracterizan por el uso de MapReduce como base de su implementación.

La calidad de los datos en las estadísticas oficiales

En tercer lugar, la visualización de los datos, con la IA se puede lograr incluir la captura de capacidades de visualización de conocimiento para facilitar el análisis de datos, un enfoque es crear aplicaciones inteligentes de visualización para determinados tipos de datos. En cuarto lugar, ya que las tecnologías de almacenamiento evolucionan, es cada vez más factible proporcionar a los usuarios, casi en tiempo real, análisis de bases de datos más grandes, lo que acelera las capacidades de toma de decisiones. Cabe señalar que el Big Data se caracteriza por tres adjetivos propios para el desarrollo de un proyecto de investigación, que son “Volumen”, “Variedad” y “Velocidad”, conocidos como las 3 V del Big Data; otros autores (Ishwarappa y Anuradha, 2015) adicionan la “Veracidad” y “Valor”.

articulos cientificos de big data