IFCT165PO BIG DATA PARA INGENIERÍAS
Descripción del scorm IFCT165PO BIG DATA PARA INGENIERÍAS
Este CURSO IFCT165PO BIG DATA PARA INGENIERÍAS le ofrece una formación especializada en la materia dentro de la Familia Profesional de Informática y comunicaciones. Con este CURSO IFCT165PO BIG DATA PARA INGENIERÍAS el alumno será capaz de desenvolverse dentro del Sector y conocer las tecnologías disponibles para realizar estrategias de Big Data para Ingenierías, realizar un desarrollo con Spark y Hadoop y analizar datos con Pig Hive e Impala.
Contenido e-learning de IFCT165PO BIG DATA PARA INGENIERÍAS
SCORM 1. INTRODUCCIÓN
¿Qué es Big Data?
Paradigmas de procesamiento en Big Data
Las 8 V de Big Data (Volumen, Volatilidad, Variedad, Valor, Velocidad, Variabilidad, Veracidad, Validez).
SCORM 2. BATCH PROCESSING
MapReduce
- Entorno MapReduce
- Función Map y función Reduce
- Flujo de datos
- Características de MapReduce
- Uso de MarpReduce
- Ventajas e inconvenientes de Map Reduce
- Ejercicios y ejemplos con MapReduce
Hadoop
- Entorno Hadoop
- Almacenamiento: HDFS
- Características de HDFS
Apache Hadoop YARN
- Funciones de Framework computacionales
- YARN: El gestor de recursos del cluster
- Conceptos de Apache Spark
- Ejecución de Computational Frameworks en YARN
- Exploración de las aplicaciones de YARN Applications a través de la Web UIs y de Shell
Agregación de los logs de YARN
- Configuración de Hadoop y registros de Daemon
- Localizar configuraciones y aplicar cambios de configuración
- Gestión de instancias de Role y añadir servicios
- Configuración del servicio HDFS
- Configuración de los logs de Hadoop Daemon
- Configuración del servicio YARN
Obtención de datos en HDFS
- Ingestión de datos desde fuentes de recursos externos con Flume
- Ingestión de datos desde bases de datos relacionales con Sqoop
- REST Interfaces
- Buenas prácticas para la importación de datos
Planificación de un cluster Hadoop
- Consideraciones generales de planificación
- Elección correcta de Hardware
- Opciones de Virtualización
- Consideraciones de red
- Configuración de nodos
Instalación y configuración de Hive, Pig e Impala
Clientes Hadoop incluidos en Hue
- ¿Qué es un cliente de Hadoop?
- Instalación y configuración de clientes Hadoop
- Instalación y configuración de Hue
- Autorizaciones y autenticación Hue
Configuración avanzada de un cluster
- Parámetros avanzados de configuración
- Configuración de puertos Hadoop
- Configuración de HDFS para la organización en rack
- Configuración de HDFS para obtención de alta disponibilidad
Seguridad Hadoop
- ¿Por qué es importante la seguridad en Hadoop?
- Conceptos del sistema de seguridad de Hadoop
- Qué es Kerberos y cómo funciona
- Securización de un clúster Hadoop Cluster con Kerberos
- Otros conceptos de seguridad
Gestión de recursos
- Configuración de cgroups con Static Service Pools
- El Fair Scheduler
- Configuración de Dynamic Resource Pools
- Configuraciones de CPU y memoria YARN
- Impala Query Scheduling
Mantenimiento de un cluster
- Chequeo del estado de HDFS
- Copia de datos entre clústers
- Añadir y eliminar de nodos en el clúster
- Rebalanceo del Cluster
- Directorio de Snapshots
- Actualización del clúster
Solución de problemas y monitorización de un cluster
- Sistema general de monitorización
- Monitorización de clústers Hadoop
- Solución de problemas habituales en el clúster de Hadoop
- Errores habituales en la configuración
SCORM 3. CIENCIA DE DATOS
Data Science
- Que hacen los data scientists, herramientas y procesos que utilizan
- Aplicación de lo aprendido en módulo 2: Uso de Hue
Apache Spark
- Cómo trabaja Apache Spark y que capacidades nos ofrece
- Que formatos de ficheros populares puede usar Spark para almacenar datos
- Que lenguajes de programación puedes utilizar para trabajar con Spark
- Cómo empezar a utilizar PySpark y Sparklyr
- Cómo comparar PySpark y Sparklyr
Machine Learning
- ¿Qué es machine learning?
- Algunos conceptos y términos importantes
- Diferentes tipos de algoritmos
- Librerías que se utilizan
Apache Spark MLlib
- Que capacidades de machine learning nos proporciona MLlib
- Cómo crear, validar y utilizar modelos de machine learning con MLlib
- Ejecución de trabajos Apache Spark
- Cómo un trabajo de Spark se compone de una secuencia de transformaciones seguida de una acción
- Cómo Spark utiliza la ejecución lenta
- Cómo Spark divide los datos entre las particiones
- Cómo ejecuta Spark operaciones limitadas y grandes
- Cómo Spark ejecuta un trabajo en tareas y fases
SCORM 4. DESARROLLO PARA SPARK Y HADOOP
Datasets y Dataframes
Operaciones en Dataframe
Trabajar con Dataframes y Schemas
Crear Dataframes a partir de Data Sources
Guardar DataFrames en Data Sources
DataFrame Schemas
Rapidez y lentitud de ejecución
Análisis de datos con consultas de DataFrame
- Consultar DataFrames con el empleo de expresiones de columna
- Agrupación y agregación de consultas
- Unión de DataFrames
RDD
- Introducción RDD
- RDD Data Sources
- Creando y guardando RDDs
- Operaciones con RDDs
Transformación de datos con RDDs
- Escritura y paso de funciones de transformación
- Ejecuciones de transformación
- Conversión entre RDDs y DataFrames
Agregación de datos con Pair RDDs
- Key-Valué Pair RDDs
- Mal-Reduce
- Otras operaciones Pair RDD
Consulta y vistas de tablas con Spark SQL
- Datasets y DataFrames
- Creación de Datasets
- Ejecución y guardado de Datasets
- Operaciones de Dataset
Creación, configuración y ejecución de aplicaciones Spark
- Creación de una aplicación Spark
- Compilar y ejecutar la aplicación
- Application Deployment Mode
- La interfaz Spark Application Web UI
- Configuración de las propiedades de la aplicación
Procesamiento distribuido
- Apache Spark en un Clúster
- Particiones RDD
- Ejemplo: Particionamiento en consultas
- Etapas y Tareas
- Planificación de tareas de ejecución
Persistencia de datos distribuidos
- Persistencia en Datasets y DataFrames
- Persistencia en niveles de almacenamiento
- Visualización de RDDs persistentes
Patrones comunes al procesar datos con Spark
- Casos comunes de uso de Spark
- Algoritmos de iteración en Apache Spark
- Machine Learning
Spark Streaming: Introducción a DStreams
- Vista general de Spark Streaming
- DStreams
- Desarrollo de aplicaciones en Streaming
Spark Streaming: procesamiento de múltiples lotes
- Operaciones Multi-Batch
- Time Slicing
- Operaciones de estado
- Operaciones Sliding Window
- Vista previa: Streaming estructurado
Apache Spark Streaming: Data Sources
- Vista general de Streaming Data Source
- Apache Flume y Apache Kafka Data Sources
- Ejemplo: uso de un Kafka Direct Data Source
SCORM 5. ANÁLISIS DE DATOS
Introducción a Pig
- ¿Qué es Pig?
- Características de Pig
- Casos de empleo de Pig
- Interacción con Pig
Análisis de datos básico con Pig
- Sintaxis Pig Latin
- Carga de datos
- Tipos simples de datos
- Definición de campos
- Datos de salida
- Vistas y esquemas
- Filtrado y ordenación de datos
- Funciones habituales
Procesado de datos complejos con Pig
- Formatos de almacenamiento
- Tipos de datos complejos y anidados
- Agrupaciones
- Funciones predefinidas para datos complejos
- Iteración de datos agrupados
Operaciones con multiconjuntos de datos con Pig
- Técnicas para combinar conjuntos de datos
- Unión de conjuntos de datos con Pig
- Conjunto de operaciones
- División de conjuntos de datos
Troubleshooting y optimización de Pig
- Troubleshooting en Pig
- Inicio de sesión
- Empleo de UI web Hadoop
- Muestreo de datos y depuración
- Visión general del rendimiento
- Comprensión del plan de ejecución
- Consejos para mejorar el rendimiento de Jobs en Pig
Introducción a Hive e Impala
- ¿Qué es Hive?
- ¿Qué es Impala?
- ¿Por qué utilizar Hive e Impala?
- Schema y almacenamiento de datos
- Comparación entre Hive y bases de datos tradicionales
- Casos de uso
Consultas con Hive e Impala
- Tablas y bases de datos
- Sintaxis básica en consultas Hive e Impala
- Tipos de datos
- Empleo de Hue para ejecutar consultas
- Empleo de Beeline (la Shell de Hive)
- Empleo de la Shell de Impala
Administración de datos
- Almacenamiento de datos
- Creación de bases de datos y tablas
- Carga de datos
- Alteración de bases de datos y tablas
- Simplificación de consultas con vistas
- Almacenamiento de resultados de consultas
Almacenamiento y datos de rendimiento
- Partición de tablas
- Carga de datos en tablas particionadas
- Cuándo utilizar el particionamiento
- Elección de formato de almacenamiento
- Gestión de metadatos
- Control de acceso a datos
Análisis de datos relacional con Hive e Impala
- Unión de conjuntos de datos
- Funciones predefinidas habituales
- Agregaciones y Windowing
Datos complejos con Hive e Impala
- Datos complejos con Hive
- Datos complejos con Impala
Análisis de texto con Hive e Impala
- Empleo de expresiones regulares
- Procesamiento de texto con SerDes en Hive
- Análisis de los sentimientos y N•Grams
Optimización Hive
- Rendimiento de las consultas
- Bucketing
- Indexación de datos
- Hive en Spark
Optimización de Impala
- Ejecución de consultas
- Mejorar el rendimiento de Impala
Extendiendo Hive e Impala
- Customizar SerDes y formatos de fichero en Hive
- Transformación de datos con Scripts personalizados en Hive
- Funciones definidas por el usuario
- Consultas parametrizadas
- Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales. ¿Cuál elegir?
Interesados en IFCT165PO BIG DATA PARA INGENIERÍAS
Este CURSO IFCT165PO BIG DATA PARA INGENIERÍAS está dirigido a todas aquellas personas de la Familia Profesional de Informática y comunicaciones que deseen una especialización en dicha materia.
Duración sugerida para este contenido: 80 horas