El tutorial de Apache Spark proporciona conceptos básicos y avanzados de Spark. Nuestro tutorial Spark está diseñado para principiantes y profesionales.
Spark es un motor de análisis unificado para el procesamiento de datos a gran escala que incluye módulos integrados para SQL, streaming, aprendizaje automático y procesamiento de gráficos.
Nuestro tutorial de Spark incluye todos los temas de Apache Spark con introducción a Spark, instalación de Spark, arquitectura de Spark, componentes de Spark, RDD, ejemplos en tiempo real de Spark, etc.
¿Qué es la chispa?
Apache Spark es un marco informático de clúster de código abierto. Su objetivo principal es manejar los datos generados en tiempo real.
Spark se construyó sobre Hadoop MapReduce. Fue optimizado para ejecutarse en la memoria, mientras que enfoques alternativos como MapReduce de Hadoop escriben datos hacia y desde los discos duros de las computadoras. Entonces, Spark procesa los datos mucho más rápido que otras alternativas.
Historia de Apache Spark
Spark fue iniciado por Matei Zaharia en el AMPLab de UC Berkeley en 2009. Fue de código abierto en 2010 bajo una licencia BSD.
En 2013, el proyecto fue adquirido por Apache Software Foundation. En 2014, Spark surgió como un proyecto Apache de alto nivel.
Características de Apache Spark
Rápido | - Proporciona un alto rendimiento tanto para datos por lotes como para streaming, utilizando un programador DAG de última generación, un optimizador de consultas y un motor de ejecución física.
Fácil de usar | - Facilita escribir la aplicación en Java, Scala, Python, R y SQL. También proporciona más de 80 operadores de alto nivel.
Generalidad | - Proporciona una colección de bibliotecas que incluyen SQL y DataFrames, MLlib para aprendizaje automático, GraphX y Spark Streaming.
Ligero | - Es un motor de análisis unificado ligero que se utiliza para el procesamiento de datos a gran escala.
Corre por todas partes | - Puede ejecutarse fácilmente en Hadoop, Apache Mesos, Kubernetes, de forma independiente o en la nube.
Uso de chispa
Integración de datos: | Los datos generados por los sistemas no son lo suficientemente consistentes como para combinarlos para el análisis. Para obtener datos coherentes de los sistemas, podemos utilizar procesos como Extraer, transformar y cargar (ETL). Spark se utiliza para reducir el costo y el tiempo requerido para este proceso ETL.
Procesamiento de flujo: | Siempre es difícil manejar los datos generados en tiempo real, como los archivos de registro. Spark es lo suficientemente capaz de operar flujos de datos y rechaza operaciones potencialmente fraudulentas.
Aprendizaje automático: | Los enfoques de aprendizaje automático se vuelven más factibles y precisos debido al aumento del volumen de datos. Como Spark es capaz de almacenar datos en la memoria y puede ejecutar consultas repetidas rápidamente, facilita el trabajo en algoritmos de aprendizaje automático.
Análisis interactivo: | Spark puede generar la respuesta rápidamente. Entonces, en lugar de ejecutar consultas predefinidas, podemos manejar los datos de forma interactiva.
Requisito previo
Antes de aprender Spark, debes tener conocimientos básicos de Hadoop.
Audiencia
Nuestro tutorial Spark está diseñado para ayudar a principiantes y profesionales.
Problemas
Te aseguramos que no encontrarás ningún problema con este tutorial de Spark. Sin embargo, si hay algún error, publique el problema en el formulario de contacto.