logo

¿Qué es la colmena?

Hive es un sistema de almacenamiento de datos que se utiliza para analizar datos estructurados. Está construido sobre Hadoop. Fue desarrollado por Facebook.

Hive proporciona la funcionalidad de leer, escribir y administrar grandes conjuntos de datos que residen en almacenamiento distribuido. Ejecuta consultas similares a SQL llamadas HQL (lenguaje de consulta Hive) que se convierten internamente en trabajos de MapReduce.

Al usar Hive, podemos omitir el requisito del enfoque tradicional de escribir programas MapReduce complejos. Hive admite lenguaje de definición de datos (DDL), lenguaje de manipulación de datos (DML) y funciones definidas por el usuario (UDF).

Características de la colmena

Estas son las siguientes características de Hive:

  • Hive es rápido y escalable.
  • Proporciona consultas similares a SQL (es decir, HQL) que se transforman implícitamente en trabajos MapReduce o Spark.
  • Es capaz de analizar grandes conjuntos de datos almacenados en HDFS.
  • Permite diferentes tipos de almacenamiento como texto sin formato, RCFile y HBase.
  • Utiliza indexación para acelerar las consultas.
  • Puede operar con datos comprimidos almacenados en el ecosistema Hadoop.
  • Admite funciones definidas por el usuario (UDF) donde el usuario puede proporcionar su funcionalidad.

Limitaciones de la colmena

  • Hive no es capaz de manejar datos en tiempo real.
  • No está diseñado para el procesamiento de transacciones en línea.
  • Las consultas de Hive contienen una latencia alta.

Diferencias entre colmena y cerdo

Colmena Cerdo
Los analistas de datos suelen utilizar Hive. Los programadores suelen utilizar Pig.
Sigue consultas similares a SQL. Sigue el lenguaje de flujo de datos.
Puede manejar datos estructurados. Puede manejar datos semiestructurados.
Funciona en el lado del servidor del clúster HDFS. Funciona en el lado del cliente del clúster HDFS.
Hive es más lento que Pig. Pig es comparativamente más rápido que Hive.