logo

Análisis y visualización de datos con Python.

Python se utiliza ampliamente como lenguaje de análisis de datos debido a sus sólidas bibliotecas y herramientas para administrar datos. Entre estas bibliotecas se encuentra Pandas, que facilita la manipulación y el análisis de la exploración de datos. usaremos  pandas  analizar un conjunto de datos llamado  Datos-país.csv  de Kaggle. Mientras trabajamos con estos datos, también introducimos algunos conceptos importantes en Pandas.

1. Instalación

La forma más sencilla de instalar pandas es utilizar pip:

Python
pip install pandas 


o descargarlo desde  aquí .



2. Creando un marco de datos en Pandas

Marco de datos  es una estructura de datos similar a una tabla en Pandas que tiene datos almacenados en filas y columnas. Se puede crear un DataFrame pasando múltiples objetos de la serie Python al DataFrame clase ( pd.DataFrame() ) usando el  pd.Series  método. En este ejemplo se utilizan dos objetos Serie: s1 como la primera fila y s2 como la segunda fila.

Ejemplo 1: creación de un marco de datos a partir de una serie:

Python
import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe) 

Producción:

Análisis y visualización de datos con Python.' title=

Ejemplo 2: Marco de datos de una lista con índice personalizado y nombres de columnas:

Python
dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1) 

Producción:

Análisis y visualización de datos con Python.' loading='lazy' title=

Ejemplo 3: Marco de datos de un diccionario:

Python
dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2) 

Producción:

Análisis y visualización de datos con Python.' loading='lazy' title=

3. Importar datos con Pandas

El primer paso es leer los datos. En nuestro caso, los datos se almacenan como un archivo CSV (valores separados por comas) donde cada fila está separada por una nueva línea y cada columna por una coma. Para poder trabajar con los datos en Python es necesario leer el csv  archivo  en un marco de datos de Pandas.

Python
import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape 

Producción:

cabeza' loading='lazy' title=
(167 10)

4. Indexación de marcos de datos con Pandas

Pandas proporciona poderosas capacidades de indexación. Puede indexar DataFrames usando ambos basado en la posición y basado en etiquetas métodos.

Indexación basada en posiciones (usando iloc ):

Python
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5] 

Producción:

Análisis y visualización de datos con Python.' loading='lazy' title= Análisis y visualización de datos con Python.' loading='lazy' title= Análisis y visualización de datos con Python.' loading='lazy' title=

Indexación basada en etiquetas (usando loc ):

La indexación se puede trabajar con etiquetas utilizando el  pandas.DataFrame.loc  Método que permite indexar usando etiquetas en lugar de posiciones.

Ejemplos:

Python
# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::] 

Producción:

Análisis y visualización de datos con Python.' loading='lazy' title= Análisis y visualización de datos con Python.' loading='lazy' title=


En realidad, lo anterior no se ve muy diferente de df.iloc[0:5:]. Esto se debe a que, si bien las etiquetas de fila pueden tomar cualquier valor, nuestras etiquetas de fila coinciden exactamente con las posiciones. Pero las etiquetas de las columnas pueden facilitar mucho las cosas cuando se trabaja con datos.

Ejemplo:

Python
# Prints the first 5 rows of Time period # value  df.loc[:5'child_mort'] 

Producción:

Análisis y visualización de datos con Python.' loading='lazy' title=

5. Matemáticas de marco de datos con pandas

Pandas facilita la realización de operaciones matemáticas con los datos almacenados en marcos de datos. Las operaciones que se pueden realizar en pandas están vectorizadas, lo que significa que son rápidas y se aplican automáticamente a todos los elementos sin utilizar bucles.

Ejemplo: matemáticas por columnas:

Python
# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df 

Producción:

Análisis y visualización de datos con Python.' loading='lazy' title=

Funciones estadísticas en Pandas:

conversión de int a cadena

El cálculo de marcos de datos se puede realizar mediante el uso de funciones estadísticas de las herramientas pandas. Podemos utilizar funciones como:

  • df.sum() → suma de valores
  • df.mean() → promedio
  • df.max() / df.min() → valores máximo y mínimo
  • df.describe() → resumen rápido de estadísticas
Python
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum() 

Producción:

Análisis y visualización de datos con Python.' loading='lazy' title= Análisis y visualización de datos con Python.' loading='lazy' title=

6. Visualización de datos con Pandas y Matplotlib

Pandas es muy fácil de usar con  Matplotlib una poderosa biblioteca utilizada para crear gráficos y gráficos básicos. Con sólo unas pocas líneas de código podemos visualizar nuestros datos y comprenderlos mejor. A continuación se muestran algunos ejemplos sencillos que le ayudarán a empezar a trazar utilizando Pandas y Matplotlib:

Python
# Import the library first import matplotlib.pyplot as plt 

Histograma

Un histograma muestra la distribución de valores en una columna.

Python
df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show() 

Producción:

Análisis y visualización de datos con Python.' loading='lazy' title=

Diagrama de caja

diagrama de caja  Es útil para detectar valores atípicos y comprender la distribución de datos.

Python
df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show() 

Producción:

Análisis y visualización de datos con Python.' loading='lazy' title=

Diagrama de dispersión

diagrama de dispersión  Muestra la relación entre dos variables.

Python
x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show() 

Producción:

Análisis y visualización de datos con Python.' loading='lazy' title=

Artículo relacionado:

  • Introducción a los pandas
  • Trazado de gráficos en Python
  • Trabajar con archivos csv en Python
  • Marco de datos de Pandas
  • Introducción a Matplotlib
  • Histograma: definición de tipos, gráficos y ejemplos
  • Diagrama de caja
  • Diagrama de dispersión


Crear cuestionario