El prueba de chi-cuadrado de independencia evalúa si existe asociación entre las categorías de las dos variables. Básicamente existen dos tipos de variables aleatorias y producen dos tipos de datos: numéricos y categóricos. En Lenguaje de programación R La estadística de chi-cuadrado se utiliza para investigar si las distribuciones de variables categóricas difieren entre sí. La prueba de chi-cuadrado también es útil al comparar los recuentos de respuestas categóricas entre dos (o más) grupos independientes.
En el lenguaje de programación R, la función utilizada para realizar una prueba de chi-cuadrado es chisq.test()> .
Sintaxis:
chisq.prueba(datos)
sobrecarga de métodosParámetros:
datos : los datos son una tabla que contiene los valores de recuento de las variables de la tabla.
Tomaremos los datos de la encuesta en el MASS> biblioteca que representa los datos de una encuesta realizada a los estudiantes.
R
# load the MASS package> library>(MASS)> print>(>str>(survey))> |
>
>
Producción:
'data.frame': 237 obs. of 12 variables: $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ... $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ... $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ... $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ... $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ... $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ... $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ... $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ... $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ... $ Height: num 173 178 NA 160 165 ... $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ... $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>
El resultado anterior muestra que el conjunto de datos tiene muchas variables factoriales que pueden considerarse variables categóricas. Para nuestro modelo, consideraremos las variables. ejercicio y Fumar La columna Humo registra los hábitos de fumar de los estudiantes mientras que la columna Ejercicio registra su nivel de ejercicio. Nuestro objetivo es probar la hipótesis de si el hábito de fumar de los estudiantes es independiente de su nivel de ejercicio con un nivel de significancia de 0,05.
R
# Create a data frame from the main data set.> stu_data =>data.frame>(survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data =>table>(survey$Smoke,survey$Exer)> > print>(stu_data)> |
¿Cuál es el caso en SQL?
>
>
Producción:
Freq None Some Heavy 7 1 3 Never 87 18 84 Occas 12 3 4 Regul 9 1 7>
Y finalmente aplicamos el chisq.test()> función a la tabla de contingencia stu_data.
R
archivo .tif
# applying chisq.test() function> print>(>chisq.test>(stu_data))> |
>
>
Producción:
Pearson's Chi-squared test data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>
Como el valor p 0,4828 es mayor que el 0,05, concluimos que el hábito de fumar es independiente del nivel de ejercicio del estudiante y, por tanto, existe una correlación débil o nula entre las dos variables. El código R completo se proporciona a continuación.
Entonces, en resumen, se puede decir que es muy fácil realizar una prueba de Chi-cuadrado usando R. Se puede realizar esta tarea usando chisq.test()> función en r.
Visualice los datos de la prueba de chi-cuadrado
R
cómo convertir caracteres a cadenas java
# Load required library> library>(MASS)> # Print structure of the survey dataset> print>(>str>(survey))> # Create a data frame for smoking and exercise columns> stu_data <->data.frame>(survey$Smoke, survey$Exer)> stu_data <->table>(survey$Smoke, survey$Exer)> # Print the table> print>(stu_data)> # Perform the Chi-Square Test> chi_result <->chisq.test>(stu_data)> print>(chi_result)> # Visualize the data with a bar plot> barplot>(stu_data, beside =>TRUE>, col =>c>(>'lightblue'>,>'lightgreen'>),> >main =>'Smoking Habits vs Exercise Levels'>,> >xlab =>'Exercise Level'>, ylab =>'Number of Students'>)> # Add legend separately> legend>(>'center'>, legend =>rownames>(stu_data), fill =>c>(>'lightblue'>,>'lightgreen'>))> |
>
>
Producción:

Prueba de chi-cuadrado en R
En este código utilizamos elMASS>biblioteca para realizar una prueba de chi-cuadrado en el conjunto de datos de la 'encuesta', centrándose en la relación entre los hábitos de fumar y los niveles de ejercicio.
Crea una tabla de contingencia, realiza la prueba estadística y visualiza los datos mediante un diagrama de barras. La leyenda se agrega por separado en la esquina superior izquierda, distinguiendo entre diferentes hábitos de fumar con distintos colores.
El código tiene como objetivo explorar y comunicar las asociaciones entre el comportamiento de fumar y las prácticas de ejercicio dentro del conjunto de datos.