domingo, 7 de julio de 2013

PRUEBA DE HIPOTESIS Y CORRELACION



CORRELACIÓN

4.- Los siguientes datos provienen de las edades de un grupo de personas y sus puntajes, obtenidos en una prueba de inglés:

Edad (x)
18
36
20
40
39
37
31
22
18
23
Puntaje (y)
19
33
22
40
38
38
33
25
20
26



















Resumen del modelo
Modelo
R
R cuadrado
R cuadrado corregida
Error típ. de la estimación
dimension0
1
,984a
,969
,965
1,488



  1. Calcular el coeficiente de correlación lineal, interpretar. Determinar el coeficiente de determinación.

Coeficientesa
Modelo
Coeficientes no estandarizados
Coeficientes tipificados
t
Sig.
B
Error típ.
Beta
1
(Constante)
4,940
1,621

3,048
,016
EDAD DE LAS PERSONAS
,861
,055
,984
15,772
,000

El 96.5% de la variabilidad de los puntajes es explicado por el modelo y el 4.5%  corresponde al error.



  1. Determinar la ecuación de regresión lineal de la variable salario frente a años de experiencia.
Y= 4,940+0.681x
  1. ¿Cuál es la predicción en el puntaje para una persona que tiene 28 años de edad?
4.     Y= 4,940+0.681( 28)
Y= 19.068-4.940= 14
La predicción del puntaje para una persona que tiene 28 años es de 14.

  1. ¿Puede rechazarse la hipótesis nula de que el coeficiente de determinación es cero cona = 0'05?
Si
5.- Se quiere estudiar cuál es la relación entre la cantidad gastada semanalmente en comida (en euros) y el número de miembros de una familia. Para ello, cogemos una muestra de 10 familias:
Miembros de
La Familia           3    6       5        6       3       4     4      5       3        6
Cantidad
Gastada             99  104   151   129   142   74    91   119    91     142           






Resumen del modelo
Modelo
R
R cuadrado
R cuadrado corregida
Error típ. de la estimación
dimension0
1
,391a
,153
,047
25,558



  1. Calcular el coeficiente de correlación lineal, interpretar. Determinar el coeficiente de determinación.

Coeficientesa
Modelo
Coeficientes no estandarizados
Coeficientes tipificados
t
Sig.
B
Error típ.
Beta
1
(Constante)
77,890
31,266

2,491
,037
NUMERO DE FAMILIAS
8,069
6,712
,391
1,202
,264

EL 4.7% de la variabilidad de cantidad de familias es explicado por el modelo y el  95.3%  corresponde al error


  1. Determinar la ecuación de regresión lineal de la variable salario frente a años de experiencia.
Y= 77.890+8.069x
  1. ¿Cuál es la predicción en la cantidad gastada por una familia de 2 miembros?
Y= 77.890+8.069(2)
Y= 16.138- 77.890= 61.752.
La predicción de que una familia de dos miembros la cantidad de gasto es de 61.752.
  1. ¿Puede rechazarse la hipótesis nula de que el coeficiente de determinación es cero cona = 0'05?

6.- Sobre la relación existente entre la inversión realizada y el rendimiento obtenido en cientos de miles de euros, en proyectos turísticos, se muestra en el siguiente cuadro:
Inversión (X)
11
14
16
15
16
18
20
21
14
20
19
11
Rendimiento (Y)
2
3
5
6
5
3
7
10
6
10
5
6









Determinar: a) coeficiente de correlación. Interpretar.


Resumen del modelo
Modelo
R
R cuadrado
R cuadrado corregida
Error típ. de la estimación
dimension0
1
,618a
,382
,320
2,815


El 38.2% de la variabilidad  del rendimiento es explicado por el modelo y el 61.8% corresponde al error.



b).-La recta de regresión del rendimiento respecto de la inversión
Coeficientesa
Modelo
Coeficientes no estandarizados
Coeficientes tipificados
t
Sig.
B
Error típ.
Beta
1
(Constante)
11,464
2,090

5,486
,000
rendimiento
,845
,340
,618
2,486
,032


Y= 11.464+0.845X
c).-La previsión de inversión que se obtendrá con un rendimiento de 1 250 000 €
Y= 11.464+0.845(1250000)
Y= 1056250-11.464=1056238.536
d) prueba de hipótesis, nivel de significación 5%.




























































PRUEBA DE HIPOTESIS



1.– Se desea comparar la calidad de dos nuevas clases de trigo. Para ello se toman 10 fincas al azar, plantando en cada una de ellas y en dos partes distintas ambas clases. Los datos sobre la producción en las 10 fincas son los siguientes:
Clase A : 57 49 60 55 57 48 50 61 52 56
Clase B : 55 48 58 56 54 48 52 56 50 58
¿Podemos aceptar que la producción es la misma para ambas clases de trigo con un 95% de confianza, suponiendo que las distribuciones son normales?



H0= la distribución de calidad de clases de trigo es una distribución normal.
Ha= la distribución de calidad de clases de trigo no es una distribución normal.
PRUEBAS DE NORMALIDAD.


Pruebas de normalidad

CLASES
Kolmogorov-Smirnova
Shapiro-Wilk

Estadístico
gl
Sig.
Estadístico
gl
Sig.
CALIDAD DE TRIGO
CLASE A
,144
10
,200*
,939
10
,539
CLASE B
,153
10
,200*
,901
10
,225
Ho= la calidad de clases de trigo es una distribución normal.
Ha= la calidad de clases de trigo no es una distribución normal.
P= 0.539>0.05 entonces se acepta la hipótesis Ho , por lo tanto la calidad de clases de trigo se distribuyen normalmente.

PRUEBA DE VARIANZA

}  Ho: s1= s2
}  Ha: s1s




Prueba de muestras independientes


Prueba de muestras independientes

Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias
F
Sig.
t
gl
Sig. (bilateral)
Diferencia de medias
Error típ. de la diferencia
95% Intervalo de confianza para la diferencia
Inferior
Superior
CALIDAD DE TRIGO
Se han asumido varianzas iguales
,462
,506
,533
18
,601
1,000
1,877
-2,943
4,943
No se han asumido varianzas iguales


,533
17,455
,601
1,000
1,877
-2,952
4,952

                  Determinamos que el Pvalor=



2.- Se realizó una investigación para determinar los gastos diarios de los turistas que provienen de Europa y los que provienen de los Estados Unidos.
Gastos (USA) $
Gastos (Europa) $
175
132
218
151
200
219
234
149
187
123
248
206
179
206
142
311
337
262
302
195
253
199
236
216
211
176
249
214
Verifique la hipótesis que no existen diferencias en el gasto promedio de ambos grupos. Utilice un nivel de significación del 5%

Pruebas de normalidad

pais de precendencia de los turistas
Kolmogorov-Smirnova
Shapiro-Wilk

Estadístico
gl
Sig.
Estadístico
gl
Sig.
gastos diarios de los turistas
dimension1
USA
,127
14
,200*
,964
14
,793
EUROPA
,124
14
,200*
,975
14
,937
a. Corrección de la significación de Lilliefors
*. Este es un límite inferior de la significación verdadera.



Prueba de muestras independientes

Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias
F
Sig.
t
gl
Sig. (bilateral)
Diferencia de medias
Error típ. de la diferencia
95% Intervalo de confianza para la diferencia
Inferior
Superior
gastos diarios de los turistas
Se han asumido varianzas iguales
1,286
,267
-2,739
26
,011
-48,500
17,708
-84,899
-12,101
No se han asumido varianzas iguales


-2,739
23,324
,012
-48,500
17,708
-85,103
-11,897



3- Las notas obtenidas en Análisis de Datos de 5 individuos elegidos al azar del grupo T1 y de 6 individuos, elegidos también al azar, del grupo T2 son las siguientes:

T1   16  12  10  11  10
T2    10 14   12  12  8  9
¿Puede concluirse a un nivel de confianza del 95% que las puntuaciones medias de ambos grupos son iguales? o por el contrario que hay diferencia entre ambos.



Pruebas de normalidad

Grupos de personas
Kolmogorov-Smirnova
Shapiro-Wilk

Estadístico
gl
Sig.
Estadístico
gl
Sig.
analisis de dato de las grupos de persona
dimension1
T1
,288
4
.
,887
4
,369
T2
,183
6
,200*
,960
6
,820
a. Corrección de la significación de Lilliefors
*. Este es un límite inferior de la significación verdadera.


Estadísticos de grupo

Grupos de personas
N
Media
Desviación típ.
Error típ. de la media
analisis de dato de las grupos de persona
dimension1
T1
4
12,25
2,630
1,315
T2
6
11,00
2,098
,856


Prueba de muestras independientes

Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias
F
Sig.
t
gl
Sig. (bilateral)
Diferencia de medias
Error típ. de la diferencia
95% Intervalo de confianza para la diferencia
Inferior
Superior
analisis de dato de las grupos de persona
Se han asumido varianzas iguales
,069
,799
,838
8
,427
1,250
1,492
-2,191
4,691
No se han asumido varianzas iguales


,797
5,492
,459
1,250
1,569
-2,678
5,178





4.- La cámara de Comercio de cierta ciudad desea saber si el sueldo medio de laos trabajadores hoteleros es superior al de los agentes de viajes. Para investigar lo anterior, recopilaron la siguiente información muestral:
Empleados hoteleros
845
826
827
875
874
809
802
820
829
830
842
832
Agentes de viajes
841
890
821
771
859
825
829





¿Es razonable concluir que el sueldo medio semanal de los empleados hoteleros es mayor? Usar el nivel de significancia del 1%.


Pruebas de normalidad

GRUPO DE TRABAJADORES
Kolmogorov-Smirnova
Shapiro-Wilk

Estadístico
gl
Sig.
Estadístico
gl
Sig.
SUELDO DE LOS TRABAJADORES
dimension1
HOTELEROS
,207
12
,166
,908
12
,203
AGENTES
,221
7
,200*
,960
7
,818
a. Corrección de la significación de Lilliefors
*. Este es un límite inferior de la significación verdadera.



Prueba de muestras independientes

Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias
F
Sig.
t
gl
Sig. (bilateral)
Diferencia de medias
Error típ. de la diferencia
95% Intervalo de confianza para la diferencia
Inferior
Superior
SUELDO DE LOS TRABAJADORES
Se han asumido varianzas iguales
1,034
,324
,040
17
,969
,536
13,413
-27,763
28,835
No se han asumido varianzas iguales


,035
8,652
,973
,536
15,270
-34,220
35,292



5.- Para contrastar el efecto del uso de una nueva máquina sembradora, se realizaron 10 parcelas con una conocida y otras 10 con la nueva máquina. Las 20 parcelas se eligieron al azar, de a pares y en cada una del par, por sorteo se usó cada una de las máquinas.
Parcela
Rendimiento / Parcela (kg)
Máquina especial
Máquina común
1
2
3
4
5
6
7
8
9
10
8,0
8,4
8,0
6,4
8,6
7,7
7,7
5,6
5,7
6,2
5,6
7,4
7,3
6,4
7,5
6,1
6,6
6,0
5,6
5,5
Verificar si existen diferencias entre los pares con un α = 0,05


Pruebas de normalidad

GRUPO DE MAQUINAS
Kolmogorov-Smirnova
Shapiro-Wilk

Estadístico
gl
Sig.
Estadístico
gl
Sig.
EFECTO DE USO DE LAS MAQUINAS
dimension1
ESPECIAL
,260
10
,053
,877
10
,119
COMUN
,177
10
,200*
,888
10
,161
a. Corrección de la significación de Lilliefors
*. Este es un límite inferior de la significación verdadera.


Prueba de muestras independientes

Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias
F
Sig.
t
gl
Sig. (bilateral)
Diferencia de medias
Error típ. de la diferencia
95% Intervalo de confianza para la diferencia
Inferior
Superior
EFECTO DE USO DE LAS MAQUINAS
Se han asumido varianzas iguales
4,192
,056
1,909
18
,072
,830
,435
-,084
1,744
No se han asumido varianzas iguales


1,909
15,879
,075
,830
,435
-,092
1,752