popup

creador de Popup, Esto solo se inserta : En Blogger: agergas un HTML y pegas este contenido en Wordpress: agregas un widget y pegas el contenido
x
AYUDANOS CON UN CLIK ABAJO ↓↓↓

miércoles, 23 de marzo de 2011

Distribución de frecuencias

¿Intervalos con criterio de Sturges?

HOla como podría crear una tabla de distribución de frecuencias con el criterio de Sturges: donde el valor mínimo es: 23 y el máximo: 35 .Los datos son 30

Mejor respuesta - Elegida por la comunidad

Sturges --> k=1+3.322*log n




k=1+3.322*log 30 = 5.907 --> aprox --> k=6 categorias




El rango es




R=max - min =35-23 = 12




La amplitud es el rango entre las categorias




amplitud = 12/6 = 2




Lo intervalos serian




23 , 23+2 = 25 y asi sucesivamente sumando 2




[23,25)
[25,27)
[27,29)
[29,31)
[31,33)
[33,35]



Tablas Univariadas.
Intervalos y Frecuencia.
La construcción de tablas es uno de los procesos más comunes en estadística descriptiva. Como se ha dicho en párrafos anteriores, cuando los datos están medidos en una escala numérica continua, la construcción de tablas para presentar su información, se hace mediante la partición del recorrido de los valores de la muestra en una serie no muy grande de intervalos. Para confeccionar la tabla, se comienza fijando el número total de intervalos contiguos y el ancho de cada uno de ellos. La tabla se construye de modo que los intervalos que la componen, sean semi-abiertos por la derecha. De este modo, el límite inferior pertenece al intervalo, pero el superior no.
Usando notación matemática, se puede decir que si el límite inferior es a y el superior b (a<b), entonces el intervalo semi-abierto por la derecha se escribe [a,b[.
Esto significa que el número x pertenece a [a,b[ si y sólo si a <= x < b.
Para ilustrar lo anterior, se hará una tabla con las estaturas de las personas de género femenino en Tabla 1 mostrada en la sección 'Tabligrama'. Se elige como primer intervalo a [150,155[, seguido de [155,160[, de [160,165[, etc. Estos intervalos se escriben uno bajo el otro y a su derecha se pone la frecuencia con que aparecen datos en él. Por lo tanto, se tiene




   INTERVALOFRECUENCIA
   150 - 1551
   155 - 16011
   160 - 16513
   165 - 1706
   170 - 1754

La tabla anterior resume la información original, de modo que se dispone de una visión global en la que cada dato sólo es representado por su pertenencia a un y sólo un intervalo. Esta pertenencia queda reflejada en las frecuencias correspondientes.
Marcas de Clase.
La presentación tabulada, tiene la ventaja de resumir, a un tamaño fácilmente observable, incluso a grandes conjuntos de datos. Sin embargo, al no disponer de los datos originales, hay que buscar un sustituto de éstos que permita calcular estadísticas de interés. El sustituto que se usa se denomina 'marca de clase' y es el punto medio de cada intervalo de la tabla. En los cálculos realizados bajo estas condiciones, cada dato en un intervalo, es reemplazado por la marca de clase correspondiente. En la tabla siguiente se indica la tabulación original seguida de otras columnas donde aparecen sucesivamente la marca de clase mi, la frecuencia acumulada F.AC., la frecuencia relativa F. REL. y la frecuencia relativa acumulada FR.AC. Estas últimas se calculan dividiendo la frecuencia y la frecuencia acumulada, por el tamaño de la muestra.




INTERVALOFREC.miF.ACUM.F.RELAT.F.R.ACUM. 
150 - 1551152.5  10. 028570.02857 
155 - 16011157.5120.314260.34286 
160 - 16513162.5250.371430.71429 
165 - 1706167.5310.171430.88571 
170 - 1754172.5350.114291.0000 

A modo de ejemplo, veamos el segundo intervalo. Está compuesto por los números pertenecientes a [155, 160[. La frecuencia observada para este intervalo, es 11. La marca de clase es el promedio entre los extremos 155 y 160, es decir 157.5.
En los cálculos estadísticos, cada uno de los 11 datos pertenecientes al intervalo, será reemplazado por 157.5
Cálculos con Datos Tabulados.
Cada vez que se usa valores tabulados para calcular estadísticas, éstas difieren de los que obtendríamos con los datos originales. Sin embargo, esta discrepancia es reducida y, habitualmente, no invalida los resultados porque al elegir la marca de clase como el punto central de cada intervalo, algunas veces éste será menor y otras mayor que las observaciones que representa. En consecuencia, las diferencias tienden a compensarse. Por otra parte se debe tener presente que al trabajar con datos de una muestra sólo se tiene información incompleta para representar a toda la población. Es más, si se extrae otra muestra, ésta sería diferente de la primera y los valores calculados en diversas estadísticas serían distintos. En consecuencia, no se debe perder de vista este importante hecho al momento de usar e interpretar instrumentos de cálculo estadístico que, por su naturaleza, siempre estarán contaminados por errores provenientes de diversas fuentes.
Resumiendo lo anterior, si se parte del hecho que los datos usados para el trabajo estadístico son cambiantes de muestra a muestra, no debiese preocupar mucho la presencia de pequeñas discrepancias motivadas por la representación de datos mediante marcas de clases.
Lo anterior es característico del trabajo estadístico, por lo que no es prudente aferrarse a mecanismos rígidos de análisis cuando la base sobre la que se apoyan está sujeta a variaciones inevitables. Es necesario aprender a extraer lo medular de una información y no enredarse en los detalles.
Ejemplo.
Suponga que interesa calcular la suma de las estaturas de la Tabla 1 de la sección 'Tabligrama', a partir de la tabulación hecha anteriormente.









   INTERVALO   FREC   mi   fimi
150 - 1551152.5   152.5
2155 - 16011157.5   1732.5
3160 - 16513162.5   2112.5
4165 - 1706167.5   1005.0
5170 - 1754172.5   690.0 
Para esta suma se usa la marca de clase como el valor de cada observación en el intervalo que, multiplicado por la frecuencia, nos da la suma parcial. La suma de éstas es 5692.5. Si se suma los datos originales, se obtiene 5667. La diferencia de 25.5 es sólo un 0.45% del valor original.
Cálculo del promedio con datos agrupados. 
El cálculo del promedio, cuando sólo se dispone de datos agrupados, sigue el patrón usado en el ejemplo anterior. Como se vió, la suma de los datos, 5692.5, se obtuvo usando las marcas de clase. Asimismo, el número total de datos se calcula al sumar las frecuencias de cada intervalo. En este caso se tiene 1+11+13+6+4 = 35. 
Por lo tanto el promedio está dado por el cuociente  
5692.5/35 = 162.64286
Determinación de los intervalos.
Las dos tablas siguientes representan las notas en la escala de 1 a 7, de la Primera Prueba de Cátedra de 15 alumnos de un curso de Estadística en Primer Año de Universidad. La primera tabla se hizo según un mecanismo automático y la otra de acuerdo a la división ‘natural’ del recorrido de las notas
Existen varias reglas automáticas para determinar el número de intervalos a usar en la construcción de una tabla. 
Existen varias reglas automáticas para determinar el número de intervalos a usar en la construcción de una tabla. Los programas estadísticos de uso habitual, las usan a menudo en su configuración estándar, aunque también permiten que el usuario decida por su cuenta las características de los intervalos que desea usar.
Una de las reglas más conocidas fue propuesta por Herbert Sturges y calcula el número k de intervalos mediante la expresión
k = 1 + log2(n) = 1 + 3.322 * log(n)
donde n es el tamaño de la muestra.

Al aplicar la Regla Sturges con n = 15, se obtiene un total de 5 intervalos. Su aplicación ‘automática’ entrega la siguiente tabla:









Notas   Nº de alumnos
1.8 – 2.83
2.8 – 3.8 3
3.8 – 4.82
4.8 – 5.84
5.8 – 6.8
TOTAL15
Si, por otra parte, se analiza los datos según el punto de vista del usuario, resulta mejor construir esta otra tabla









Notas   Nº de alumnos
1.0 – 2.01
2.0 – 3.02
3.0 – 4.04
4.0 – 5.03
5.0 - 6 .03
6.0- 7.02
TOTAL15 
Al comparar las tablas anteriores, se puede ver que la segunda puede ser interpretada en forma mucho más útil. En particular, porque la nota cuatro tiene un sentido especial dentro del sistema de calificaciones, ya que es la menor nota de aprobación.Es claro entonces que, en este caso, un resumen estadístico debe permitir determinar el número de aprobados y reprobados en un examen.
Como conclusión de lo anterior, se debe resaltar que, en general, es conveniente usar una tabulación que respete las características de la información representada. Aquí, como en todo caso en que se aplica métodos estadísticos, se debe poner especial cuidado en el ‘buen criterio’ de quien analiza datos para extraer su información relevante.

DISTRIBUCIONES DE FRECUENCIAS


0 comentarios