Estadística secuencia 027 : junio 2017

domingo, 18 de junio de 2017

Graficos

POLÍGONO DE FRECUENCIA

Se conoce como polígonos de frecuencia para datos agrupados a aquellos que se desarrollan mediante la marca de clase que tiene coincidencia con el punto medio de las distintas columnas del histograma. En el momento de la representación de todas las frecuencias que forman parte de una tabla de datos agrupados, se genera el histograma de frecuencias acumuladas que posibilita la diagramación del polígono correspondiente.

Un polígono de frecuencia, por ejemplo, permite reflejar las temperaturas máximas promedio de una ciudad en un determinado periodo temporal. En el eje X (horizontal), deben indicarse los meses del año (enero, febrero, marzo, abril, etc.). En el eje Y (vertical), en cambio, se registran las temperaturas más altas promedio de cada mes (28º, 26º, 22º…). El polígono de frecuencia se creará al unir, mediante un segmento, las diversas temperaturas más elevadas promedio.

Los polígonos de frecuencia se suelen usar cuando se pretende retratar varias distribuciones distintas o la clasificación cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta en el mismo dibujo.

El punto de más altura de un polígono de frecuencia equivale a la mayor frecuencia, mientras que el área que se sitúa debajo de la curva incluye todos los datos que existen. Cabe recordar que la frecuencia es la repetición mayor o menor de un evento, o el número de veces que un acontecimiento periódico se reitera en una unidad temporal.

HISTOGRAMA

En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una "primera vista" general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso). De esta manera ofrece una visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la característica. Así pues, podemos evidenciar comportamientos, observar el grado de homogeneidad, acuerdo o concisión entre los valores de todas las partes que componen la población o la muestra, o, en contraposición, poder observar el grado de variabilidad, y por ende, la dispersión de todos los valores que toman las partes, también es posible no evidenciar ninguna tendencia y obtener que cada miembro de la población toma por su lado y adquiere un valor de la característica aleatoriamente sin mostrar ninguna preferencia o tendencia, entre otras cosas.

En el eje vertical se representan las frecuencias, es decir, la cantidad de población o la muestra, según sea el caso, que se ubica en un determinado valor o sub-rango de valores de la característica que toma la característica de interés, evidentemente, cuando este espectro de valores es infinito o muy grande el mismo es reducido a sólo una parte que muestre la tendencia o comportamiento de la población, en otras ocasiones este espectro es extendido para mostrar el alejamiento o ubicación de la población o la muestra analizada respecto de un valor de interés.

Se utilizan para relacionar variables cuantitativas continuas. Para variables cuantitativas discretas las barras se dibujan separadas y el gráfico se llama diagrama de frecuencias, porque la variable representada en el eje horizontal ya no representa un espectro continuo de valores, sino valores cuantitativos específicos, igual que ocurre en un diagrama de barras, usado para representar una característica cualitativa o categórica. Su utilidad se hace más evidente cuando se cuenta con un gran número de datos cuantitativos y que se han agrupado en intervalos de clase.

OJIVA

La ojiva es un polígono frecuencias acumulado, es decir, que permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo.

La ojiva apropiada para información que presente frecuencias mayores que el dato que se está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio la que se asigna a valores menores, tendrá una pendiente positiva. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas "mayor que" y las ojivas "menor que".

Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por esto la aplicación de la técnica es parcial):

Un extremo de la ojiva no se toca al eje horizontal, para la ojiva "mayor que" sucede con el extremo izquierdo; para la ojiva "menor que", con el derecho.

En el eje horizontal, en lugar de colocar las marcas de clase, se colocan las fronteras de clase. Para el caso de la ojiva "mayor que" es la frontera menor; para la ojiva menor que, la mayor.

La ojiva "mayor que" se le denomina de esta manera porque viendo el punto que está sobre el límite superior se ven las frecuencias que tienen por encima de ese límite superior. De forma análoga, en la ojiva "menor que" la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera).

Medidas de Tendencia Central (MTC)

MEDIDAS DE TENDENCIA CENTRAL

1- Media aritmética

La media aritmética es la suma de todos los datos dividida entre el número total de datos. Se calculan dependiendo de cómo vengan ordenados los datos.

2- Moda

La moda de un conjunto de datos es el dato que más veces se repite, es decir, aquel que tiene mayor frecuencia absoluta. Se denota por Mo. En caso de existir dos valores de la variable que tengan la mayor frecuencia absoluta, habría dos modas. Si no se repite ningún valor, no existe moda.

4- Rango

El rango da la idea de proximidad de los datos a la media. Se calcula restando el dato menor al dato mayor.

Este dato permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de un conjunto.

Ejemplos de los datos agrupados

A continuación veremos unas tablas de los datos agrupados al final de la entrada dejaremos un video donde se explicara mejor.

Resultado de imagen para datos agrupados ejemplos

Resultado de imagen para datos agrupados ejemplos

1.1- La frecuencia absoluta
Corresponde a la cantidad de veces que se repite un dato. Denotamos este valor por f_i.

La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.

Por Ejemplo:

Si hacemos una encuesta a 20 personas para saber cuál es su color favorito obtenemos lo siguiente:

[Tabla 1]

1.2- La Frecuencia Absoluta Acumulada
Se obtiene sumando sucesivamente las frecuencias absolutas. Denotamos este valor por F_i.

[Tabla 2]

1.3- La Frecuencia Relativa

Es la probabilidad de obtener cierto dato, se obtiene calculando la razón entre la frecuencia absoluta de un dato con el total. Se puede expresar como fracción, decimal o porcentaje. Denotamos este valor por h_i.

[Tabla3]

Para obtener el número en decimal se divide la frecuencia absoluta por el total y para obtener el porcentaje se multiplica este decimal por 100.

Los ejemplos representan una tabla de frecuencias de datos No agrupados, en el caso de las tablas de datos Agrupados representan las frecuencias en rangos de datos, como en el siguiente caso.

Se entrevistan a 28 personas que realizan un taller preguntándoles la edad que tengan:

[tabla 4]

1.4- Frecuencia relativa acumulada

La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento. Denotamos este valor por H_i

Se calcula:

F_i/N

Datos Agrupados

DATOS AGRUPADOS

Los datos agrupados son como lo indica su nombre, una cantidad dada de datos que puede clasificarse, ya sea por sus cualidades cualitativas o cuantitativas, y por tal agruparse para su análisis.

Estos datos por lo general son aconsejable agruparles cuando su población cuenta con alrededor de 20 o más elementos que comparten una característica y caben dentro de una categorización (repeticiones de un valor), pues permite un mejor manejo y análisis más profundo de los mismos. Porque al emplear este método podemos manejarlos por clases (una clase es una categoría en la que se agrupan los datos).

Por lo cual pueden organizarse o clasificarse de dos formas: datos agrupados en frecuencia o en intervalos.

Los datos agrupados en frecuencia son los que se distribuyen u organizan en una tabla de frecuencia (La frecuencia es igual al número de veces en que se repite cada valor en una serie de datos.), así, Por medio de ella, es fácil identificar la cantidad de respuestas repetidas.

Los datos agrupados por intervalos son los que se organizan dentro de un rango y se delimita su amplitud por límites establecidos. Así, por medio de esta, es fácil identificar la cantidad de elementos en un determinado rango de valores.

Concluyendo con la distinción de puntos significativos de este tema.

1.- su fin es resumir la información mediante el uso de de tablas que organizan sus elementos y agrupan sus valores para ser presentados numérica o gráficamente. Esto implica: ordenar, clasificar y expresar los en una tabla de frecuencias o intervalos.

2.- Se agrupa a los datos, si se cuenta con 20 o más elementos. Aunque contemos con más de 20 elementos, debe de verificarse que los datos n sean significativos, esto es: que la información sea “repetitiva”, también debemos de verificar que los datos puedan clasificarse. Y que dicha clasificación tiene coherencia y lógica (de acuerdo a lo que se nos está pidiendo.

DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS

La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua. Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente. Límites de la clase. Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.

La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase. La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros. En caso de que el primer intervalo sea de la forma (-∞,k], o bien [k,+∞) donde k es un número cualquiera, en el caso de (-∞,k], para calcular la marca de clase se tomará la amplitud del intervalo adyacente a el (ai+1), y la marca de clase será ((k-ai+1) +k)/2. En el caso del intervalo [k,+∞) también se tomará la amplitud del intervalo adyacente a el (ai-1) siendo la marca de clase ((k+ai-1)+k)/2.

1- INTERPRETACIÓN DE TABLAS DE FRECUENCIAS

Una tabla de frecuencias resume la información acerca de la cantidad de veces que una variable toma un valor determinado. Además permite Organizar e interpretar de manera más rápida y eficiente.

1.1- La frecuencia absoluta

Corresponde a la cantidad de veces que se repite un dato. Denotamos este valor por fi.

La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.

1.2- La Frecuencia Absoluta Acumulada

Se obtiene sumando sucesivamente las frecuencias absolutas. Denotamos este valor por Fi.

1.3- La Frecuencia Relativa

1.4- Frecuencia relativa acumulada

La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento. Denotamos este valor por Hi

Se calcula:

Fi /N

lunes, 5 de junio de 2017

Datos No Agrupados

Los datos no agrupados: son el conjunto de observaciones que se presentan en su forma original tal y como fueron recolectados, para obtener información directamente de ellos.

Cuando en la muestra que se ha tomado de la población o proceso que se desea analizar se tienen menos de 30 datos, estos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.

Las Tablas de frecuencias son herramientas de Estadística donde se colocan los datos en columnas representando los distintos valores recogidos en la muestra y las frecuencias (las veces) en que ocurren.

Tabla de frecuencia de datos no agrupados

Los datos no agrupados son las de observaciones realizadas en un estudio estadístico que se presentan en su forma original tal y como fueron recolectados, para obtener información directamente de ellos.

La Tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen los datos estadísticos sin que se haya hecho ninguna modificación al tamaño de las unidades originales. En estas distribuciones cada dato mantiene su propia identidad después que la distribución de frecuencia se ha elaborado. En estas distribuciones los valores de cada variable han sido solamente reagrupados, siguiendo un orden lógico con sus respectivas frecuencias.

La tabla de frecuencias de datos no agrupados se emplea si las variables toman un número pequeños de valores o la variable es discreta.

Los datos son los valores de la muestra recogida en el estudio estadístico

Frecuencia absoluta (ni) es el número de veces que aparece un determinado valor en un estudio estadístico. Número de veces que se repite el í-esimo valor de la variable. La suma de las frecuencias absolutas es igual al número total de datos, que se representa por n.

Frecuencia absoluta acumulada (Ni) es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado.

N1 = n1

N2 = n1 + n2 = N1 + n2

N3 = n1 + n2 + n3 = N2 + n3

Nk = n.

Se interpreta como el número de observaciones menores o iguales al í-esimo valor de la variable.

Frecuencia relativa (fi) es la proporción de veces que se repite un determinado dato.

La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos.

fi = ni/n

La suma de las frecuencias relativas es igual a 1.

Frecuencia relativa acumulada (Fi) es el número de observaciones menores o iguales al í-esimo valor de la variable pero en forma relativa.

F1 = fl

F2 = f1+ f2 = F1 + f2

F3 = f1+ f2 + f3 = F2 + f3

Fk = 1

Resultado de imagen para tabla de frecuencias para datos no agrupados

INTERPRETACIÓN:

· 1. PROCEDIMIENTO PARA DETERMINAR FRECUENCIAS DE DATOS NO AGRUPADOS:

Sea: "x" : número de hermanos

TABLA N° 01

CLASIFICACION DE ALUMNOS DE LA I.E. "SAN JOSE" DE SAN JOSE 2010, SEGÚN EL NÚMERO DE HERMANOS

FUENTE: Entrevista obtenida en clase

"x" : es la variable, número de hermanos

CONTEO DE DATOS O TABULACION: son las marcas de los datos

Tipos de frecuencias

· a) FRECUENCIA ABSOLUTA SIMPLE: (fi)

Es el número de veces que se repite dicho valor en un conjunto de datos.

f1 + f2 + f3 + … + fi = n

Ej.: 3 + 4 + 8 + 8 + 4 + 3 = 30 = n

Interpretación:

f3 : 8 alumnos han declarado tener 2 hermanos.

f5 : 4 alumnos han declarado tener 4 hermanos.

· b) FRECUENCIA ABSOLUTA ACUMULADA: (Fi)

Es la que resulta de sumar sucesivamente las frecuencias absolutas simples.

F1 = f1

F2 = f1 + f2

F3 = f1 + f2 + f3 ó F3 = F2 + f3

Fi = f1 + f2 + … + fi

Ej.: F2 = 3 + 4 = 7 F4 = 15 + 8 = 23

Interpretación:

F2 : Que 7 alumnos han declarado tener entre o y 1 hermanos.

F4 : Que 23 alumnos han declarado tener entre 0 y 3 hermanos

· c) FRECUENCIA RELATIVA SIMPLE: (hi)

Es el cociente que resulta de dividir la frecuencia absoluta entre el tamaño de la muestra (n)

Interpretación:

h3 : El 0,2667 tanto por uno de 30 alumnos, han declarado tener 2 hermanos.

h3 x 100: El 26,67% de 30 alumnos han declarado tener 2 hermanos

· d) FRECUENCIA RELATIVA ACUMULADA: (H)

Es la que resulta de acumular sucesivamente las frecuencias relativas simples.

Medidas de Tendencia Central para datos no
Agrupados

Existen tres medidas comunes para identificar el centro de un conjunto de datos: la media, mediana y moda. En cada caso, se ubican alrededor del punto en donde se aglomeran los datos.
Media: Medida de tendencia central usualmente llamada promedio, se define como la división de la suma de todos los valores entre el número de datos.

Mediana: Del conjunto de datos obtenidos es el valor que al organizar los datos en orden ascendente o descenderte a la mitad o centro de los mismos. La posición que ocupa la mediana puede ser determinada mediante la siguiente fórmula:

Mediana =X[(n/2)+1/2]

Ejemplo: Dados los siguientes 8 datos ordenados en orden ascendente: 5,8,8,11,11,11,14,16., encuentra la mediana.

Utilizando la formula para ubicar la posición del dato que representa la mediana indica que:

Mediana =(8/2)+1/2 = 4.5

Por lo que la mediana esta ubicada entre el dato 4 y 5; el valor del dato 4 es “ 11” y del dato 5 es “ 11”, por lo que al sacar el promedio, da que la mediana de la muestra estudiada es 11.

Moda: Es el dato que ocurre con mayor frecuencia en un conjunto de elementos estudiados. Del ejemplo anterior donde los datos recopilados son: 5,8,8,11,11,11,14,16; el dato que ocurre con mayor frecuencia es el valor 1, siendo este valor la moda.
Media ponderada: es una media aritmética, en la cual se considera a cada uno de los valores de acuerdo con su importancia en el grupo.

Mediana Ponderada

En donde:

X = Observación individual
Q= el peso o ponderación asignada a cada observación

Datos y variables estadisticos

Puede decirse que los datos son los valores que adoptan las variables en cada caso particular, las variables no son más que aquello que estudiamos en cada individuo de la muestra, como por ejemplo: estatura, edad, sexo, peso, antigüedad en el puesto, etc. Ya habiendo definido dato y variable, se pueden clasificar en dos grandes tipos según lo que se observe en ellos:

Cuantitativos: que se pueden expresar de forma numérica, los cuales a su vez pueden ser de dos tipos: discretos: los cuales producen respuestas numéricas, pero en números enteros, generalmente producto de un conteo, no pueden tener valores intermedios en un rango, por ejemplo: número de empleados o número de puestos que ha ocupado una persona en una compañía, los cuales no pueden ser 450.3 empleados o 3 puestos y medio. El otro tipo cuantitativo es el continuo: que si puede adoptar cualquier valor numérico intermedio en un rango, generalmente producto de una medición, por ejemplo: edad de los empleados o sueldo de los ejecutivos, que puede ser medido de manera precisa, como una edad de 38 años, 6 meses y 18 días o un sueldo de Q. 4,529.33.

Cuantitativas discretas: cuando se toman valores aislados. Por ejemplo: número de amigos de tu pandilla, número de veces que vas al cine al mes, número de coches que tiene tu familia.

Cuantitativas continuas: cuando, entre dos valores cualesquiera, puede haber valores intermedios. Es decir, se toman todos los valores de un determinado intervalo. Por ejemplo: peso de las personas, nivel sobre el mar en que se encuentra tu ciudad, medida del perímetro torácico.

Cualitativos: También denominados como categóricos por algunos autores, ya que clasifican cada caso en una o varias categorías, como por ejemplo: Como le parece la comida de la cafetería de la empresa? Que puede tener varias categorías tales como: buena, regular y mala. En este grupo se encuentran aquellos que producen respuestas con solo dos opciones probables como por ejemplo: Tiene usted empleo actualmente? que solo admite sí o no.

Variable cualitativa ordinal o variable casi cuantitativa: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, fuerte.

Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden, como por ejemplo los colores.

Anexaremos un vídeo donde nos explicaran mejor