martes, 12 de febrero de 2013
ESTADÍSTICA DESCRIPTIVA
CUANTILES
Los cuantiles son valores
de la distribución que la dividen en partes iguales, es decir, en intervalos,
que comprenden el mismo número de valores. Los más usados son los cuartiles,
los deciles y los percentiles.
*CUARTILES: son los tres valores que dividen al conjunto de datos
ordenados en cuatro partes iguales, son un caso particular de los percentiles:
Q1 primer cuartil o cuartil
inferior: hay un cuarto de los datos menores que él, dicho de otro modo el 25%
de los datos son menores. Coincide con P25.
Q2 segundo cuartil o cuartil
intermedio: el 50% de los datos son menores que él. Coincide con la mediana, D5 y P50.
Q3 tercer cuartil o cuartil
superior: deja el 75% de los datos de debajo. Coincide con P75.
*DECILES: son los nueve valores que dividen al conjunto de datos
ordenados en diez partes iguales, son también un caso particular de los
percentiles.
*PERCENTILES: Son 99 valores que dividen en cien partes iguales el
conjunto de datos ordenados. Ejemplo, el percentil de orden 15 deja por
debajo al 15% de las observaciones, y por encima queda el 85%
GRAFICOS
En
términos generales, la palabra gráfica refiere a la escritura o la imprenta y
todo lo relativo a ellas.
Pero
también, por gráfica, se entiende a la representación de datos, casi siempre
numéricos, aunque también pueden ser figuras o signos, a través de líneas
superficies o símbolos para determinar la relación que estos mantienen entre
sí.
En
tanto, puede darse que sea un conjunto de puntos, los cuales se plasmarán en
coordenadas cartesianas y que servirán para analizar el comportamiento de un
proceso determinado o bien un conjunto de signos o elementos que nos permitan
descifrar o interpretar algún fenómeno, entre otras cuestiones.
Nos podremos
encontrar con diferentes tipos de gráficas, entre las más comunes y corrientes
se cuentan: las numéricas, usadas para representar el comportamiento o la
distribución de los datos cuantitativos de una población. Este tipo de gráfica
se manifiesta a través de imágenes visuales. Por su lado, las lineales,
representarán los valores en dos ejes cartesianos ortogonales entre sí. Más que
nada este tipo de gráfica se recomienda a la hora de tener que representar
series a través del tiempo, porque permite mostrar valores máximos y mínimos de
una cuestión.
Otro
tipo son las gráficas de barras, que se usarán cuando se quiera resaltar la
representación de porcentajes que remiten a un total. Las barras lo que
permiten es la representación de frecuencias y pueden diagramarse en sentido
horizontal o vertical, generalmente, para representar las gráficas de barras se
usan las llamadas hojas de cálculo.
Luego
están las gráficas circulares que permitirán observar aquellas distribuciones
internas de datos que representan un hecho, también en forma de porcentajes
sobre un total. De acuerdo al interés de lo que se quiera destacar, lo que se
hace es separar el sector correspondiente al mayor o al menor valor. Y
finalmente, los histogramas, otro tipo de gráficas muy comunes, que se usarán
cuando se quiera representar muestras agrupadas en intervalos. Se forma por
rectángulos unidos unos a otros, cuyos vértices de la base deberán coincidir
con los límites de los intervalos.
Por
otra parte, también se usa la palabra gráfica para referir cuando en una
determinada situación se quiere dar cuenta que alguien se expresa con muchísima
claridad, casi con la misma que ostenta un dibujo.
CAJAS Y ALAMBRES
Los gráficos de cajas y alambres suministran
información sobre la distribución de una variable y la existencia de valores
que por encontrarse muy alejados de la mayoría de los datos son considerados
atípicos o extremos.
La lectura de este tipo de gráficos es vertical,
siendo el ancho de las cajas arbitrario. Cada caja (de color rojo en la Figura No. A.1) se encuentra definida por tres
líneas horizontales que corresponden a los percentiles
25, 50 y 75 de la serie de datos. El número que identifica cada percentil
denota el porcentaje de datos de la serie que se encuentra por debajo de dicho valor.
Así por ejemplo, el percentil 25 corresponde al valor por debajo del cual se
encuentra el 25% de los datos de la serie completa. La caja, por tanto, indica
el rango de valores en el que se encuentran el 50% de los datos. A este rango,
comprendido entre los percentiles 25 y 75, se le denomina Rango Intercuartílico
(RIC).
Los alambres son las líneas verticales que se
desprenden del extremo superior e inferior de la caja, y se extienden siempre
hasta el valor más alejado del percentil 25 ó 75 (sea el caso) pero a menos de
1.5 veces el RIC del percentil correspondiente. Cuando los valores mínimo y
máximo de la serie no se encuentren a más de 1.5 veces el RIC de los
percentiles 25 y 75 respectivamente, entonces los valores extremos de los
alambres serán iguales a los valores mínimo y máximo de la serie.
Finalmente, los diagramas de cajas y alambres también
indican los valores atípicos y extremos de la serie. Los valores atípicos son
indicados con círculos y son definidos como aquellos datos que se encuentran
entre 1.5 y 3.0 veces el RIC por debajo o por encima de los percentiles 25 ó 75, respectivamente. A su vez, son considerados como
datos extremos todos aquellos que se encuentren a
más de 3.0 veces el RIC de los percentiles 25 ó 75. Los datos extremos son representados por cruces en el gráfico
DIAGRAMA DE PARETO
El diagrama de Pareto, también llamado curva 80-20 o Distribución C-A-B, es una gráfica para organizar datos de forma
que estos queden en orden descendente, de izquierda a derecha y separados por
barras. Permite, pues, asignar un orden de prioridades.
El diagrama permite mostrar gráficamente el principio
de Pareto (pocos vitales,
muchos triviales), es decir, que hay muchos problemas sin importancia frente a
unos pocos graves. Mediante la gráfica colocamos los "pocos vitales"
a la izquierda y los "muchos triviales" a la derecha.
El diagrama facilita el estudio de las fallas en
las industrias o empresas comerciales, así como fenómenos sociales o naturales
psicosomáticos, como se puede ver en el ejemplo de la gráfica al principio del
artículo.
Hay que tener en cuenta que tanto la distribución
de los efectos como sus posibles causas no es un proceso lineal sino que el 20%
de las causas totales hace que sean originados el 80% de los efectos.
El principal uso que tiene el elaborar este tipo de
diagrama es para poder establecer un orden de prioridades en la toma
de decisiones dentro de una
organización. Evaluar todas las fallas, saber si se pueden resolver o mejor
evitarlas.
USO DE
SOFTWARE
El aprendizaje es una
actividad cotidiana. Aprendemos a través de experiencias, el estudio y la
práctica. La tecnología es un medio eficaz que ayuda a las personas a aprender.
Existen abundante software comercial para entrenar a las personas en el uso de
herramientas comunes, tales como las hojas de cálculo o el correo electrónico,
pero existen actividades más complejas que requieren conocimientos previos.
Tanto individuos como
organizaciones enfrentan frecuentemente el reto de actualizar y adquirir nuevo
conocimiento. La enseñanza, con medios tradicionales, genera buenos resultados.
Proponemos que el uso de tecnología puede mejorar dichos resultados. En temas
complejos creemos que un software especialmente diseñado, puede ser una mejor
opción que con el uso de medios tradicionales.
Es importante que el
desarrollo de un software para la enseñanza tenga calidad para que cumpla con
su objetivo. Los usuarios perciben la calidad del software de distintas
maneras. La percepción de los usuarios tiene que ver con el concepto de
usabilidad. Cabe mencionar que la usabilidad es solo un factor en el desarrollo
de software. Se realizó un experimento con dos grupos: uno usando el software
especial y otro utilizando medios tradicionales de enseñanza. Se observó que se
obtuvieron mejores resultados en el aprendizaje con el uso del software que a
través de medios tradicionales. El desarrollo de software puede hacerse
usando distintas metodologías. Es por eso que es importante adoptar y usar
estándares y métodos que permitan asegurar la calidad. Los sistemas con
interfaces graficas son una buena forma de prevenir errores de los usuarios.
Además, una buena interface, entre otros factores, mejora la calidad del
software.
martes, 5 de febrero de 2013
lunes, 4 de febrero de 2013
ESTADÍSTICA DESCRIPTIVA
1.1 Población
de muestra aleatoria
En estadística se denomina población al mundo ideal que se
quiere conocer o estudiar. Las poblaciones suelen ser muy extensas y es
imposible observar a cada componente, por ello se trabaja con muestras o
subconjuntos de esa población. Por eso podemos definir como muestra a una parte
o subconjunto de una población.
Una muestra aleatoria de tamaño n es un conjunto de n individuos
tomado de tal manera que cada subconjunto de tamaños n de la población tenga la misma probabilidad de ser elegidos como
muestra.
Una población en estadística es el conjunto de todas las observaciones en las que estamos
interesados, es el conjunto de todos los procesos susceptibles de aparecer en
un problema y que interesan a la persona que hace el estudio. Se llama tamaño
de la población al número de individuos que la componen, siendo cada posible
observación un individuo, así las poblaciones pueden ser finitas e infinitas.
Cuando es proceso de extracción es tal que garantiza a cada
uno de los elementos de la población la misma oportunidad de ser incluidos en
dicha muestra, se denomina el proceso de selección muestreo aleatorio.
El muestreo aleatorio se puede plantear como Sin reposición
y Con reposición.
1.2 Obtención
de datos estadísticos
La estadística estudia métodos científicos para recoger,
organizar, resumir y analizar datos, así como para sacar conclusiones validad y
tomar decisiones razonables basadas en tal análisis.
Algunos van desde la elaboración de encuestas entrevistas,
censos. Si queremos realizar un estudio estadístico sobre la cantidad de
alumnos que reprueban el primer semestre del TEC y las causas del porque
reprueban. Primero que nada tenemos que buscar en los registros las
calificaciones de cada uno de los alumnos y así obtendríamos nuestra población
que sería todos los alumnos del primer semestre, después calificamos a cada uno
de los alumnos aprobados y reprobados, según su calificación.
Ya que dividimos los alumnos aprobados de los reprobados,
hacemos una encuesta y entrevista a los alumnos reprobados para que nos den los
motivos del porque de la reprobación, pero como la cantidad de alumnos en el
TEC es muy grande, lo que se hace en este caso es seleccionar dos o tres
alumnos de cada especialidad que haya reprobado para encuestarlos o
entrevistarlos.
Para finalizar las encuestas se analizan y se grafican las
calificaciones y los motivos de reprobación.
1.3 Medidas
de tendencia central
Son valores que tienden a situarse en el centro del conjunto
de datos ordenados según su magnitud.
Las medidas de centralización mas empleadas son la media
aritmética o media, la media, la moda, la media geométrica, la media armónica y
la media cuadrática. La aplicación de una u otra medida de centralización
depende de los resultados que interese extraer a partir de los datos.
La media aritmética o
media
La media aritmética presenta, entre otras, la suma
algebraica de las desviaciones de un conjunto de números respecto de su medida
(media) aritmética es cero.
Mediana
La mediana de una seria de datos ordenados en orden de
magnitud es el valor medio de el numero de datos es impar o bien la media
aritmética de los valores medios si el numero de los datos es par.
Moda
La moda de una serie de números es el valor que se presenta
con mayor frecuencia.
La moda puede no ser única e incluso puede no existir.
Media Geométrica
La media geométrica G de una serie de números X1, X2, X3……Xn es la raíz enésima
del producto de dichos números.
Media Armónica
La media armónica H de una serie de n números X1˙X2˙X3…Xn
Media Cuadrática
La media cuadrática de una serie de n números X1, X2, X3…Xn
1.4 Medidas
de dispersión
Las medidas
de dispersión nos informan sobre cuánto se alejan del centro los valores de la
distribución.
Indican por medio de un número, si las diferentes
puntuaciones de una variable están muy alejadas de la mediana media. Cuanto
mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más
homogénea será a la mediana media así se sabe si todas las cosas son parecidas
o varían mucho entre ellos.
Rango o recorrido
El rango es
la diferencia entre
el mayor y el menor de los datos de una distribución
estadística.
Desviación media
La desviación
respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética.
Di = x
– x
La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media. La desviación media se representa
por
Varianza
Desviación típica
La desviación
típica es la raíz
cuadrada de la varianza.
Es decir, la raíz cuadrada de la media de los
cuadrados de las puntuaciones de desviación. La desviación típica se representa por σ.
1.5 Tabla de
distribución de frecuencias
Las tablas de distribución de frecuencias se utilizan cuando
se recolectan datos, con ellas se pueden representar los datos de manera que es
más fácil analizarlos.
Se pueden elaborar tablas de distribución de frecuencias
para datos no agrupados y para datos agrupados. Estas últimas se utiliza cuando
tienen muchos datos.
Para elaborar tablas de distribuciones de frecuencia se deje
tener en cuenta que cuando hay muchos datos se agrupan en clases.
Clase es cada uno de los grupos en que se dividen los datos.
Para determinar cuántas clases crear, se puede utilizar la siguiente fórmula:
Numero de clases= 1+3.222 log n
Donde n es el número total de datos.
El intervalo de la clase o el ancho de la clase (tamaño de
la clase) es el espacio que hay entre el límite superior y límite inferior de
la clase, los cuales corresponden a los valores extremos de la clase.
La frecuencia absoluta es el número de veces que se repite
cada dato. Cuando se agrupan los datos
que tiene cada clase. Se simboliza con Fj.
La marca de clase es el punto medio de la clase. Se obtiene
dividiendo entre dos la suma de los valores extremos de cada clase.
El rango es la diferencia entre el valor mayor y el valor
menor en estudio de una distribución de datos.
La frecuencia absoluta acumulada es la frecuencia total hasta el limite superior de cada clase.
La frecuencia relativa de un dato da información sobre que
parte de la población o se la muestra en estudio corresponde a la característica
analizada. Se obtiene dividiendo la frecuencia absoluta entre el número total
de datos y se puede expresar como una fracción, como un decimal o como un
porcentaje.
La frecuencia acumulada relativa es la frecuencia relativa
total hata el límite superior de cada clase.
Suscribirse a:
Entradas (Atom)