Una unidad de observación
es aquélla sobre la cual se efectúan las mediciones u observaciones. La unidad
de observación puede ser una persona, una familia, una planta, una parcela,
etc. De aquí se obtienen los datos, un dato
es el valor que se obtiene de la medición, observación o conteo efectuado en la
unidad de observación o unidad de muestreo.
Ejemplo:
Si el objetivo de una
investigación es el rendimiento de los alumnos, la unidad de observación es el alumno.
El número de materias rendidas contadas en
un alumno es el dato.
El conjunto de datos
obtenidos de cada unidad de observación constituirá la base para el análisis
estadístico del rendimiento de los alumnos de una escuela X.
Los datos se corresponden a variables, la cual es cualquier característica que varía de una unidad
de muestreo a otra en la población o en la muestra.
Las variables se pueden clasificar de acuerdo al siguiente
esquema:
Los datos son información que se recoge, esto puede ser
opinión de las personas sobre un tema, edad o sexo de encuestados, dónde viven,
cuántas personas viven en una casa, qué tipo de sangre tiene un grupo de
personas, etc.
Una vez que se haya recogido toda la información, se procede
a crear una base de datos, donde se registran todos los datos obtenidos.
Algunas veces, si los datos son muy complicados, se
codifican, esto quiere decir que se le coloca una palabra clave que identifica
un título muy largo. Cuando ya está elaborada la base de datos se parece a una
tabla.
Es importante recordar
que nunca se colocan las tablas y las gráficas juntos, porque en realidad dicen
lo mismo, corrientemente se utiliza o una tabla y su análisis, o una gráfica y
su análisis.
Cuando la masa de datos obtenidos es muy grande y éstos
están desordenados, no dan información alguna; conviene por lo tanto ordenarlos
y tabularlos, haciendo uso de tablas estadísticas, que deben confeccionarse de
tal modo que los datos resulten fáciles de ser leídos e interpretados. Con los
datos es necesario construir una tabla de frecuencias.
Una tabla de
frecuencias, también llamada distribución de frecuencias es una tabla que
asocia cada categoría de la variable con el número de veces que se repite la
categoría.
Ejemplo de ordenación de datos:
Supóngase que se ha preguntado a un conjunto de n personas: ¿qué opinión tienen acerca de
la instalación de playas en la Ciudad de México en que el Gobierno del Distrito
Federal ha hecho a partir de 2007? Las n
respuestas se encuentran en una escala que va de 1 a 9, donde 1 representa un total
desacuerdo con la medida mientras que 9 quiere significar un acuerdo total. El
resultado de la medición es el siguiente:
Si se plantean las siguientes preguntas:
·
¿Cuántas personas fueron encuestadas?
·
¿Cuál fue la respuesta más frecuente?
·
¿Cuántas personas tienen, como máximo, una
actitud de cuatro puntos en la escala? (es decir, ¿cuántas personas se
encuentran en desacuerdo con la medida?)
Es difícil responder a las tres cuestiones. ¿Cuál es el
problema?
Las personas tienen dificultades para procesar o tener en
cuenta mucha información de forma simultánea. La tabla 1 muestra demasiados
datos y es preciso contar con mucha paciencia y una buena vista para responder
a las preguntas anteriores con seguridad.
Una solución a este problema es organizar los datos en una
disposición que facilite la lectura. Por tanto, el siguiente paso es ordenar
los datos de manera que se dispongan los datos ordenados desde el valor más
pequeño hasta el valor mayor.
Si esta tabla se agrupa únicamente representando el valor y
su frecuencia con la que aparece (es decir, las veces que se repite cada valor)
podemos observar una tabla mucho más fácil de interpretar:
Aún se puede disponer la información de tal forma que
resulte fácil responder a preguntas que se han planteado. En la tabla 3 se ha
mantenido la misma disposición que en la tabla 2. Esto es innecesario. Para disponer
la información de manera óptima, se genera una tabla que tenga dos columnas. En
la columna primera se presentarán los valores, que se representa con la letra x mientras que en la segunda columna se
dispondrán las frecuencias, que se representa con la letra f, con esto se obtiene una tabla
de frecuencias:
Ahora sí, la tabla de frecuencias permite responder a las
preguntas planteadas con facilidad:
¿Cuántas personas fueron encuestadas? Solución: 150
¿Cuál fue la respuesta más frecuente? Solución: 5 (40 datos)
¿Cuántas personas tienen, como máximo, una actitud de cuatro
puntos en la escala? Solución: 59 (6+11+12+30)
Acumulación de
frecuencias
No todas las preguntas que se han realizado sobre el mismo
conjunto de datos han exigido el mismo esfuerzo. Así, mientras que las
preguntas sobre el número de datos y el valor más frecuente se han respondido
con una lectura de la tabla, la tercera pregunta ha necesitado de algunas operaciones:
¿Cuántas personas tienen, como máximo, una actitud de cuatro
puntos en la escala? Solución: 59 (6+11+12+30). Para responder a esa pregunta
se ha tenido que realizar una suma: la de todas las frecuencias comprendidas
entre el primer valor de la tabla y el valor que interesa, ambos inclusive.
Esta cantidad final recibe el nombre de frecuencia acumulada.
Muchas interrogantes
requieren respuestas que se basan en las frecuencias acumuladas. Es recomendable
escribir esta nueva información en la tabla, de tal forma que permita
respuestas directas en el futuro. Véase el resultado:
Nota: la
acumulación de frecuencias sólo procede si los valores de la variable que se
está estudiando se pueden ordenar, es decir son variables ordinales, pero
tratándose de variables nominales, como por ejemplo la siguiente tabla:
Con estos datos no tendría ningún caso acumular frecuencias,
ya que estas respuestas no representan ningún valor jerárquico de ordenamiento.
Frecuencia absoluta
Es el número de veces que se repite cada categoría de la variable. Se la simboliza con fi.
En el siguiente ejemplo:
En el año 2004, se examinan 30 alumnos de un curso de biología de la escuela San Francisco y se anota su estado de salud, los resultados obtenidos son:
S, S, E, E, E, S, S, E, S, S, S, S, S, E, S, S, S, S, E, S, S, S, S, S, S, S, S, S, S, S.
Los resultados se agrupan en la siguiente tabla:
i = número de categorías observadas, en este caso es 2.
xi= Categorías (x1=Sano y x2= Enfermo) en las que se pueden agrupar las respuestas para la variable Estado de Salud.
fi= frecuencia de aparición de cada categoría (f1=24 y f2=6)
La suma de frecuencias absolutas es igual al número total de observaciones, en este caso 30, se representa de la siguiente manera:
Con esta tabla de frecuencias absolutas se puede crear la siguiente gráfica de barras:
Frecuencia relativa
Frecuencia relativa de una categoría es la proporción de veces que ocurre dicha categoría.
Se obtiene dividiendo la frecuencia absoluta de cada categoría entre la suma de las frecuencias de todas las categorías. La suma en éste caso es f1 + f2 = 24 + 6 = 30, y se expresa literalmente mediante el signo
que se denomina sumatoria, así
a la frecuencia relativa de la clase i-ésima se la simboliza con fri y se la calcula de la siguiente manera:
en donde:
fi= frecuencia observada de la categoría (p.e. 24)
La suma de las frecuencias relativas es siempre igual a 1.
Si se multiplica las frecuencias relativas por 100 se obtienen porcent ajes. En éste ejemplo sería:
Se pueden presentar estos datos en un gráfico de barras o en un gráfico de pastel
Webgrafía:
- Becerra Espinoza, J. Matemáticas Básicas. Estadística descriptiva (1st ed.). Facultad de contaduría y administración. UNAM. Retrieved from http://132.248.164.227/publicaciones/docs/apuntes_matematicas/34.%20Estadistica%20Descriptiva.pdf
- del Valle Pece, M., Juárez de Galíndez, M., & Mercedes Simonetti, M. Espacio curricular. Metodología y estadística aplicada a la educación (1st ed.). Escuela para la Innovación Educativa. Retrieved from http://es.slideshare.net/fatima_79/7-metodologia-y-estadistica-aplicada-a-la-educacion