Introducción a la estadística descriptiva
La estadística descriptiva es la rama de la estadística que se encarga de resumir, organizar y presentar los datos de forma clara y comprensible. Antes de aplicar técnicas inferenciales, es fundamental dominar conceptos básicos como población, muestra, tipos de variables y medidas de tendencia central. En este curso encontrarás explicaciones detalladas, ejemplos prácticos y trucos mnemotécnicos que facilitan la retención de cada tema.
Población y muestra: conceptos esenciales
¿Qué es una población?
Una población incluye a todos los individuos, objetos o eventos que cumplen con un criterio de estudio. Puede ser finita (por ejemplo, los estudiantes de una universidad) o infinita (como todas las posibles mediciones de temperatura en una ciudad).
¿Qué es una muestra?
Una muestra es un subconjunto representativo extraído de la población. Su objetivo es permitir inferencias sobre la población sin necesidad de observar cada elemento.
- Ventaja: reduce costos y tiempo.
- Desventaja: introduce incertidumbre que debe cuantificarse.
Consejo práctico: imagina una caja llena de lápices (población). Si sacas unos pocos lápices para probar su color, esos son tu muestra.
Variables continuas: definición y características
Una variable continua puede tomar cualquier valor real dentro de un intervalo determinado. A diferencia de las variables discretas, no están limitadas a valores enteros ni a categorías.
- Ejemplo típico: la altura de una persona (150 cm – 200 cm).
- Representación gráfica: curvas de densidad o histogramas con barras adyacentes.
- Aplicaciones: mediciones físicas, tiempos, pesos.
Mnemotécnico: “C‑R‑I” – Continua, Real, Infinita.
Marca de clase en distribuciones agrupadas
En una tabla de frecuencias agrupadas, la marca de clase es el punto medio del intervalo de cada clase. Se calcula sumando el límite inferior y el límite superior y dividiendo entre dos.
Fórmula: Marca = (Límite inferior + Límite superior) / 2
- Sirve como valor representativo de todos los datos que caen dentro de esa clase.
- Facilita el cálculo de medidas como la media y la varianza cuando los datos están agrupados.
Truco visual: imagina una regla que corta la barra de la clase exactamente a la mitad; ese punto es la marca.
Mediana: cómo localizar el valor central
La mediana es el valor que divide al conjunto de datos ordenado en dos partes iguales. Su cálculo depende del número de observaciones (n):
- Si n es impar, la posición es (n + 1)/2.
- Si n es par, la mediana es el promedio de los dos valores centrales.
Ejemplo: para los valores 19, 20, 21, 22 y 25 (n = 5), la posición central es 3, por lo que la mediana es 21.
Recordatorio: "Mediana = medio del medio".
Cálculo de la varianza de una muestra
La varianza mide la dispersión de los datos respecto a su media. El proceso incluye los siguientes pasos:
- Calcular la media aritmética \(\bar{x}\) de la muestra.
- Restar la media a cada observación y obtener la diferencia.
- Elevar cada diferencia al cuadrado ("cuadrar la diferencia").
- Sumar todos los cuadrados obtenidos.
- Dividir la suma entre n‑1 (corrección de Bessel) para obtener la varianza muestral.
Fórmula abreviada: s² = Σ(xᵢ − \bar{x})² / (n − 1)
Mnemotécnico: “DIF‑al‑CUAD‑Suma‑÷‑n”.
Regla de Sturges para determinar el número de clases
Una de las reglas más usadas para decidir cuántas clases (intervalos) debe contener una tabla de frecuencias es la regla de Sturges. La fórmula es:
K = 1 + 3.322 · log₁₀(N), donde K es el número de clases y N el tamaño total de la muestra.
Esta regla se basa en la idea de que, a medida que aumenta el número de observaciones, también debe incrementarse el número de intervalos para mantener una representación adecuada de la distribución.
Ejemplo rápido: Si N = 100, entonces K ≈ 1 + 3.322·2 = 7.64, redondeando a 8 clases.
Muestreo aleatorio simple: garantía de igualdad de oportunidades
El muestreo aleatorio simple (MAS) es el método que asegura que cada miembro de la población tenga la misma probabilidad de ser seleccionado. Se puede implementar mediante:
- Selección aleatoria con números generados por computadora.
- Extracción de tarjetas o fichas sin reemplazo.
Ventajas del MAS:
- Simplicidad conceptual y práctica.
- Facilidad para estimar errores muestrales.
Limitaciones: puede no ser práctico en poblaciones muy grandes o cuando se carece de un marco de muestreo completo.
Moda: la observación más frecuente
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. A diferencia de la media y la mediana, la moda puede existir en múltiples valores (bimodal, multimodal) o incluso no existir si todos los valores son únicos.
Ejemplo: si la moda es 81, significa que el número 81 se repite más veces que cualquier otro número del conjunto.
Tip rápido: cuando buscas la moda, cuenta la frecuencia de cada valor y elige el que tenga la frecuencia máxima.
Conclusión y próximos pasos
Dominar los conceptos básicos de la estadística descriptiva sienta las bases para análisis más avanzados, como la inferencia estadística y el modelado predictivo. Recuerda practicar con conjuntos de datos reales, aplicar los mnemotécnicos presentados y validar siempre tus resultados con herramientas computacionales.
Al integrar estos conocimientos en tu flujo de trabajo, mejorarás la calidad de tus análisis y la claridad de tus informes, lo que es esencial tanto en la informática como en la ciencia de datos.