Fundamentos de estadística descriptiva

Introducción a la estadística descriptiva

La estadística descriptiva es la rama de la estadística que se encarga de resumir, organizar y presentar los datos de forma clara y comprensible. Antes de aplicar técnicas inferenciales, es fundamental dominar conceptos básicos como población, muestra, tipos de variables y medidas de tendencia central. En este curso encontrarás explicaciones detalladas, ejemplos prácticos y trucos mnemotécnicos que facilitan la retención de cada tema.

Población y muestra: conceptos esenciales

¿Qué es una población?

Una población incluye a todos los individuos, objetos o eventos que cumplen con un criterio de estudio. Puede ser finita (por ejemplo, los estudiantes de una universidad) o infinita (como todas las posibles mediciones de temperatura en una ciudad).

¿Qué es una muestra?

Una muestra es un subconjunto representativo extraído de la población. Su objetivo es permitir inferencias sobre la población sin necesidad de observar cada elemento.

Ventaja: reduce costos y tiempo.
Desventaja: introduce incertidumbre que debe cuantificarse.

Consejo práctico: imagina una caja llena de lápices (población). Si sacas unos pocos lápices para probar su color, esos son tu muestra.

Variables continuas: definición y características

Una variable continua puede tomar cualquier valor real dentro de un intervalo determinado. A diferencia de las variables discretas, no están limitadas a valores enteros ni a categorías.

Ejemplo típico: la altura de una persona (150 cm – 200 cm).
Representación gráfica: curvas de densidad o histogramas con barras adyacentes.
Aplicaciones: mediciones físicas, tiempos, pesos.

Mnemotécnico: “C‑R‑I” – Continua, Real, Infinita.

Marca de clase en distribuciones agrupadas

En una tabla de frecuencias agrupadas, la marca de clase es el punto medio del intervalo de cada clase. Se calcula sumando el límite inferior y el límite superior y dividiendo entre dos.

Fórmula: Marca = (Límite inferior + Límite superior) / 2

Sirve como valor representativo de todos los datos que caen dentro de esa clase.
Facilita el cálculo de medidas como la media y la varianza cuando los datos están agrupados.

Truco visual: imagina una regla que corta la barra de la clase exactamente a la mitad; ese punto es la marca.

Mediana: cómo localizar el valor central

La mediana es el valor que divide al conjunto de datos ordenado en dos partes iguales. Su cálculo depende del número de observaciones (n):

Si n es impar, la posición es (n + 1)/2.
Si n es par, la mediana es el promedio de los dos valores centrales.

Ejemplo: para los valores 19, 20, 21, 22 y 25 (n = 5), la posición central es 3, por lo que la mediana es 21.

Recordatorio: "Mediana = medio del medio".

Cálculo de la varianza de una muestra

La varianza mide la dispersión de los datos respecto a su media. El proceso incluye los siguientes pasos:

Calcular la media aritmética \(\bar{x}\) de la muestra.
Restar la media a cada observación y obtener la diferencia.
Elevar cada diferencia al cuadrado ("cuadrar la diferencia").
Sumar todos los cuadrados obtenidos.
Dividir la suma entre n‑1 (corrección de Bessel) para obtener la varianza muestral.

Fórmula abreviada: s² = Σ(xᵢ − \bar{x})² / (n − 1)

Mnemotécnico: “DIF‑al‑CUAD‑Suma‑÷‑n”.

Regla de Sturges para determinar el número de clases

Una de las reglas más usadas para decidir cuántas clases (intervalos) debe contener una tabla de frecuencias es la regla de Sturges. La fórmula es:

K = 1 + 3.322 · log₁₀(N), donde K es el número de clases y N el tamaño total de la muestra.

Esta regla se basa en la idea de que, a medida que aumenta el número de observaciones, también debe incrementarse el número de intervalos para mantener una representación adecuada de la distribución.

Ejemplo rápido: Si N = 100, entonces K ≈ 1 + 3.322·2 = 7.64, redondeando a 8 clases.

Muestreo aleatorio simple: garantía de igualdad de oportunidades

El muestreo aleatorio simple (MAS) es el método que asegura que cada miembro de la población tenga la misma probabilidad de ser seleccionado. Se puede implementar mediante:

Selección aleatoria con números generados por computadora.
Extracción de tarjetas o fichas sin reemplazo.

Ventajas del MAS:

Simplicidad conceptual y práctica.
Facilidad para estimar errores muestrales.

Limitaciones: puede no ser práctico en poblaciones muy grandes o cuando se carece de un marco de muestreo completo.

Moda: la observación más frecuente

La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. A diferencia de la media y la mediana, la moda puede existir en múltiples valores (bimodal, multimodal) o incluso no existir si todos los valores son únicos.

Ejemplo: si la moda es 81, significa que el número 81 se repite más veces que cualquier otro número del conjunto.

Tip rápido: cuando buscas la moda, cuenta la frecuencia de cada valor y elige el que tenga la frecuencia máxima.

Conclusión y próximos pasos

Dominar los conceptos básicos de la estadística descriptiva sienta las bases para análisis más avanzados, como la inferencia estadística y el modelado predictivo. Recuerda practicar con conjuntos de datos reales, aplicar los mnemotécnicos presentados y validar siempre tus resultados con herramientas computacionales.

Al integrar estos conocimientos en tu flujo de trabajo, mejorarás la calidad de tus análisis y la claridad de tus informes, lo que es esencial tanto en la informática como en la ciencia de datos.

Fundamentos de estadística descriptiva

¿Cuál es la diferencia esencial entre una población y una muestra?

Si una variable es continua, ¿cuál de las siguientes afirmaciones es correcta?

En una distribución agrupada de frecuencias, ¿qué representa la marca de clase?

Una muestra de edades tiene los valores 19, 20, 21, 22 y 25. ¿Cuál es la mediana de este conjunto?

Al calcular la varianza de una muestra, ¿qué operación se realiza antes de dividir por el tamaño de la muestra?

¿Cuál es la regla de Sturges para determinar el número de clases en una tabla de frecuencias?

En una encuesta, ¿qué característica garantiza que cada miembro de la población tenga la misma oportunidad de ser seleccionado?

Si la moda de un conjunto de datos es 81, ¿qué indica este valor?

Al construir un histograma, ¿qué se representa en el eje X?

¿Cuál es la diferencia entre la media aritmética y la media geométrica?