La determinación del tamaño de la muestra y el proceso de selección de la misma son los únicos dos aspectos del proceso de investigación de mercados para los cuales es posible cuantificar errores. Dicha cuantificación se extiende al análisis de resultados de un estudio descriptivo.
La exactitud y la confiabilidad de la información que se obtiene de un estudio descriptivo dependen principalmente del procedimiento de muestreo, que incluye tanto la determinación del tamaño de la muestra como el método de selección de los entrevistados.
Empíricamente, el procedimiento de muestreo se basa en la intuición de que es válido sacar conclusiones generales acerca de todos los elementos de un grupo, basándose en el conocimiento de solo una parte de los elementos de esa población.
En la vida diaria, es una práctica que se extiende a muchos ámbitos ya que generalizamos juicios sobre personas, productos, servicios, condiciones climáticas e infinidad de situaciones, sobre la base de muestras tan pequeñas como un breve vistazo a la concurrencia de un centro nocturno (está de muy ambiente) o la observación de un único evento (la comida aquí está muy sabrosa).
Teóricamente, el muestreo se basa en la inducción y somete esas conjeturas a una evaluación probabilística para así poder determinar su grado de aproximación a la realidad. Es decir, permite conocer o estimar el tamaño de un error derivado del procedimiento del muestreo.
Supongamos los siguientes números de Horas de Conexión a internet para una población de 5 familias:
F1 F2 F3 F4 F5
6 5 7 6 9
El Promedio de Horas de Conexión es 6.60, con una Desviación Estándar de 1.52, que es una medida de su variabilidad. En otras palabras, es cierto que la población se conecta en promedio un poco más de seis horas y media, aunque ese promedio varía en alrededor de hora y media para cada familia.
Aunque en la práctica se trabaja con solo una muestra, si se consideran todas las muestras posibles de tamaño 2, es posible ver que cada una de las 9 muestras posibles permitiría estimar un número promedio de horas de conexión distinto, por lo que la estimación dependerá de cuál de las muestras sea seleccionada:
F1F2 F1F3 F1F4 F1F5 F2F3 F2F4 F2F5 F3F4 F3F5
5.5 6.5 6.0 7.5 6.0 5.5 7.0 6.5 8.0
Se puede confiar en el procedimiento de muestreo gracias a que el promedio de todas las muestras posibles es también 6.60.
Un error derivado del muestreo proviene de la selección de la muestra, ya que como se ve en el ejemplo anterior, la estimación de un promedio de Horas de Conexión depende de cuáles elementos pasen a formar parte de la muestra.
La Desviación Estándar de todas estas posibles muestras de tamaño 2, llamada ahora error estándar, es 0.88 Horas de Conexión y se puede interpretar, por ejemplo, como que el 66% de las muestras posibles muestran como promedio un número de horas entre 5.72 y 7.48, es decir, dentro un intervalo más o menos un error estándar.
En otras palabras, 6 de las 9 muestras posibles están dentro de un intervalo equivalente a un Error Estándar alrededor de la media verdadera.
Así, tenemos que la confiabilidad del muestreo se puede expresar en términos de la probabilidad que una muestra cualquiera obtenga un resultado dentro de un intervalo específico.
A medida que el tamaño de muestra aumenta, cada muestra representa mejor a la población, al extremo de que, en este ejemplo, si la muestra fuese de tamaño 4, el promedio estimado sería de 6.5 Horas de Conexión en el caso de tomar la muestra formada por F1, F2, F3 y F5. Y el intervalo de estimación de todas las muestras posibles sería considerablemente menor.
El tamaño de muestra está principalmente relacionado con la variabilidad de la característica de esa población que se desea estudiar.
Así, una población de tamaño infinito podría estar perfectamente representada por una muestra muy reducida, siempre que sus características sean homogéneas.
Valga el ejemplo de la alberca, en la que, para conocer la temperatura del agua, una persona mete tan solo la punta del pie, tan solo en la orilla. Tomada esta minúscula muestra, queda en posibilidad de tomar una decisión respecto a la totalidad de la alberca. De hecho, si la temperatura del agua le parece agradable, posiblemente invite al resto de la concurrencia a introducirse por completo, no solo la punta del pie y no solo en la orilla.
Así pues, los dos componentes relevantes para la determinación del tamaño de muestra son la confiabilidad de que la muestra represente a la población (expresada en unidades de error estándar) y la precisión con la que se desee hacer una estimación.
El tamaño de la población bajo estudio nada tiene que ver con la determinación del tamaño de muestra. Prueba de ello es que la fórmula para determinar el tamaño de muestra NO incluye el tamaño de la población-
Sin embargo, en atención principalmente a requisitos de análisis, se tiende a utilizar tamaños de muestra más grandes que el que se determina teóricamente. Esto es, se desea contar con un número suficiente de observaciones (encuestas) dentro de cada celda de análisis de información que resulte al comparar información entre grupos de respondientes según sus datos de clasificación u otras respuestas obtenidas durante el estudio.