Las desigualdades de Markov y Bienaymé-Chebyshev

Inequalities of Markov and Bienaymé-Chebyshev

“La Barrière de Clichy. Défense de Paris, le 30 mars 1814” (La Barrera de Clichy. Defensa de París, 30 de marzo de 1814) (Artista: Horace Vernet) (Obra de dominio público)

Una inmersión profunda en el significado de los dos límites y en la remarcable serie de acontecimientos que condujeron a su descubrimiento

No es frecuente que el universo te diga que algo simplemente no se puede hacer. No importa cuán inteligente seas, cuánto dinero tengas o en qué rincón del universo te encuentres. Cuando el universo dice “no es posible”, no hay forma de darle la vuelta. En las ciencias, estas imposibilidades se expresan a menudo como límites en el valor de alguna cantidad. Un ejemplo famoso es el descubrimiento de Albert Einstein en 1905 de que cuando dejas suelta una partícula de luz en el vacío del espacio, no hay nada, absolutamente nada, que pueda superarla. Se han descubierto y demostrado cientos de límites o restricciones similares. En conjunto, forman una barrera alrededor de la naturaleza de la realidad.

Las desigualdades de Markov y Bienaymé-Chebyshev son dos límites de este tipo que han dado forma profundamente a nuestra comprensión de los límites que la naturaleza impone a la frecuencia con la que pueden ocurrir eventos aleatorios.

El descubrimiento y demostración de la desigualdad de Markov se atribuye al brillante y apasionado matemático ruso Andrei Andreyevich Markov (1856-1922).

A. A. Markov (CC0)

El crédito de la desigualdad de Bienaymé-Chebyshev se le otorga a dos personas: un gigante en la teoría de la probabilidad y maestro de Markov, el redoutable Pafnuty Lvovich Chebyshev (1821-1894), y al colega y amigo francés de Chebyshev, Irénée-Jules Bienaymé (1796-1878).

Bienaymé (Izquierda) y Chebyshev (CC0)

Hay una historia tan notable asociada al descubrimiento de estas desigualdades, especialmente la desigualdad de Bienaymé-Chebyshev, que sería lamentablemente insuficiente simplemente presentar las matemáticas sin mencionar a los personajes y las historias que la produjeron. Intentaré contar estas historias. Y al hacerlo, estableceré el contexto para explicar las matemáticas subyacentes a las desigualdades.

Comenzaré con la desigualdad de Markov, luego mostraré cómo la desigualdad de Bienaymé-Chebyshev surge al hacer algunas simples sustituciones de variables en la desigualdad de Markov. Para mayor placer, reclamaremos nuestro gran premio: la demostración de la Ley Débil de los Grandes Números (LDGN), mostrando cómo la LDGN emerge, casi sin esfuerzo, al hacer otro conjunto de sustituciones de variables, pero esta vez en la desigualdad de Bienaymé-Chebyshev.

La desigualdad de Markov

El nombre Markov nos hace pensar en “Cadenas de Markov”, “Procesos de Markov” y “Modelos de Markov”. Hablando estrictamente, la cadena de Markov es lo que A. A. Markov creó. Pero las contribuciones de Markov a las matemáticas fueron mucho más allá de las cadenas de Markov y la teoría de la probabilidad. Como investigador prolífico, Markov publicó más de 120 artículos que abarcaban una amplia gama de ideas en teoría de números, fracciones continuas, cálculo y estadística. Por cierto, Markov publicó principalmente en revistas en ruso, a diferencia de su asesor de doctorado P. L. Chebyshev, quien publicó ampliamente en publicaciones europeas occidentales, especialmente francesas.

En el año 1900, un período durante el cual Markov probablemente estaba en la cima de su carrera, publicó un libro fundamental sobre probabilidad titulado “Ischislenie Veroiatnostei” (traducción: Cálculo de Probabilidades).

Una copia de la edición de 1900 del libro de Markov, Ischislenie Veroiatnostei (Cálculo de Probabilidades) (Internet Archive. CC0)

El libro pasó por 4 ediciones y una edición en idioma alemán. Markov publicó la tercera edición de su libro a propósito en 1913 para conmemorar el 200 aniversario de la Ley débil de los grandes números (WLLN). Gran parte del material de la tercera edición está dedicado al WLLN. Pero oculta en un lema está la prueba de Markov de una ley que resultó ser tan central en el campo de la ciencia estadística que a menudo se utiliza como punto de partida para una prueba del propio WLLN.

Lo que Markov mostró fue lo siguiente:

Imagina cualquier variable aleatoria no negativa X. X podría representar algo mundano como la hora de despertar por la mañana. O algo inmenso como el número de estrellas en una galaxia. X puede ser discreta o continua. X puede tener cualquier tipo de distribución de probabilidad. En resumen, X puede representar cualquier fenómeno aleatorio no negativo. Ahora elige un valor, cualquier valor, en el rango de X. Vamos a denotar este valor como ‘a’. Markov demostró que la naturaleza impone un límite superior a la probabilidad de observar un valor de X que sea mayor o igual a tu valor elegido ‘a’. Y este límite superior disminuye a medida que ‘a’ crece. Cuanto mayor sea tu valor elegido ‘a’, menor será la probabilidad de observar otro valor ‘b’ que supere a ‘a’. En otras palabras, la naturaleza detesta los valores atípicos.

Para ilustrar, echa un vistazo al siguiente gráfico. Muestra la distribución de frecuencia del ingreso personal per cápita de los condados en los 20 estados más ricos de Estados Unidos.

Histograma del ingreso personal per cápita de los condados en los 20 estados más ricos de Estados Unidos (Imagen del autor) (Fuente de datos: Oficina de Análisis Económico de EE. UU. a través de la Política de Derechos de Autor)

Aquí, la variable aleatoria X es el ingreso per cápita de un condado elegido al azar.

Ahora trabajemos con algún umbral ‘a’ para el ingreso per cápita. En el siguiente panel de imágenes, las regiones rojas representan X ≥ a, donde a = $50000, $70000 y $80000.

A medida que 'a' aumenta, P(X ≥ a) disminuye (Imagen del autor)

La probabilidad P(X ≥ a) es la relación entre el área de la región roja y el área total bajo el histograma. Es fácil ver que esta probabilidad P(X ≥ a) disminuye a medida que ‘a’ crece. Está inversamente relacionada con ‘a’. El teorema de Markov impone un cierto límite superior a esta probabilidad que está inversamente relacionado con el valor de ‘a’. Y esta relación es cierta independientemente de la distribución de X.

Pero eso no es todo lo que mostró Markov.

Como parte de la misma desigualdad, Markov también mostró que el valor medio de X influye directamente en la probabilidad de observar un X >= a. Cuanto mayor sea el valor medio de X, mayor será el límite superior de esta probabilidad, y viceversa. En otras palabras, a medida que la masa de probabilidad de X se desplaza hacia el extremo superior del rango de X, el límite superior de P(X >= a) también aumenta. Por el contrario, si la masa de probabilidad de X se desplaza hacia el extremo inferior, volviéndose “pesada en la base”, la probabilidad de observar un valor grande de X disminuye.

Algunas de estas ideas pueden sonar como sentido común, pero la brillantez de Markov radica en establecer una relación matemáticamente precisa entre ‘a’, P(X>=a) y la media (también conocida como valor esperado) de X, denotada como E(X). Demostró que:

Desigualdad de Markov (Imagen del autor)

Demostración de la desigualdad de Markov

Existen varias formas de demostrar la desigualdad de Markov. Describiré una técnica simple que funciona independientemente de si X es discreta o continua. Solo se requiere que X sea no negativa.

Como antes, trabajamos con un valor umbral ‘a’ en el que estás interesado.

Ahora definamos una variable aleatoria I tal que I = 0 cuando 0 ≤ X < a, y I = 1 cuando X ≥ a. En la jerga estadística, a I se le llama una variable indicadora.

Consideremos el caso en el que X ≥ a. Multiplicando ambos lados por I:

XI ≥ aI

Cuando X ≥ a, I = 1. Entonces XI = X.

Y por lo tanto,

X ≥ aI cuando I = 1 (Recordemos este resultado).

Dado que X es no negativa, 0 ≤ X, y para algún ‘a’ positivo, X puede ser menor que ‘a’ o mayor o igual a ‘a’. Ya hemos considerado el caso de X mayor o igual a ‘a’. Así que consideremos el caso en el que 0 ≤ X < a.

Por definición de I, cuando X < a, I = 0.

Por lo tanto, aI = a0 = 0

Dado que se asume que X es no negativa, es decir, X > 0 y aI = 0, X ≥ aI

Así, ya sea que I = 1 o I = 0, aIX.

Apliquemos el operador de esperanza E(.) a ambos lados de esta desigualdad:

E(aI) ≤ E(X)

Sacando la constante ‘a’:

aE(I) ≤ E(X)

Trabajemos con E(I). La variable aleatoria I solo puede tomar dos valores: 0 y 1, correspondientes a cuando X < a y X ≥ a. La probabilidad asociada con cada evento es P(X < a) y P(X >= a), respectivamente. Entonces,

E(I) = 0P(X < a) + 1P(X >= a) = P(X >= a)

Sustituyendo este resultado de nuevo en aE(I) ≤ E(X), tenemos:

aP(X >= a) ≤ E(X)

Y por lo tanto:

P(X >= a) ≤ E(X)/a, que es la desigualdad que Markov demostró.

La desigualdad de Bienaymé-Chebyshev

La desigualdad de Bienaymé-Chebyshev establece que la probabilidad de observar un valor ‘a’ unidades alejado de la media de una variable aleatoria está acotada de manera similar a la desigualdad de Markov. En otras palabras, la naturaleza impone un límite superior a la probabilidad P(|X — E(X)| >= a). Y este límite superior es inversamente proporcional a a² y directamente proporcional a qué tan dispersa está X alrededor de su media, es decir, a la varianza de X. En términos de notación, la desigualdad de Bienaymé-Chebyshev se expresa de la siguiente manera:

La desigualdad de Bienaymé-Chebyshev (Imagen del autor)

Al igual que con la desigualdad de Markov, la magnificencia de la desigualdad de Bienaymé-Chebyshev radica en que no hace ninguna suposición sobre la distribución de probabilidad de X. X puede tener una distribución normal, exponencial o gamma. X puede estar distribuida en forma de la sombra de una vaca, sin importarle en lo más mínimo. El límite de probabilidad de Bienaymé-Chebyshev sigue siendo sólido como una roca.

Un breve desvío en la historia de la desigualdad de Bienaymé-Chebyshev

Una historia convincente alimenta el descubrimiento de la desigualdad de Bienaymé-Chebyshev. Para empezar, hay una razón por la cual el nombre de Jules Bienaymé debe, y lo hace, preceder al nombre de Chebyshev en esta desigualdad.

En 1853, el matemático francés Irénée-Jules Bienaymé publicó lo que se convirtió en uno de los artículos más importantes en las actas de la Academia de Ciencias de Francia. El artículo de Bienaymé trataba aparentemente sobre su tratamiento del método de mínimos cuadrados de Laplace. Sin embargo, como parte de ese trabajo, terminó enunciando y demostrando la desigualdad de Bienaymé-Chebyshev (que en ese momento solo podía haber sido la desigualdad de Bienaymé, ya que Chebyshev no tenía participación en la imagen). Pero Bienaymé, fiel a su naturaleza modesta y debido a que su atención estaba completamente dedicada a los mínimos cuadrados laplacianos, no logró señalar adecuadamente la importancia de su descubrimiento y pasó prácticamente desapercibido. Y así podría haber languidecido uno de los resultados más importantes en probabilidad, si Pafnuty Lvovich Chebyshev no hubiera nacido con una pierna atrofiada.

En un día de principios de verano en 1821, cuando el joven de 25 años Bienaymé aún se estaba estableciendo como funcionario público en el Ministerio de Finanzas de Francia, Pafnuty Lvovich Chebyshev nació en un pueblo a 100 millas al sur de San Petersburgo en la Rusia imperial. Chebyshev fue uno de los nueve hijos y desde una edad temprana mostró una aptitud excepcional tanto en mecánica como en matemáticas. El padre de Chebyshev era un oficial del ejército que había repelido a Napoleón en el desastroso avance (para Napoleón, obviamente) de este último sobre Rusia en 1812. En una de esas curiosas ironías de la historia, solo dos años después, en el caótico período posterior a la retirada de Napoleón, Jules Bienaymé ayudaría a Napoleón a luchar contra las fuerzas rusas, austríacas y prusianas que avanzaban sobre París. Napoleón, por supuesto, fracasó rotundamente en proteger París y en su lugar fue exiliado a Elba.

“La Barrière de Clichy. Défense de Paris, le 30 mars 1814” (La Barrera de Clichy. Defensa de París, 30 de marzo de 1814) (Artista: Horace Vernet) (Obra de dominio público)

Todo este historial tuvo lugar mucho antes del nacimiento de Pafnuty Lvovich. Pero dada su ascendencia militar y tradición familiar, si no fuera por su pierna atrofiada congénitamente, P. L. Chebyshev podría haber seguido los pasos de algunos de sus hermanos en el ejército del zar y la historia de la probabilidad habría tomado un rumbo completamente diferente. Pero la iniciación de Chebyshev en las matemáticas y más tarde en la academia rusa no fueron los únicos catalizadores para su introducción a Bienaymé. Y en cuanto a eso, su defensa de las contribuciones de este último a la desigualdad de Bienaymé-Chebyshev.

De niño, Chebyshev recibió educación en casa en francés. Al principio de su carrera, parece haberse dado cuenta de que si quería que su trabajo fuera leído fuera de su tierra natal, debía hacerse conocido en la capital mundial de la investigación matemática del siglo XIX, que era París.

En cada oportunidad, Chebyshev viajaba a Francia y a otras capitales de Europa occidental y publicaba casi la mitad de sus 80 trabajos en revistas europeas occidentales. Muchos de ellos aparecieron en el Journal des Mathématiques Pures et Appliquées (Revista de Matemáticas Puras y Aplicadas) editado por el matemático francés Joseph Liouville. Fue durante su viaje por Europa en 1852 que Chebyshev conoció a Bienaymé, una amistad mutuamente beneficiosa que le dio a Chebyshev acceso a muchos científicos y editores europeos, y que más tarde dio a conocer el trabajo de Bienaymé en matemáticas en importantes revistas francesas y rusas.

Un trabajo fundamental, por supuesto, fue el descubrimiento de la desigualdad que lleva su nombre por parte de Bienaymé en 1853. Lo cual nos lleva de vuelta al estudio de esta desigualdad.

Lo que Bienaymé realmente probó en su artículo de 1853 fue lo siguiente:

Supongamos que se dibuja una muestra aleatoria de tamaño N de una población de valores cuya media y varianza son respectivamente μ y σ². Sea X_bar la media de su muestra aleatoria. Por cierto, se puede demostrar que la media de la muestra X_bar es en sí misma una variable aleatoria con su propio valor esperado y varianza siendo respectivamente μ y σ²/N. Si eso te deja rascándote la cabeza, no te preocupes. Pronto mostraré cómo derivar el valor esperado y la varianza de la media de la muestra. Mientras tanto, volviendo al tema en cuestión, lo que Bienaymé mostró fue lo siguiente:

Resultado de Bienaymé probado en 1853 (Imagen del autor)

A estas alturas, es posible que te estés preguntando cuándo entra Chebyshev en la órbita alegre de los descubrimientos de Bienaymé de una manera que lleva a que el nombre de Chebyshev esté asociado a esta desigualdad.

Resulta que catorce años después de que Bienaymé publicara su desigualdad, Chebyshev, completamente ajeno al descubrimiento de Bienaymé, publica una versión diferente de esta desigualdad en el número de 1867 de la revista de Joseph Liouville. Ten en cuenta que esta es la era pre-Google, pre-CiteSeer, pre-telefone. Así que decir que los científicos de la época no estaban completamente conscientes de “trabajos previos” apenas insinúa la magnitud del problema.

Tabla de contenidos de “Journal de Mathématiques Pures et Appliquées” (“Revista de Matemáticas Puras y Aplicadas”), Liouville, (2) 12 158–176. (1867) (Edición de dominio público)

Para su crédito, Chebyshev, en un artículo que publicó en 1874, atribuyó el descubrimiento de esta desigualdad enteramente a Bienaymé:

“La demostración simple y rigurosa de la ley de Bernoulli que se encuentra en mi nota titulada: Des valeurs moyennes, es solo uno de los resultados fácilmente deducidos a partir del método del Sr. Bienaymé, que lo llevó a él mismo a demostrar un teorema sobre probabilidades, del cual la ley de Bernoulli sigue inmediatamente”

En los años que siguieron, lo que se conoció como la desigualdad de Chebyshev (o más precisamente, la desigualdad de Bienaymé — Chebyshev) es una versión que se aplica simplemente a cualquier variable aleatoria X que tiene un valor esperado E(X) y una varianza finita Var(X).

La desigualdad de Bienaymé — Chebyshev establece que para cualquier valor positivo ‘a’, la probabilidad P(|X — E(X)| ≥ a) está acotada de la siguiente manera:

La desigualdad de Bienaymé–Chebyshev (Imagen del autor)

Demostración de la desigualdad de Bienaymé — Chebyshev

La desigualdad que Markov demostró (y que lleva su nombre) en la edición de 1913 de su libro Cálculo de Probabilidades se utiliza a menudo para demostrar la desigualdad de Bienaymé — Chebyshev. Usando la desigualdad de Markov como punto de partida, es un paseo en el parque demostrar el resultado. Lo demostramos de la siguiente manera:

Consideremos una variable aleatoria X con media E(X). Ahora, definamos otra variable aleatoria Z = (X — E(X))². El término cuadrado asegura que Z es no negativa, permitiéndonos aplicar la desigualdad de Markov a Z. Supongamos un valor umbral de Z que llamaremos a². La probabilidad de que un valor observado de Z cumpla o exceda a² es P(Z ≥ a²). Aplicando la desigualdad de Markov a Z y a² obtenemos lo siguiente:

El límite superior en P(Z ≥ a²) usando la desigualdad de Markov (Imagen del autor)

A partir de la expresión anterior, podemos derivar la desigualdad de Bienaymé-Chebyshev de la siguiente manera:

Derivación de la desigualdad de Bienaymé-Chebyshev usando la desigualdad de Markov como punto de partida (Imagen del autor)

La ecuación (3) es la desigualdad de Bienaymé-Chebyshev (o simplemente desigualdad de Chebyshev).

En lugar de trabajar con un umbral arbitrario ‘a’, es útil expresar ‘a’ en términos de la desviación estándar σ de X de la siguiente manera:

La desigualdad de Bienaymé-Chebyshev expresada en términos de la desviación estándar de X (Imagen del autor)

La prueba anterior también abre un camino directo a la prueba del resultado original de Bienaymé mostrado en su publicación de 1853, a saber, lo siguiente:

Resultado de Bienaymé demostrado en 1853 (Imagen del autor)

Comenzando con la ecuación (2) y sustituyendo X por la media muestral X_bar y a² por k²σ², llegamos al resultado aproximado de Bienaymé de 1853 de la siguiente manera:

Derivación del resultado demostrado por Bienaymé en 1853 (Imagen del autor)

Las ecuaciones (4) y (4a) presentan un resultado intrigante. Dicen que la probabilidad de encontrar una observación que esté al menos k desviaciones estándar lejos de la media está limitada en la parte superior, y este límite superior es inversamente proporcional a k².

En otras palabras, es muy poco probable encontrarse con valores que estén varias desviaciones estándar lejos del valor medio.

Cuando se expresa de esta manera, la desigualdad de Bienaymé-Chebyshev pone una cara matemática a aforismos como “Si suena demasiado bueno para ser verdad, probablemente lo sea”, o al favorito de todos los tiempos de los científicos: “Las afirmaciones extraordinarias requieren pruebas extraordinarias”.

Para ilustrar el funcionamiento de esta desigualdad, consideremos el siguiente conjunto de datos de la temperatura diaria promedio registrada en el área de Chicago el 1 de enero de cada año. Hay 100 observaciones que abarcan desde 1924 hasta 2023:

Temperatura diaria promedio en el área de Chicago el 1 de enero de cada año desde 1924 hasta 2023 (Imagen del autor) (Fuente de datos: NWS bajo licencia de dominio público)

La línea horizontal punteada negra hacia el centro de la gráfica representa la media muestral de 24.98 F. Las líneas horizontales de colores representan los valores de temperatura a más/menos 1.25, 1.5, 1.75 y 2 veces la desviación estándar de la muestra de datos. Estas líneas de desviación estándar nos dan una idea de los límites dentro de los cuales es probable que se encuentren la mayoría de las temperaturas.

Aplicando la desigualdad de Bienaymé-Chebyshev, podemos determinar el límite superior en la probabilidad P(|X — E(X)| ≥ kσ), donde X representa la temperatura media observada el 1 de enero en un año seleccionado al azar. E(X) = 24.98 F, σ = 10.67682 F, y k = 1, 1.25, 1.5, 1.75 y 2.0. La siguiente tabla menciona estos límites de probabilidad en la columna 1/k²:

Para el conjunto de datos de temperaturas de Chicago, el límite superior en la probabilidad P(|X-E(X)| ≥ kσ) calculado utilizando la desigualdad de Bienaymé-Chebyshev, y la probabilidad observada correspondiente en la muestra de datos. (Imagen del autor)

La última columna de la tabla muestra las probabilidades reales de observar tales desviaciones en la muestra de datos. Los valores observados reales en la muestra de datos están cómodamente dentro de los límites de probabilidad generados por la desigualdad de Bienaymé-Chebyshev.

Puede haber notado que los límites de probabilidad generados por la desigualdad de Bienaymé-Chebyshev son bastante amplios. Por ejemplo, cuando k=1 (lo que corresponde a un evento que se encuentra dentro de 1 desviación estándar de la media), la desigualdad calcula el límite superior de la probabilidad como 1/1² = 1.0, o 100%. Esto hace que este límite específico sea prácticamente inútil.

No obstante, para todos los valores de k > 1, la desigualdad es bastante útil. Su utilidad también radica en que no asume ninguna forma particular para la distribución de la variable aleatoria. De hecho, va aún más lejos en su aplicabilidad. Mientras que la desigualdad de Markov requiere que los fenómenos aleatorios produzcan observaciones estrictamente no negativas, si se fija, la desigualdad de Bienaymé-Chebyshev no hace tales suposiciones sobre X.

La desigualdad de Bienaymé-Chebyshev también nos brinda una prueba muy sencilla para la Ley Débil de los Números Grandes. De hecho, en 1913, Markov utilizó esta desigualdad para demostrar la prueba de la LDNG en su libro sobre teoría de la probabilidad, y es esencialmente la misma prueba utilizada por muchos libros de texto en la actualidad.

La Ley Débil de los Números Grandes (y su prueba)

Supongamos que obtiene una muestra aleatoria de una población teóricamente infinitamente grande. Sea N el tamaño de la muestra. Esta muestra aleatoria tiene una media muestral X_barra. Dado que está tratando solo con una muestra y no con toda la población, es probable que la media muestral esté a cierta distancia de la verdadera media de la población μ. Esto es el error en la media muestral. Se puede expresar el valor absoluto de este error como |X_barra – μ|.

La LDNG dice que, para cualquier tolerancia positiva ϵ que elija, la probabilidad de que el error en la media muestral sea mayor que ϵ se reducirá a cero a medida que el tamaño de la muestra N tienda a infinito. No importa qué tan pequeña sea la tolerancia ϵ que elija. P(|X_barra – μ| >= ϵ) se acercará a cero a medida que el tamaño de la muestra N tienda a infinito.

La Ley Débil de los Números Grandes (Imagen por el autor)

La LDNG tiene una rica historia de descubrimiento que se remonta a más de tres siglos con los grandes nombres de las matemáticas, comenzando con Jacob Bernouli en 1713 e incluyendo a gigantes como De Moivre, Laplace, Lacroix, Poisson y nuestros amigos Bienaymé y Chebyshev, que contribuyeron a su desarrollo. Y gracias a la desigualdad de Bienaymé-Chebyshev, la prueba de la LDNG fluye con la facilidad del agua corriendo por una ladera.

Prueba de la Ley Débil de los Números Grandes

Como ocurre con muchas cosas en estadística, comenzamos la prueba dibujando una muestra aleatoria de tamaño N de una población. Denotemos esta muestra como X1, X2, X3, …, XN. Es útil pensar en X1, X2, X3, …, XN como un conjunto de N variables, como un conjunto de N espacios, cada uno de los cuales se llena con un valor seleccionado al azar de la población cuando se realiza una muestra. Así, X1, X2, X3, …, XN son en sí mismas variables aleatorias. Además, dado que cada una de las variables X1, X2, X3, …, XN adquiere un valor aleatorio independiente de las demás, pero todos de la población de la muestra, son variables aleatorias independientes e idénticamente distribuidas (i.i.d.).

Para cualquier muestra aleatoria dada, la media muestral X_barra se puede calcular de la siguiente manera:

La media muestral (Imagen por el autor)

Dado que dibujar otra muestra aleatoria producirá una media de muestra diferente y dibujar una tercera muestra producirá otra media de muestra y así sucesivamente, la media de muestra X_bar es en sí misma una variable aleatoria con su propia media y varianza. Calculemos la media de X_bar.

Derivación del valor esperado de la media de muestra (Imagen por el autor)

También calculemos la varianza de la media de muestra.

La varianza de la media de muestra es la varianza de la población dividida por N (Imagen por el autor)

Ahora apliquemos la desigualdad de Bienaymé-Chebyshev a la media de muestra X_bar de la siguiente manera:

Prueba de la Ley Débil de los Grandes Números usando la desigualdad de Bienaymé-Chebyshev (Imagen por el autor)

Lo profundo, lo increíblemente amplio y lo central para el campo de la ciencia estadística como la Ley Débil de los Grandes Números, puede tener una prueba tan sencilla es una de esas absurdidades de la naturaleza que uno solo puede maravillarse. En cualquier caso, ahí lo tienes.

Tomadas en conjunto, las desigualdades de Markov y de Bienaymé-Chebyshev, y la Ley Débil de los Grandes Números forman la base sobre la cual descansa de manera segura una gran cantidad de la ciencia estadística. Por ejemplo, cuando entrenas un modelo estadístico (o un modelo de redes neuronales), el algoritmo de entrenamiento debe obedecer a la Ley Débil de los Grandes Números. Si no lo hace, las estimaciones de los coeficientes no están garantizadas de converger a los verdaderos valores de la población. Y eso hace que tu técnica de entrenamiento, bueno, básicamente sea inútil. La Ley Débil de los Grandes Números también encuentra un empleo productivo en la prueba de otro resultado épico: el Teorema del Límite Central. Y eso, merecidamente, será el tema de mi próximo artículo.

Referencias y Derechos de Autor

Artículos

Bienaymé, I.J. (1853) Considérations à l’appui de la découverte de Laplace sur la loi de probabilité dans la méthode des moindres carrés,” (“Consideraciones en apoyo al descubrimiento de Laplace sobre la ley de probabilidad en el método de los mínimos cuadrados.”) C.R. Acad. Sci., París 37 309–324. También publicado en “Journal de Mathématiques Pures et Appliquées” (“Revista de Matemáticas Puras y Aplicadas”), Liouville, (2) 12 158–176. (1867)

Gely P. Basharin, Amy N. Langville, Valeriy A. Naumov, “La vida y obra de A.A. Markov“, Álgebra Lineal y sus Aplicaciones, Volumen 386, 2004, Páginas 3–26, ISSN 0024–3795, https://doi.org/10.1016/j.laa.2003.12.041.

Bru, Bernard, François Jongmans y Eugene Seneta. “I.J. Bienaymé: Información Familiar y Prueba del Teorema de Criticidad.” International Statistical Review / Revue Internationale de Statistique 60, no. 2 (1992): 177–83. https://doi.org/10.2307/1403648.

Eugene Seneta “Una historia tricentenaria de la Ley de los Grandes Números,” Bernoulli, Bernoulli 19(4), 1088–1121, (septiembre de 2013)

Conjuntos de datos

El “Bureau of Economic Analysis” de EE.UU. “Ingresos personales por condado, área metropolitana y otras áreas” bajo licencia de dominio público.

Servicio Meteorológico Nacional “NOAA Datos meteorológicos en línea” para el área de Chicago bajo licencia de dominio público.

Imágenes

Todas las imágenes en este artículo tienen derechos de autor de Sachin Date bajo CC-BY-NC-SA, a menos que se mencione una fuente y derechos de autor diferentes debajo de la imagen.

¡Gracias por leer! Si te gustó este artículo, por favor sígueme para recibir consejos, tutoriales y consejos de programación sobre análisis de regresión y series de tiempo.