Estadística Bayesiana vs Estadística Frecuentista en Ciencia de Datos.
Bayesian Statistics vs Frequentist Statistics in Data Science.
¿Es tu alineación estadística Bayesian o Frequentist?
Antes de entrar en las diferencias entre la estadística bayesiana y la estadística frecuentista, comencemos con sus definiciones.
¿Qué es el enfoque bayesiano?
Cuando se utiliza la inferencia estadística, se hacen juicios sobre los parámetros de una población utilizando datos.
La inferencia bayesiana tiene en cuenta el conocimiento previo, y el parámetro se toma como una variable aleatoria. Es decir, hay una probabilidad de que ocurra el evento. Por ejemplo, si lanzáramos una moneda, la inferencia bayesiana afirmaría que no hay una respuesta correcta o incorrecta, y la probabilidad de que la moneda caiga cara o cruz depende de su perspectiva.
- Introducción a la Correlación
- Paisaje de Ingeniería de Datos en el Mundo Impulsado por la Intelig...
- Revolutionizando el Análisis de Datos con PandasGUI
La perspectiva bayesiana se basa en el Teorema de Bayes, una fórmula que tiene en cuenta la probabilidad de un evento basado en el conocimiento previo. La fórmula se muestra a continuación, donde:
- P(A): la probabilidad de que A ocurra
- P(B): la probabilidad de que B ocurra
- P(A|B): la probabilidad de A dada la ocurrencia de B
- P(B|A): la probabilidad de B dada la ocurrencia de A
- Pr(A|B): la probabilidad posterior, la probabilidad de los parámetros dados los datos.
Las personas que tienen una mentalidad bayesiana ven y utilizan probabilidades para medir la probabilidad de que ocurra un evento. Es lo que ellos creen. La probabilidad de una hipótesis se calcula y se considera verdadera utilizando opiniones y conocimientos previos, mientras nuevos datos están disponibles. Esto se llama probabilidad previa, que se concluye antes de que comience el proyecto.
Esta probabilidad previa se convierte luego en una probabilidad posterior, la creencia una vez que el proyecto ha comenzado.
Probabilidad previa + Verosimilitud = Probabilidad posterior
¿Qué es el enfoque frecuentista?
La inferencia frecuentista es diferente. Supone que los eventos se basan en frecuencias, y el parámetro no es una variable aleatoria, lo que significa que no hay probabilidad. Usando el mismo ejemplo que antes, si lanzara una moneda, la inferencia frecuentista afirmaría que hay una respuesta correcta basada en la frecuencia. Si lanzara una moneda y obtuviera cara la mitad de las veces, entonces la probabilidad de obtener cara es del 50%.
Se establece un criterio de detención. La regla de detención determina el espacio muestral, por lo que el conocimiento al respecto es esencial para la inferencia frecuentista. Por ejemplo, con el lanzamiento de la moneda, un enfoque frecuentista podría repetir la prueba 2000 veces, o hasta que haya caído en 300 veces cara. Los investigadores típicamente no repiten las pruebas esta cantidad de veces.
Las personas que tienen una mentalidad frecuentista ven y tratan la probabilidad de la misma manera que las frecuencias. Su probabilidad depende de que algo suceda si se repitiera infinitamente.
Desde el punto de vista de un frecuentista, los parámetros que se utilizan para estimar su población se suponen fijos. Hay un solo parámetro verdadero que estimará y no se modela como una distribución de probabilidad. Cuando hay nuevos datos disponibles, se utilizarán para realizar pruebas estadísticas y hacer probabilidades sobre los datos.
El cálculo más popular en la estadística frecuentista es el valor p, una medida estadística utilizada para validar sus hipótesis. Describe cuán probable es que haya encontrado un conjunto particular de observaciones si la hipótesis nula (sin relación estadística) es correcta.
El área azul sombreada en la imagen siguiente muestra el valor p, la probabilidad de que un resultado observado ocurra por casualidad.
¿Cómo se aplica a la ciencia de datos?
La estadística es una gran parte de la ciencia de datos, y si eres parte de ese mundo, has encontrado el Teorema de Bayes, el valor p y otras pruebas estadísticas. Te beneficia como científico de datos o alguien que trabaja con datos tener una buena comprensión del análisis estadístico y las herramientas disponibles. Puede haber un momento en el que los necesites.
Dentro de tu equipo, mientras discuten proyectos y sus próximos pasos, comenzarás a ver quién tiene una mentalidad bayesiana y quién tiene una mentalidad frecuentista. Los científicos de datos trabajarán en la previsión probabilística que combina la varianza residual con la incertidumbre estimada. Esto es específicamente un marco bayesiano. Sin embargo, no descarta que algunos expertos quieran utilizar un enfoque frecuentista.
Dependiendo del enfoque que tomes, se refleja en los métodos estadísticos que eliges. Muchos de los fundamentos de la ciencia de datos se basan en la estadística bayesiana, e incluso algunos consideran que los enfoques frecuentistas son un subconjunto de la teoría bayesiana.
Sin embargo, cuando se trata de la ciencia de datos, tu enfoque se centra en el problema en cuestión. Muchos científicos de datos eligen sus modelos en función del problema que intentan resolver. La ventaja que tienen los enfoques bayesianos es que, en el mundo de la ciencia de datos, tener conocimientos específicos sobre el problema siempre es una ventaja.
Los métodos bayesianos son conocidos por ser más rápidos, interpretables, centrados en el usuario y tener un enfoque más intuitivo para el análisis.
A continuación, entraré en más detalles sobre esto y las diferencias entre los dos.
Aprendizaje más rápido
Un enfoque bayesiano comienza con una creencia inicial, respaldada por la recopilación de pruebas. Esto da como resultado un aprendizaje más rápido ya que tienes evidencia para respaldar tu afirmación.
Un enfoque frecuentista basa sus opiniones en hechos obtenidos de los datos. Aunque han revisado los datos, no se ha realizado ningún análisis para asegurar que esto sea evidencia. No hay cálculos de probabilidad para respaldar la hipótesis.
Interpretable
Los métodos bayesianos tienen una variedad de modelos flexibles, lo que les permite aplicarse a problemas estadísticos complejos. Esto permite que los métodos bayesianos sean más fácilmente interpretables.
Los métodos frecuentistas, desafortunadamente, no son tan flexibles y suelen fallar.
Centrado en el usuario
Los dos métodos tienen enfoques diferentes. El método bayesiano permite incluir diferentes estudios y preguntas en la conversación del proyecto. Hay un enfoque en los tamaños de efecto probables.
Mientras que los métodos frecuentistas limitan esta posibilidad ya que se centran en la significación incierta.
Resumen bayesiano vs. frecuentista
Atributos: | Bayesiano: | Frecuentista: |
¿Qué es? | Distribución de probabilidad alrededor de los parámetros | Los parámetros son fijos y un solo punto |
¿Qué cuestiona? | ¿Dada la información, cuál es la probabilidad de la hipótesis? | ¿Es la hipótesis verdadera o falsa? |
¿Qué requiere? | Conocimiento/información previa y cualquier conjunto de datos. | Criterio de parada |
¿Qué produce? | Una probabilidad a favor o en contra sobre la hipótesis. | Estimación puntual (valor p) |
Ventaja principal | Respaldado con evidencia y se puede aplicar nueva información | Son simples y fáciles de usar, y no necesita conocimientos previos |
Desventaja principal | Requiere estadísticas avanzadas | Altamente dependiente del tamaño de la muestra y solo da una respuesta afirmativa o negativa |
¿Cuándo debo usarlo? |
Limitado a tus datos cuando tienes previos Usa más potencia informática |
Con una gran cantidad de datos |
Conclusión
Espero que este blog te haya dado una mejor comprensión de la diferencia entre los enfoques bayesianos y los enfoques frecuentistas. Ha habido mucho ir y venir entre los dos, e incluso si uno existe sin el otro. Mi consejo es que te mantengas en lo que te hace sentir cómodo y cómo tu cerebro descompone las cosas a través de tu lógica personal.
Si deseas una inmersión más profunda, donde puedas aplicar tus habilidades y conocimientos, te recomiendo: Curso intensivo de estadística para principiantes: teoría y aplicaciones de la estadística bayesiana y frecuentista utilizando Python. Nisha Arya es una científica de datos, escritora técnica independiente y administradora de comunidad en Zepes. Está particularmente interesada en proporcionar consejos o tutoriales sobre carreras de ciencia de datos y conocimientos teóricos sobre ciencia de datos. También desea explorar las diferentes formas en que la inteligencia artificial puede beneficiar la longevidad de la vida humana. Una ávida aprendiz, buscando ampliar sus conocimientos tecnológicos y habilidades de escritura, mientras ayuda a guiar a otros.