Acelerando las Comunicaciones Ópticas con IA
Accelerating Optical Communications with AI.

La computación fotónica ha visto su parte de avances de investigación y profundos inviernos de investigación, al igual que la historia de la inteligencia artificial (IA). Ahora, con el resurgimiento de la IA, el enorme consumo de energía que los modelos de redes neuronales grandes de hoy necesitan cuando se ejecutan en computadoras electrónicas está despertando interés en unir las dos áreas.
Hace más de 30 años, durante uno de los auge en la investigación de las redes neuronales artificiales, Demetri Psaltis y colegas del Instituto de Tecnología de California demostraron cómo las técnicas de la holografía podían realizar un reconocimiento facial rudimentario. Los miembros del equipo mostraron que podían almacenar hasta mil millones de pesos para una red neuronal de dos capas utilizando los elementos centrales de una pantalla de cristal líquido. Los moduladores espaciales de luz similares se convirtieron en la base de varios intentos de comercializar la tecnología de la computación óptica, incluidos los de la startup con sede en el Reino Unido Optalysys, que se ha centrado en los últimos años en aplicar la tecnología para acelerar el cifrado homomórfico para admitir la computación remota segura.
Aunque algunos grupos están utilizando moduladores espaciales de luz para la IA, representan solo una categoría de la computadora óptica adecuada para el trabajo. También hay decisiones sobre qué forma de redes neuronales se adapta mejor a la computación óptica. Algunas técnicas se centran en las operaciones de aritmética matricial de las canalizaciones de aprendizaje profundo convencionales, mientras que otras se centran directamente en la emulación de los trenes de pulsos de los cerebros biológicos.
Lo que todos los sistemas propuestos tienen en común es la posibilidad de que, utilizando fotones para comunicar y calcular, brinden grandes ventajas en densidad y velocidad sobre los sistemas basados puramente en señalización eléctrica. Un estudio de inferencia basado en la aritmética matricial realizado en 2021 por Mitchell Nahmias, ahora CTO de la startup Luminous Computing, y sus colegas de la Universidad de Princeton argumentó que la eficiencia teórica de la inferencia de IA en el dominio óptico podría superar con creces la de los aceleradores convencionales basados en arquitecturas existentes solo en electrónica.
El problema clave para el aprendizaje automático es la cantidad de energía necesaria para mover datos alrededor de los aceleradores. Los aceleradores electrónicos a menudo emplean estrategias para almacenar en caché tantos datos como sea posible para reducir esta sobrecarga, con grandes compensaciones en cuanto a si los resultados temporales o los pesos se mantienen en la caché según la estructura del modelo. Sin embargo, el costo de energía de transportar fotones sobre distancias mayores que el alcance de un solo chip es mucho menor que el de la señalización eléctrica.
- 3 formas de incrustar un gráfico de Matplotlib en una página HTML
- ¿Siguen siendo necesarios los científicos de datos en la era de la ...
- El poder de la llamada de función de OpenAI en los modelos de apren...
Una segunda ventaja potencial de la IA fotónica proviene de la facilidad con que puede manejar operaciones complejas en el dominio analógico, aunque los ahorros de energía alcanzables aquí son menos ciertos que para las comunicaciones. Mientras que la aritmética matricial se basa en circuitos de hardware altamente paralelizados para el rendimiento en sistemas convencionales, simplemente pasar fotones a través de un componente óptico como un interferómetro Mach-Zehnder (MZi) o un resonador de microanillo realizará la aritmética que requiere cientos o incluso miles de compuertas lógicas en un circuito digital.
En el MZi, haces coherentes de luz pasan a través de una sucesión de acopladores y desfasadores. En cada punto de acoplamiento, la interferencia entre los haces resulta en desplazamientos de fase que se pueden interpretar como parte de una multiplicación de matrices. Una operación de matriz 4×4 requiere solo cuatro entradas que alimentan seis elementos de acoplamiento, con cuatro puertos de salida que proporcionan el resultado. La velocidad de las operaciones está limitada solo por la velocidad a la que se pueden pasar los pulsos coherentes a través de la matriz.
En las arquitecturas analógicas, el ruido presenta un obstáculo significativo. El trabajo de numerosos grupos sobre la aceleración de las operaciones de inferencia ha demostrado que las redes neuronales profundas pueden funcionar con éxito a una resolución efectiva de 4 bits, pero los costos generales de hardware y energía aumentan rápidamente a medida que aumenta la resolución. Estos efectos pueden limitar la ventaja energética práctica de los diseños fotónicos.
Los cálculos de Alexander Tait, profesor asistente en la Universidad Queen’s de Ontario, encontraron que los posibles ahorros de energía fácilmente erosionados por las limitaciones prácticas de los dispositivos ópticos actuales. Tait calculó que solo 500 resonadores de microanillo actuando como neuronas en un diseño completamente conectado podrían caber en un solo troquel de 1 cm 2 utilizando la tecnología de principios de la década de 2020. Pero operando a 10 GHz, requeriría un kilovatio de energía. Tait destaca que el ejemplo muestra el impacto de la necesidad actual de calentadores para ajustar las propiedades ópticas. La escalabilidad y los cambios de diseño podrían reducir la energía dramáticamente. “Los calentadores son ciertamente un problema solucionable”, dice.
Una posible dirección es utilizar materiales de cambio de fase como los utilizados en los DVD regrabables y las memorias no volátiles. Estos materiales exhiben cambios en sus propiedades electro-ópticas según la rapidez con que se enfrían después de un calentamiento rápido. Pero como no necesitan calentamiento constante, resultarían en computadoras ópticas de menor consumo energético si se pueden hacer funcionar de manera confiable.
“Si tienes un cambiador de fase que tenga una baja energía, hay muchas cosas que puedes hacer en la fotónica integrada”, dice Carlos Ríos Ocampo, profesor de ciencia e ingeniería de materiales en la Universidad de Maryland.
Sin embargo, existen diferencias en la forma en que los materiales se pueden aplicar. Tait señala que aunque la energía de las implementaciones MZi y multiplicador de micro-anillo son similares hoy en día, debido a que la sintonización necesaria para los dispositivos MZi es dinámica, la naturaleza no volátil de los materiales de cambio de fase no ofrece tantos beneficios como en los micro-anillos.
“Si tienes un cambiador de fase que tenga una baja energía, hay muchas cosas que puedes hacer en la fotónica integrada.”
Otro factor a favor del procesamiento óptico es que el alto ancho de banda y la velocidad del procesamiento fotónico significa que la integración no necesita estar al nivel del procesamiento electrónico.
“La métrica es la densidad de cómputo. Si realizas operaciones vectoriales o matriciales con fotónica, no necesitas dispositivos de núcleo denso: con la mayor velocidad puedes usar el hardware recursivamente”, dice Bhavin Shastri, profesor asistente en la Universidad Queen’s.
Un problema potencialmente más difícil para las redes neuronales fotónicas radica en la necesidad de un comportamiento no lineal en los algoritmos de inteligencia artificial. La mayoría de los componentes fotónicos convencionales funcionan completamente de manera lineal y carecen de la flexibilidad de los transistores que pueden funcionar en regiones lineales y no lineales.
“Las interacciones no lineales se vuelven bastante desafiantes. O necesitas nuevos materiales para mejorar las no linealidades o vas a la conversión óptico-electrónico-óptico, y esto debe hacerse de manera muy eficiente”, dice Shastri. Hoy en día, el retraso en la conversión electro-óptica reduce la ventaja teórica de rendimiento del AI fotónico.
Ríos Ocampo señala que los operadores de fabricación de semiconductores que podrían construir los chips de fotónica de silicio necesarios se muestran reacios a introducir nuevos materiales en sus procesos sin un gran impulsor del mercado. La computación fotónica aún no ha proporcionado la demanda necesaria. Alguna ayuda puede provenir de la experiencia que las empresas de semiconductores han obtenido en su trabajo de décadas en memorias de cambio de fase electrónicas. Esto podría ayudar al desarrollo de memorias ópticas no volátiles y otros componentes que serán útiles en estos sistemas, aunque la mayor parte del enfoque en los semiconductores ha sido en compuestos que absorben la luz. Los materiales transparentes que se pueden utilizar para manipular solo la fase necesitarían muchas más pruebas de compatibilidad con el equipo de fabricación de semiconductores.
A pesar de que el AI fotónico se encuentra en una etapa temprana de su evolución, varias nuevas empresas han emprendido planes para construir aceleradores fotónicos comerciales, aprovechando las mejoras en la fotónica de silicio realizadas hasta ahora, principalmente en respuesta a las necesidades del sector de redes y comunicaciones. El rendimiento de la comunicación sigue siendo un punto clave de enfoque en el mundo de la AI. Entre el pequeño grupo de nuevas empresas, Lightmatter está trabajando en un acelerador fotónico y una tecnología interconectada ópticamente que se puede utilizar para mejorar la velocidad de las comunicaciones entre módulos electrónicos.
Luminous Computing originalmente planeaba construir su propio sistema de AI fotónico, pero la empresa ha optado por centrarse en un acelerador electrónico respaldado por una interconexión fotónica de diseño propio.
El presidente de Luminous, Michael Hochberg, dice que después de investigar sus opciones para un núcleo fotónico, “concluimos que los cuellos de botella que impedían mejoras dramáticas estaban en otra parte del sistema”.
Un futuro más brillante para la AI fotónica completa puede estar fuera de los sistemas de centro de datos, como los que están construyendo Lightmatter y Luminous. “Esta otra comunidad está buscando aplicaciones donde la electrónica tiene desafíos fundamentales”, dice Shastri. “Hay algunas cosas que no puedes simplemente transferir a un centro de datos. La pregunta entonces se vuelve: ¿cuáles son esas tareas?”
Aunque la tendencia fue de corta duración en su momento, el impulsor detrás de la investigación de enrutadores solo ópticos a fines de la década de 1990 fue la creencia de que sería más fácil dirigir paquetes a velocidad de línea manteniendo los datos en el dominio fotónico y no tomar la carga de la conversión electro-óptica y digital-analógica. Existen numerosas posibles aplicaciones donde las salidas de sensores se pueden tomar y usar directamente sin tener que pasar por la conversión analógica-digital, en contraste con los sistemas de centro de datos que trabajan con datos almacenados.
Shastri señala el trabajo reciente sobre el uso del procesamiento fotónico analógico para separar transmisiones de radio. “Es una forma del problema del cóctel: en un espectro de radio abarrotado, necesitas encontrar y enfocarte en una sola señal y utilizar formas inteligentes de procesarla. No puedes simplemente utilizar filtrado. El ancho de banda de la electrónica es estrecho y la escala de energía si utilizas procesamiento electrónico puede crecer cuadráticamente dependiendo del número de canales o antenas. Mostramos que puedes procesar a anchos de banda realmente amplios. Y la energía se escala linealmente”.
“Hay algunas cosas que no puedes simplemente transferir a un centro de datos. La pregunta entonces se vuelve: ¿cuáles son esas tareas?”
Otra aplicación potencial se encuentra en tareas de optimización, así como en control predictivo y estabilización para vehículos de movimiento rápido, como aviones hipersónicos. “Donde se necesita converger hacia una solución muy rápido, la fotónica puede tener una ventaja”.
Aunque mucho depende de la capacidad de integrar múltiples tecnologías de manera rentable, la enorme demanda de inteligencia de datos en una creciente gama de aplicaciones puede proporcionar a la computación fotónica las condiciones necesarias para evitar otro invierno de investigación y desarrollo.
Lecturas adicionales
Huang, C. et al. Perspectivas y aplicaciones de las redes neuronales fotónicas. Advances in Physics: X, 7:1, 1981155 (2021)
Nahmias, M.A, Ferreira de Lima, T., Tait, A.N., Peng, H.-T., Shastri, B.J, y Prucnal, P.R. Operaciones de multiplicación y acumulación fotónicas para redes neuronales. IEEE Journal of Selected Topics in Quantum Electronics, Volumen 26, Issue 1 (2020)
Ríos Ocampo, C.A. et al. Fotónica no volátil ultracompacta basada en materiales de cambio de fase transparentes reprogramables eléctricamente. PhotoniX, 3:26 (2022)
Tait, A.N. Cuantificación de la energía en redes neuronales fotónicas de silicio. Physical Review Applied 17, 054029 (2022)
Volver arriba
Autor
Chris Edwards es un escritor con sede en Surrey, Reino Unido, que informa sobre electrónica, TI y biología sintética.
©2023 ACM 0001-0782/23/7
Se concede permiso para hacer copias digitales o impresas de parte o la totalidad de este trabajo para uso personal o en el aula sin cargo, siempre y cuando no se hagan o distribuyan copias con fines de lucro o ventaja comercial y que las copias lleven este aviso y la cita completa en la primera página. Se debe respetar los derechos de autor de los componentes de este trabajo que sean propiedad de terceros distintos de ACM. Se permite la abstracción con crédito. Para copiar de otra manera, republicar, publicar en servidores o redistribuir a listas, se requiere permiso previo específico y/o cuota. Solicite permiso para publicar a [email protected] o por fax al (212) 869-0481.
La Biblioteca Digital es publicada por la Association for Computing Machinery. Copyright © 2023 ACM, Inc.