¿Cómo pueden los puntos de venta automatizados reconocer productos sin etiquetar? Conozca el enfoque de visión por computadora PseudoAugment

¿Cómo reconocen los puntos de venta automatizados productos sin etiquetas? Conozca el enfoque PseudoAugment de visión por computadora.

Con los avances en técnicas de aprendizaje automático y aprendizaje profundo, también ha habido un aumento en la automatización de varias dimensiones. La automatización está reduciendo progresivamente la necesidad de intervención humana en numerosos aspectos rutinarios de la vida diaria, especialmente en el comercio minorista.

Nos permiten realizar un seguimiento de los recursos naturales y también ayudan a la sostenibilidad ambiental. Los sistemas automatizados ayudan a optimizar la cadena de suministro mediante la mejora de la gestión de inventario, la previsión de la demanda y la coordinación logística. Sin embargo, hay casos en los que la automatización es difícil y compleja. La identificación de productos sin un código de barras es un ejemplo.

Se requiere la capacidad de discernir objetos ponderados para facturar adecuadamente a un consumidor en una estación de autoservicio. Dicho sistema debe ser capaz de identificar todos los muchos tipos de productos no envasados, granos y otros bienes vendidos. En general, en muchas tiendas minoristas, los clientes deben recordar un código de producto y pesar los productos en la sección para identificar por sí mismos el tipo de frutas o verduras.

Para superar este problema, los investigadores de Skoltech y otras instituciones han ideado una nueva forma de distinguir productos ponderados en un supermercado. Los investigadores utilizaron la visión por computadora para facilitar este proceso. Este enfoque acelera el entrenamiento de redes neuronales incluso cuando se introducen nuevas variedades de productos.

Para facilitar esta investigación, los investigadores recopilaron diferentes tipos de imágenes. Las imágenes que recopilaron fueron tomadas en diversos lugares: en un jardín, en una tienda de comestibles local y en un entorno de laboratorio. Tomaron 1000 imágenes naturales por clase, lo que suma un total de 5000 imágenes naturales. Otro tipo de imagen que utilizaron contiene imágenes de contenedores desde arriba en las que se veían muchos objetos desde arriba. Utilizaron 70 imágenes de vista superior por clase, con un promedio de 7,1 objetos por imagen. Combinaron diferentes imágenes y fondos, aplicaron diversas transformaciones y generaron más imágenes de entrenamiento que el número de objetos recortados.

Los investigadores también aumentaron (una manipulación visual de datos en bruto que agrega imágenes creadas a fotos) las imágenes asegurándose de que la degradación de la calidad de detección sea mucho menor que sin PseudoAugment.

El equipo de investigación dijo que existen algunas limitaciones con los tipos de procesos anteriores. Dijeron que la dificultad radica en que en el supermercado hay muchas frutas o verduras visualmente similares, y a menudo aparecen nuevos tipos. Los sistemas clásicos de visión por computadora deben ser reentrenados cada vez que se entrega una nueva variedad. Además, dijeron que lleva mucho tiempo porque tenemos que recopilar mucha información y luego etiquetarla manualmente.

Para comprobar la precisión y el rendimiento de este enfoque, los investigadores categorizaron cinco tipos diferentes de frutas y descubrieron que cuando el número de fotos de entrenamiento naturales es inferior a 50, la salida del proceso predeterminado era básicamente una suposición. Enfatizaron que la ventaja de este enfoque se puede ver cuando la imagen de entrenamiento original es inferior a 250. Los investigadores también probaron la precisión del enfoque en el problema de clasificación de frutas y observaron que el enfoque puede alcanzar una precisión del 98,3% sin imágenes de entrenamiento naturales.