Estudiantes del DCC presentan artículos científicos en conferencias sobre visión por computador

Image preview

De izquierda a derecha, los estudiantes del DCC, Lukas Pavez y Javier Morales, y el profesor José M. Saavedra, quienes desarrollaron dos artículos científicos en el área de visión por computador, los cuales fueron aceptados en importantes conferencias del área.


Compartir

Lukas Pavez y Javier Morales desarrollaron estos trabajos junto al profesor José M. Saavedra.

 

Una destacada participación en actividades de investigación tienen los estudiantes del DCC, Lukas Pavez y Javier Morales, quienes participaron en el desarrollo de dos artículos científicos en el área de visión por computador, los cuales fueron aceptados en importantes conferencias del área. Cada uno, de estos artículos se realizó bajo la guía del profesor jornada parcial del DCC, José M. Saavedra.

 

En el caso de Lukas Pavez, el trabajo desarrollado junto al profesor Saavedra se titula “NL-FCOS: Improving FCOS through Non-Local Modules for Object Detection”, el cual fue aceptado en la International Conference on Pattern Recognition (ICPR – 2022), que se realizará del 21 al 25 de agosto en Montreal, Canadá.

 

Sobre este trabajo, José M. Saavedra comenta que tiene un potencial impacto en la industria del eCommerce, donde —afirma— “la detección de ropa es altamente relevante” y explica: “Los modelos de detección de objetos han estado fuertemente ligados a la inferencia de regiones, en base a transformar un conjunto de rectángulos base llamados anchors. Sin embargo, este mecanismo se aleja del modo natural de detectar objetos de interés, que más bien están asociados a interrelacionar diferentes regiones para entender al objeto como un todo, fenómeno que es conocido como perceptual grouping en el ámbito biológico. En este artículo demostramos que el fenómeno perceptual grouping se puede implementar como mecanismos de autoatención, y con esto aligerar la maquinaria para la detección, reduciendo la complejidad asociada al uso de anchors”. Agrega que la propuesta que realizan con el estudiante Lukas Pavez tiene que ver con la red NL-FCOS, sobre la cual señala que “aprovechando los mecanismos de autoatención, del tipo non-local features, podemos aumentar la efectividad de modelos libres de anchors como FCOS. Nuestros resultados incrementan la efectividad en la detección de prendas de vestir, superando por primera vez, el 60%, con un tiempo de inferencia de 35 ms”.

 

En tanto, el estudiante Javier Morales junto con el profesor José M. Saavedra y Nils Murrugarra-Llerena (Weber State University), desarrollaron el artículo científico “Leveraging Unlabeled Data for Sketch-based Understanding”, el cual será presentado en el Workshop Sketch-Oriented Deep Learning (SketchDL) que se realizará el 20 de junio en New Orleans, Estados Unidos, en el marco de la Conferencia IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR).

 

Sobre este trabajo, el profesor José M. Saavedra comenta: “El entendimiento de nuestro entorno a través de dibujos (sketch-based understanding) es un componente crítico del aprendizaje cognitivo humano y representa la forma primitiva de comunicación entre humanos. Este tópico ha capturado recientemente la atención de la comunidad de visión por computadora, ya que la comunicación por dibujos representa una herramienta potente para expresar intenciones, deseos, expresiones, etc. Además, un dibujo permite expresar tanto objetos estáticos como escenas dinámicas. Sin embargo, aunque hay una diversidad de potenciales aplicaciones, aún no hemos visto su masificación, debido principalmente a que los modelos existentes aún se basan en modelos supervisados que requieren muchos datos etiquetados que no están disponibles en ambientes reales. Y aquí es donde los modelos autosupervisados toman importancia”.

 

En este contexto, explica que el trabajo desarrollado junto a Javier Morales y Nils Murrugarra-Llerena, presenta un primer estudio que aborda cómo aprovechar la gran cantidad de datos no etiquetados para favorecer el entendimiento en base a dibujos a través de modelos autosupervisados. “Nuestros resultados demuestran un significativo incremento en el nivel de generalización de los modelos autosupervisados con respecto aquellos basados en etiquetas. Además, recientemente hemos extendido nuestro modelo a un contexto bimodal para la recuperación de imágenes a través de dibujos (mezclando fotos y dibujos), resultados que serán publicados próximamente”, concluye José M. Saavedra.

 

--
Comunicaciones DCC