Cuando ChatGPT surgió a finales de 2022, el potencial parecía ilimitado, pero pocos consumidores sabían exactamente cómo aprovechar la nueva herramienta de inteligencia artificial en su vida cotidiana. Al principio, las empresas respondieron de manera muy similar a los modelos de lenguaje grande (LLM), como ChatGPT, para crear imágenes a partir de texto: parecían un conjunto de soluciones obviamente poderoso, pero que tal vez buscaban un problema específico que resolver.
Sin embargo, en los 18 meses transcurridos desde entonces, empresas desde Google hasta Adobe y Duolingo han estado incorporando LLM y herramientas de conversión de texto a imagen en sus productos estrella, haciendo que su utilidad ya no parezca tan remota. En esta publicación de blog exploraremos las implicaciones emergentes de la tecnología de IA generativa para la industria de la videovigilancia, incluidos los casos de uso más prometedores y algunos desarrollos recientes en la tecnología subyacente.
Caso de uso n.º 1: creación de datos de imágenes sintéticas:
Los datos sintéticos, generados algorítmicamente para aproximarse a los datos reales, son un recurso potencialmente valioso para entrenar modelos de IA en entornos donde los datos reales no están disponibles, son insuficientes o son demasiado sensibles para su uso. Para los casos de uso de videovigilancia, la tecnología de generación de imágenes podría ofrecer una forma de crear grandes cantidades de datos de entrenamiento sin encontrar las preocupaciones éticas y de privacidad inherentes al uso de datos del mundo real. Además, los datos de imágenes sintéticas permiten la creación de escenarios variados que pueden ser raros o difíciles de capturar en la vida real, pero que son esenciales para una capacitación integral en IA, lo que garantiza que los sistemas estén bien capacitados para cualquier cosa que puedan encontrar.
Esto es especialmente crucial cuando un sistema de vigilancia necesita aprender de casos inusuales o eventos raros, como métodos inusuales de robo o tipos específicos de intrusiones que no serían comunes en conjuntos de datos disponibles.
Caso de uso n.º 2: Interacción mejorada en lenguaje natural:
Otra aplicación de la IA generativa implica la forma en que los usuarios interactúan y obtienen información de sus sistemas de vídeo. Un beneficio adicional de mejorar rápidamente la tecnología de mensajes de texto a imagen es que abre la puerta para que los profesionales de la seguridad consulten sus instalaciones de monitoreo de video usando mensajes en lenguaje natural en lugar de a través de íconos u otros elementos tradicionales de la interfaz de usuario. Por ejemplo, si el gerente de una tienda sospecha que ocurrió un robo en algún momento de la semana pasada, pero no está seguro del día exacto, en lugar de buscar manualmente entre horas de video o hacer clic en una serie de íconos e ingresar varios parámetros, podría preguntar al sistema: «Muéstreme casos de presunto robo cerca del pasillo de productos electrónicos entre las 3:00 p. m. y las 5:00
p. m. la semana pasada». La IA, al comprender la consulta, examina los datos para presentar imágenes relevantes, lo que ahorra tiempo y hace que el proceso sea mucho más eficiente. Se necesitaría mucha menos capacitación y se cometerían menos errores con el lenguaje natural como interfaz principal del sistema.
Caso de uso n.º 3: mayor precisión y detección de escenas:
La IA generativa, con las nuevas tecnologías emergentes que se describen a continuación, también puede mejorar la precisión de los análisis de videovigilancia al reducir los falsos positivos mediante una mejor comprensión del contexto de la imagen. En el comercio minorista, el análisis de vídeo mejorado con IA puede reducir los falsos positivos en la detección de robos al distinguir con mayor precisión entre comportamientos sospechosos e interacciones normales con los clientes. Por ejemplo, diferenciar entre un cliente que recoge un artículo para inspeccionarlo más de cerca y uno que intenta ocultarlo para robarlo se vuelve más manejable.
La tecnología más nueva: Vision Transformers:
Para analizar imágenes y vídeos, la mayoría de la tecnología de IA comercial actual aprovecha las redes neuronales convolucionales o CNN. La era de la IA generativa, por otro lado, ha introducido Vision Transformers (ViTs), una nueva técnica de conversión de imagen a texto inspirada en LLM de solo idiomas como ChatGPT.
Para comprender por qué los ViT pueden desempeñarse mejor en tareas de análisis de video que las CNN, considere la escena de un parque urbano lleno de gente donde queremos identificar y rastrear el movimiento de cada persona a lo largo del tiempo. Una CNN tradicional podría centrarse en patrones locales, como reconocer partes de las personas (por ejemplo, cabezas u hombros), pero podría tener dificultades para realizar un seguimiento de cada persona entre muchas otras, especialmente cuando se mueven detrás de árboles u otras personas.
Un Vision Transformer, sin embargo, trata la escena como un gran rompecabezas, observando todas las partes de la imagen a la vez. Es mejor comprender que la persona que caminó detrás de un árbol es la misma que sale por el otro lado, aunque esté parcialmente oscurecida por un momento. Esta visión global hace que los ViT sean especialmente buenos para rastrear movimientos en escenas concurridas o complicadas, mejorando la forma en que monitoreamos y analizamos los movimientos en espacios públicos para mayor seguridad.
Más allá de Vision Transformers: ¿qué sigue?
Vision Transformers está revolucionando la forma en que procesamos imágenes fijas al tratarlas como rompecabezas interconectados, pero el campo en constante evolución del video y la analítica exige una comprensión aún más contextual de las marcas de tiempo. Al reconocer la naturaleza dinámica del vídeo, los investigadores han comenzado a desarrollar innovaciones que van más allá de las imágenes estáticas para comprender el flujo y la narrativa de las escenas a lo largo del tiempo. Estos avances consideran cómo los objetos y las personas se mueven, interactúan y cambian de un fotograma al siguiente, proporcionando una comprensión más profunda del contenido de vídeo. Esta evolución del análisis estático al dinámico es crucial para la videovigilancia, ya que mejorará nuestra capacidad para interpretar actividades y comportamientos complejos a medida que la tecnología madure.
Conclusión: Mientras nos encontramos al borde de estos apasionantes avances tecnológicos, está claro que la integración de Vision Transformers y nuevas innovaciones diseñadas para el análisis de vídeo dinámico en productos de análisis de vídeo es inminente. En los próximos meses, podemos anticipar que estos desarrollos mejorarán significativamente las capacidades de los sistemas de videovigilancia. Las implicaciones de estos avances son profundas: al permitir una identificación más precisa de actividades, comportamientos y tendencias, influirán en gran medida en la eficacia y el éxito de las instalaciones de videoseguridad.
Donald Lyman, President, Peregrine Security, Inc.