Extraigan conocimientos sólidos del contenido de imágenes y videos con Azure Cognitive Service for Vision

Por: Xuedong Huang, asociado técnico de nube e IA.

Nos complace anunciar la vista previa pública del modelo base Florence de Microsoft, entrenado con miles de millones de pares de texto e imágenes e integrado como servicios de visión artificial rentables y listos para la producción en Azure Cognitive Service for Vision. Los servicios de visión mejorados permiten a los desarrolladores crear aplicaciones de visión artificial responsables, de vanguardia y listas para el mercado en diversas industrias. Los clientes ahora pueden digitalizar, analizar y conectar sin problemas sus datos a interacciones en lenguaje natural, para desbloquear información valiosa de su contenido de imagen y video para respaldar la accesibilidad, impulsar la adquisición a través de SEO, proteger a los usuarios de contenido dañino, mejorar la seguridad y mejorar los tiempos de respuesta a incidentes.

De manera reciente, Microsoft fue nombrado líder en IDC MarketScape: evaluación mundial de proveedores de plataformas de software de IA de visión artificial de propósito general en 2022 (doc n.º US49776422, noviembre de 2022). Los nuevos servicios de visión mejoran la detección de contenido con subtítulos automáticos, recorte inteligente, clasificación, eliminación de fondo y búsqueda de imágenes. Además, los usuarios pueden rastrear movimientos, analizar entornos y recibir alertas en tiempo real con controles de IA responsables.

Reddit utilizará Vision Services para generar subtítulos para cientos de millones de imágenes en su plataforma. Tiffany Ong, gerente de productos de productos de consumo de Reddit, dijo:

“Con la tecnología Vision de Microsoft, facilitamos que los usuarios descubran y comprendan nuestro contenido. Los subtítulos de imagen recién creados hacen que Reddit sea más accesible para todos y brindan a los redditores más oportunidades para explorar nuestras imágenes, participar en conversaciones y, en última instancia, crear conexiones y un sentido de comunidad».

Microsoft aprovecha el poder de los nuevos servicios de visión en las aplicaciones de Microsoft 365 como Teams, PowerPoint, Outlook, Word, Designer, OneDrive, además de Microsoft Datacenter. Microsoft Teams impulsa la innovación en el espacio digital con la ayuda de capacidades de segmentación, para llevar las reuniones virtuales al siguiente nivel. PowerPoint, Outlook y Word aprovechan los subtítulos de imágenes para texto alternativo automático para mejorar la accesibilidad. Microsoft Designer y OneDrive utilizan etiquetado de imágenes mejorado, búsqueda de imágenes y generación de fondo para simplificar la detección y edición de imágenes. Los centros de datos de Microsoft aprovechan Vision Services para mejorar la seguridad y la confiabilidad de la infraestructura.

En la Microsoft Ability Summit de esta semana, las empresas aprenderán cómo pueden mejorar la accesibilidad de su contenido visual. Compartiremos el futuro de nuestra aplicación Seeing AI y LinkedIn compartirá los beneficios de utilizar Vision Services para ofrecer descripciones automáticas de texto alternativo para el análisis de imágenes. Como avance, Jennison Asunción, directora de evangelización de ingeniería de accesibilidad de LinkedIn, ha dicho:

“Más del 40 por ciento de las publicaciones de noticias de LinkedIn incluyen al menos una imagen. Queremos que todos los miembros tengan el mismo acceso a las oportunidades y estamos comprometidos a garantizar que hagamos que las imágenes sean accesibles para nuestros miembros ciegos o con problemas de visión para que puedan ser parte de la conversación en línea. Con Azure Cognitive Service for Vision, podemos proporcionar subtítulos automáticos para editar y admitir descripciones alternativas de texto. Estoy entusiasmada con esta nueva experiencia porque ahora, no solo sabré que mi colega compartió una imagen de un evento al que asistió, sino que mi director ejecutivo, Ryan Roslansky, también está en la imagen”.

Prueben las nuevas funciones listas para usar que nuestros clientes utilizan en Vision Studio:

Subtítulos densos: entreguen subtítulos enriquecidos, sugerencias de diseño, texto alternativo accesible, optimización SEO y selección inteligente de fotografías de manera automática para respaldar el contenido digital.
Recuperación de imágenes: mejoren las recomendaciones de búsqueda y los anuncios con consultas en lenguaje natural que miden sin problemas la similitud entre las imágenes y el texto.

Eliminación de fondo: transformen la apariencia de las imágenes al segmentar con facilidad personas y objetos de su fondo original, reemplazándolos con una escena de fondo preferida.
Personalización de modelos: reduzcan los costos y el tiempo para entregar modelos personalizados que se ajusten a las demandas comerciales únicas con alta precisión y con solo unas pocas imágenes.
Resumen de video (Video TL; DR): busquen e interactúen con contenido de video de la misma manera intuitiva en que piensan y escriben. Localicen contenido relevante sin necesidad de metadatos adicionales.

Innovar de manera responsable

Revisen los principios de IA Responsable para saber cómo nos comprometemos a desarrollar sistemas de IA que ayuden a que el mundo sea más accesible. Estamos enfocados en ayudar a las organizaciones a aprovechar al máximo la IA e invertimos de manera importante en programas que brindan tecnología, recursos y experiencia para empoderar a quienes trabajan para crear un mundo más sostenible, seguro y accesible.

Comiencen a utilizar hoy Azure Cognitive Service for Vision

Revolucionen sus aplicaciones de visión por computadora con eficiencia, precisión y accesibilidad mejoradas en el procesamiento de imágenes y videos, al mismo precio bajo. Visiten Vision Studio para probar nuestras últimas demostraciones.

Obtengan más información sobre Azure Cognitive Service for Vision:

Comiencen a utilizar Microsoft Learn para desarrollar habilidades.
Miren la exhibición de Florence compartida en la conferencia CVPR de 2022.