OWD by le Lab R&D Novelis : identifier objets et mots dans une vidéo grâce à l’IA / ML

Dans le cadre de son activité de R&D, Novelis investit pour mettre au service les technologies émergentes liées au Machine Learning (ML), au Natural Language Processing (NLP) parties prenantes de l’Intelligence Artificielle. Le Laboratoire R&D de Novelis travaille également avec le Laboratoire de l’école Polytechnique de Paris sur ces technologies notamment sur l’usage du NLP pour le développement de logiciels.

C’est dans ce cadre que Novelis a développé OWD (Object Word Detection) via son programme NovyIdea qui regroupe tous les projets du Laboratoire au stade de pré-déploiement.


OWD en quelques mots :

  • Une solution qui permet la détection des séquences liées à des objets ou des mots dans une vidéo ;
  • Une solution qui liste tous les moments (en séquence / seconde) où des mots sont cités ;
  • Une solution qui permet d’indiquer à quel moment un objet spécifique apparait dans une vidéo (voiture, lampe, etc.) ou bien toutes les séquences où l’objet en question apparaît.

OWD et ses cas d’usages :

  • Pour une entreprise qui veut proposer à ses clients des publicités ayant une liaison avec les objets et l’audio de la vidéo qui figure dans son site web.
  • Pour un laboratoire de bactériologie qui veut avoir des alertes lors de l’apparition d’un objet spécifique au moment de la culture par exemple.
  • Pour les plateformes MOOC ou e-learning, si un étudiant veut accéder à une séquence spécifique en saisissant le nom de l’objet ou bien le mot spécifique.
  • Pour les sites de e-commerce, pour permettre de proposer au client un produit qui a un rapport avec la vidéo et donc aussi les publicitaires 🙂

Bien sûr la liste n’est pas exhaustive et pour être transparent nous avons même eu l’occasion de parler d’OWD à des sociétés d’import / export pour le contrôle de marchandises réceptionnées (contrôles par vidéo pour accord ou refus)


Principes techniques :

Autour de l’architecture :

Autour de l’environnement :

  • Application Web (langage de développement Python / Framework Flask)
  • Détection des objets (IA – DL, Dataset : coco, API : OpenCV)
  • Détection des mots (API : speech recognition)

Quoi de mieux qu’une vidéo?


Si vous avez des questions, si vous êtes intéressés pour en savoir plus, pour identifier ce que cette approche pourrait vous apporter, vous n’hésitez évidemment pas à nous contacter 🙂