Collages vidéo avec des moments intéressants
Publié: 2021-09-30Collages de photos et collages de vidéos
Nous pouvons voir des collages vidéo dans le matériel associé à Google qui génère des vidéos. Les photos de Google ont une fonction de collage, et je peux visiter et voir des collages d'images des emplacements exacts tous réunis. Il existe un moyen de marquer les « moments clés » des vidéos à l'aide du balisage de schéma afin que les résultats de la recherche dans Google puissent pointer vers les moments clés des vidéos (fortement recommandé). Un récent brevet de Google décrit la réalisation de collages vidéo et fait référence à des « moments intéressants » dans ces vidéos. Cela ne nous fait pas la différence entre un moment clé dans une vidéo et des moments intéressants dans des collages vidéo de plusieurs vidéos.
Mais il décrit pourquoi il pourrait faire des collages vidéo :
Il y a actuellement un milliard de smartphones en service. Il y a un potentiel de croissance sept fois supérieur à l'avenir. Les smartphones sont habitués à capturer et à consommer du contenu, comme des photos et des vidéos. Les vidéos véhiculent plus que les photos car elles capturent les variations temporelles. Mais, les gens peuvent être moins susceptibles de regarder des vidéos car toutes les parties de la vidéo ne sont pas intéressantes.
La description de base de ce brevet présente le contexte de ce brevet.
Génération de collages vidéo
Ce brevet fait référence à des moments intéressants dans les vidéos par opposition aux moments clés dans les vidéos. Il existe de nombreuses pages d'aide sur le marquage des moments clés dans les vidéos, mais aucune ne dit qu'elles indiquent des moments intéressants. Mais ils signalent des moments qui sont désignés comme intéressants par les personnes qui publient ces vidéos. Le brevet Video Collages présente un cadre décrivant comment les collages vidéo peuvent être construits, remplis de moments intéressants.
Utiliser un schéma pour marquer des moments clés dans les vidéos dans les résultats de recherche
Lorsque je suis tombé sur ce brevet, cela m'a rappelé le post du développeur Google sur la mise en œuvre du balisage SeektoAction : une nouvelle façon d'activer les moments clés de la vidéo dans la recherche. Bref, ça marche comme ça :
Aujourd'hui, nous lançons une nouvelle façon pour vous d'activer des moments clés pour les vidéos sur votre site sans avoir à étiqueter manuellement chaque segment. Tout ce que vous avez à faire est d'indiquer à Google le modèle d'URL pour passer à un horodatage spécifique dans votre vidéo. Google utilisera ensuite l'IA pour identifier les moments clés de la vidéo et afficher des liens directement vers ces moments dans les résultats de recherche.
Cela m'a également rappelé des personnes qui me posaient des questions sur les « moments clés » trouvés sur les vidéos Youtube. Il y a un article du blog Google sur ce sujet : La recherche vous aide à trouver des moments clés dans les vidéos Ce que cela nous dit rapidement, c'est que :
À partir d'aujourd'hui, vous pouvez trouver des moments clés dans les vidéos et accéder plus rapidement aux informations que vous recherchez, avec l'aide des créateurs de contenu.
Lorsque vous recherchez des éléments tels que des vidéos explicatives comportant plusieurs étapes ou de longues vidéos telles que des discours ou un documentaire, la recherche fournit des liens vers des moments clés de la vidéo, en fonction des horodatages fournis par les créateurs de contenu.
Vous pourrez facilement numériser pour voir si une vidéo a ce que vous recherchez et trouver la section appropriée du contenu.
Pour les utilisateurs de lecteurs d'écran, ce changement rend également le contenu vidéo plus accessible.
Cette page du développeur Google nous parle de ces horodatages : obtenez des vidéos sur Google avec un balisage de schéma
Les implémentations du brevet concernent un procédé mis en œuvre par ordinateur pour générer un collage. Le procédé consiste à déterminer des moments passionnants dans une vidéo. Le procédé comprend en outre la génération de segments vidéo sur la base des moments passionnants, chacun des segments vidéo ayant au moins l'un des moments passionnants de la vidéo. Le procédé comprend en outre la génération d'un collage à partir des segments vidéo, le collage comprenant au moins deux fenêtres, et chaque fenêtre contenant l'un des segments vidéo.
Je suis également tombé sur un article de Search Engine Land sur les moments clés dans les vidéos, qui nous dit que : Google lance officiellement SeekToAction pour les moments clés des vidéos dans la recherche
J'ai également trouvé cette page d'assistance sur Youtube concernant la fidélisation de l'audience : Mesurer les moments clés pour la fidélisation de l'audience
Les moments clés dans les vidéos peuvent être similaires aux moments intéressants dans les collages vidéo
Le brevet fournit beaucoup d'informations sur des moments intéressants.
Les opérations du brevet de collages vidéo comprennent en outre la réception d'une sélection des segments vidéo dans le collage et l'affichage de la vidéo correspondant à la sélection.
Déterminer les moments intéressants dans une vidéo comprend :
- Identification de l'audio dans la vidéo
- Citer un type d'action associé à l'audio dans la vidéo
- Générer un score d'intérêt pour chaque type d'audio dans la vidéo
- Déterminer les moments intéressants en fonction du score d'intérêt pour chaque type d'audio dans la vidéo
- Décider des moments intéressants de la vidéo comprend :
- Notant le mouvement dans la vidéo
- Recherche du type d'action associé au mouvement continu dans la vidéo
- Créer un score d'intérêt pour chaque type d'action dans la vidéo
- Localiser les moments intéressants en fonction du score d'intérêt pour chaque type d'action dans la vidéo
Les segments vidéo du collage sont configurés pour être lus automatiquement. Au moins un premier segment des segments vidéo du collage est configuré pour être lu à une fréquence d'images différente de celle des autres segments vidéo du collage.
Reconstituer les collages vidéo à partir des segments vidéo comprend la génération de données graphiques qui restituent le collage avec des segments vidéo dans des fenêtres de différentes tailles. Les fenêtres peuvent être basées sur les scores d'intérêt pour les segments vidéo, la longueur de chaque segment vidéo et un effet artistique.
Faire des collages vidéo de moments intéressants
Une méthode mise en œuvre par ordinateur pour générer un collage hiérarchique comprend :
- Trouver des moments intéressants dans une vidéo
- Y compris des segments vidéo basés sur des moments intéressants
- Regrouper les segments vidéo en groupes
- Réalisation de premiers collages correspondant chacun à l'un respectif des groupes et chacun des premiers collages comprenant au moins deux segments vidéo
- Sélection d'un segment représentatif pour chacun des groupes parmi les au moins deux segments vidéo de chacun des deux premiers collages ou plus
- Montrant un deuxième collage qui comprend le segment représentatif pour chacun des groupes, dans lequel le segment représentatif dans le deuxième collage est lié à un premier collage correspondant qui comprend au moins deux segments vidéo qui sont inclus dans un groupe correspondant
- Choisir une sélection de segments représentatifs dans le deuxième collage et provoquer l'affichage du premier collage correspondant
- Le regroupement des segments vidéo en groupes est basé sur le timing de chacun des segments vidéo ou le regroupement des segments vidéo en groupes est basé sur un type de moment intéressant associé à chacun des segments vidéo
- Déduire un score d'intérêt pour les moments intéressants et sélectionner le représentant pour chacun des groupes
peut obtenir en fonction du score d'intérêt
Un procédé comprend des moyens pour :
- Déterminer les moments intéressants dans une vidéo
- Génération de segments vidéo sur la base des moments intéressants, chacun des segments vidéo comprenant au moins l'un des moments intéressants de la vidéo
- Création d'un collage à partir des segments vidéo, dans lequel le collage comprend au moins deux fenêtres et dans lequel chaque fenêtre comprend l'un des segments vidéo
Le système et les procédés décrits ci-dessous résolvent le problème de l'identification de moments passionnants dans une vidéo en générant un collage qui comprend des segments vidéo des moments passionnants.
Le brevet des collages vidéo de moments intéressants
Le brevet Video Collages se trouve sur :
Collage de moments intéressants dans une vidéo
Inventeurs : Sharadh Ramaswamy, Matthias Grundmann et Kenneth Conley
Cessionnaire : Google LLC
Brevet américain : 11 120 835
Attribué : 14 septembre 2021
Déposé : 17 décembre 2018
Résumé
Une méthode mise en œuvre par ordinateur comprend la détermination de moments intéressants dans une vidéo. Le procédé comprend en outre la génération de segments vidéo sur la base des moments intéressants, chacun des segments comprenant au moins l'un des moments intéressants de la vidéo. Le procédé comprend en outre la génération d'un collage à partir des segments vidéo, le collage comprenant au moins deux fenêtres et chaque fenêtre comprenant l'un des segments vidéo.
Le brevet nous indique que les chercheurs sont plus susceptibles de visionner une vidéo s'ils peuvent prévisualiser des moments intéressants dans les vidéos et accéder directement à ces moments passionnants de la vidéo.
Une application vidéo est décrite ici :
- Trouve des moments intéressants dans une vidéo
- Construit des segments vidéo basés sur les moments intéressants
- Fait un collage à partir des segments vidéo qui incluent les segments vidéo dans un seul volet
Par exemple, une vidéo peut avoir un premier segment vidéo d'un enfant qui rit, un deuxième segment vidéo d'un chien courant après l'enfant et un troisième segment vidéo de l'enfant soufflant un gâteau d'anniversaire.
Comment les collages vidéo sont générés
L'application vidéo peut générer des collages vidéo qui affichent des boucles courtes, par exemple de deux à trois secondes, des premier, deuxième et troisième segments vidéo. Les fréquences d'images de chacun des segments vidéo peuvent différer. Par exemple, le premier segment vidéo peut inclure une vidéo au ralenti, le deuxième segment vidéo peut consister en une vidéo en accéléré et le troisième segment vidéo peut inclure un segment vidéo à vitesse normale.
Lorsqu'un utilisateur sélectionne l'un des segments vidéo dans le collage, l'application peut provoquer l'affichage de la vidéo correspondant à la partie sélectionnée. Par exemple, si le premier segment vidéo se produit à 2:03 minutes, la sélection de l'utilisateur entraîne la lecture de la vidéo à 2:03 minutes.
L'application vidéo peut générer un collage hiérarchique. L'application vidéo peut déterminer des moments passionnants dans une vidéo. Il peut ensuite créer des segments vidéo basés sur les moments passionnants.
Il pourrait regrouper les segments vidéo en groupes et générer des premiers collages basés sur les groupes. Il pourrait ensuite sélectionner une pièce représentative pour chaque groupe et générer un deuxième collage qui comprend un segment habituel pour chaque groupe.
Les groupes peuvent devenir basés sur le timing ou un type de moment intéressant associé à chaque segment vidéo. En poursuivant l'exemple ci-dessus, un premier groupe pourrait inclure un premier segment vidéo d'un enfant en train de rire, un deuxième segment vidéo d'un chien courant après l'enfant et un troisième segment vidéo de l'enfant soufflant un gâteau d'anniversaire qui se produisent tous dans le premier tiers de la vidéo.
Cette application vidéo peut également générer un score d'intérêt pour chaque segment vidéo et sélectionner le segment représentatif sur la base du score d'intérêt. Par exemple, le troisième segment vidéo de l'enfant soufflant le gâteau d'anniversaire peut avoir un score d'intérêt indicatif du segment vidéo le plus intéressant. En conséquence, l'application vidéo peut sélectionner le troisième segment comme segment représentatif pour le premier groupe du premier collage.
Lorsqu'un utilisateur sélectionne l'un des segments habituels du deuxième collage, l'application vidéo peut provoquer l'affichage du premier collage.
Un exemple d'application qui génère des collages vidéo
Ce brevet concerne une application qui comprend un serveur vidéo, des appareils utilisateur, un deuxième serveur et un réseau. Il semble qu'il puisse générer des collages vidéo avec une variété de périphériques matériels et qu'il ait été volontairement laissé grand ouvert pour du matériel non développé.
Les utilisateurs peuvent devenir associés aux appareils utilisateur respectifs. Le procédé peut inclure d'autres serveurs ou dispositifs.
Les entités du système sont couplées via un réseau. Le réseau peut être conventionnel : filaire ou sans fil, et peut avoir de nombreuses configurations différentes, y compris une configuration en étoile, une configuration en anneau à jeton ou d'autres configurations. En outre, le réseau peut comprendre un réseau local (LAN), un vaste réseau (WAN) (par exemple, Internet) et d'autres chemins de données interconnectés à travers lesquels de nombreux dispositifs peuvent communiquer.
La base de données peut stocker des vidéos créées ou téléchargées par des utilisateurs associés à des dispositifs utilisateurs et des collages générés à partir des vidéos.
La base de données peut stocker des vidéos développées indépendamment des appareils de l'utilisateur.
La base de données peut également stocker des données de réseau social associées à des utilisateurs.
Le dispositif utilisateur peut être un ordinateur doté d'une mémoire et d'un processeur matériel, tel qu'un appareil photo, un ordinateur portable, un ordinateur de bureau, une tablette, un téléphone mobile, un dispositif portable, un visiocasque. Le processeur matériel pourrait également être un dispositif de courrier électronique mobile, un lecteur de jeux portable, un lecteur de musique portable, un dispositif de lecture, un téléviseur avec des processeurs intégrés ou couplés à celui-ci, ou un autre dispositif électronique capable d'accéder à un réseau.
Le dispositif utilisateur est couplé au réseau via une ligne de signal. Une ligne de signal peut être une connexion filaire, telle qu'Ethernet, un câble coaxial, un câble à fibre optique, etc., ou une connexion sans fil, telle que Wi-Fi.RTM., Bluetooth.RTM., ou une autre technologie sans fil. Les appareils des utilisateurs sont respectivement accessibles par les utilisateurs.
Exemples de périphériques utilisateur utilisés pour créer des collages vidéo
L'appareil utilisateur peut être un appareil mobile qui est inclus dans un appareil portable porté par l'utilisateur. Par exemple, le dispositif utilisateur fait partie d'un clip (par exemple, un bracelet), d'un bijou ou d'une paire de lunettes. Dans un autre exemple, le dispositif utilisateur peut être une montre connectée. L'utilisateur peut visualiser des images de l'application vidéo sur un écran du dispositif porté par l'utilisateur. Par exemple, l'utilisateur peut afficher les images sur une montre intelligente ou un affichage de bracelet intelligent.
L'application vidéo peut être une application autonome qui est stockée sur l'appareil de l'utilisateur. L'application vidéo peut être stockée en partie sur le dispositif utilisateur et le serveur vidéo. Par exemple, l'application vidéo peut comprendre une application vidéo client léger stockée sur le dispositif utilisateura et une application vidéo stockée sur le serveur vidéo.
L'application vidéob stockée sur le dispositif utilisateur peut enregistrer une vidéo transmise à l'application vidéo stockée sur le serveur vidéo. Un collage est généré à partir de la vidéo. L'application vidéo peut envoyer le collage à l'application vidéo pour affichage sur le dispositif utilisateur. Dans un autre exemple, l'application vidéo stockée sur le dispositif utilisateura peut générer le collage et envoyer le collage à l'application vidéo stockée sur le serveur vidéo. L'application vidéo stockée sur le serveur vidéo peut inclure les mêmes composants ou des composants différents que l'application vidéo stockée sur le dispositif utilisateur.
L'application vidéo peut être une application autonome stockée sur le serveur vidéo. Un utilisateur peut accéder à l'application vidéo via une page Web à l'aide d'un navigateur ou d'un autre logiciel sur l'appareil de l'utilisateur. Par exemple, les utilisateurs peuvent télécharger une vidéo stockée sur l'appareil ou depuis le deuxième serveur vers l'application vidéo pour générer un collage.
Le second serveur peut comprendre un processeur, une mémoire et des capacités de communication réseau. Le deuxième serveur est un serveur matériel. Le second serveur envoie et reçoit des données vers et depuis le serveur vidéo et les dispositifs utilisateurs via le réseau.
Le deuxième serveur peut fournir des données à l'application vidéo. Par exemple, le deuxième serveur peut être un serveur distinct qui génère des vidéos utilisées par l'application vidéo pour créer des collages. Dans un autre exemple, le deuxième serveur peut être un serveur de réseau social qui maintient un réseau social où les collages peuvent être partagés par un utilisateur avec d'autres utilisateurs de réseau social. Dans encore un autre exemple, le deuxième serveur peut inclure un logiciel de traitement vidéo qui analyse les vidéos pour identifier des objets, des visages, des événements, un type d'action, du texte, etc. Le deuxième serveur peut être associé à la même société qui gère le serveur vidéo ou un société différente.
Collages vidéo avec informations sur l'entité jointes
Tant qu'un utilisateur consent à utiliser ces données, le second serveur peut fournir à l'application vidéo des informations de profil ou des images que l'application vidéo peut utiliser pour identifier une personne sur une photo avec un profil de réseau social correspondant. Dans un autre exemple, le deuxième serveur peut fournir à l'application vidéo des informations relatives à des entités identifiées dans les images utilisées par l'application vidéo.
Par exemple, le deuxième serveur peut comprendre une encyclopédie électronique qui fournit des informations sur des points de repère identifiés sur les photos. Ce site Web d'achat électronique fournit des informations aux entités acheteuses identifiées dans les images. Cette application de calendrier électronique propose, sous réserve du consentement de l'utilisateur, un nom d'événement associé à une vidéo, une application cartographique qui fournit des informations sur un emplacement associé à une vidéo, etc.
Les systèmes et méthodes décrits ici collectent, stockent et utilisent les informations personnelles des utilisateurs uniquement après avoir reçu l'autorisation explicite des utilisateurs concernés. Par exemple, un utilisateur contrôle si les programmes ou les fonctionnalités collectent des informations utilisateur sur cet utilisateur particulier ou si d'autres utilisateurs s'appliquent au programme ou à la partie. Les utilisateurs détiennent les informations pertinentes pour cet utilisateur et si les informations sont gérées et qui sont collectées.
Par exemple, les utilisateurs peuvent obtenir des options de contrôle. Des données spécifiques peuvent être traitées avant d'être stockées ou utilisées pour supprimer des informations personnellement identifiables. Par exemple, l'identité d'un utilisateur peut être traitée pour ne déterminer aucune information personnellement identifiable. Comme autre exemple, l'emplacement géographique d'un utilisateur peut être généralisé à une région plus grande de sorte que l'emplacement particulier de l'utilisateur ne peut pas être déterminé.
Un exemple d'ordinateur qui génère des collages vidéo
L'ordinateur peut être un serveur vidéo ou un dispositif utilisateur.
L'ordinateur peut comprendre un processeur, une mémoire, une unité de communication, un écran et un dispositif de stockage.
Une application vidéo peut être stockée dans la mémoire.
L'application vidéo comprend un module de traitement vidéo, un module de segmentation, un module de collage et un module d'interface utilisateur. D'autres modules et configurations sont possibles.
Le module de traitement vidéo peut fonctionner pour déterminer des moments excitants dans une vidéo. Le module de traitement vidéo peut être un ensemble d'instructions exécutables par le processeur pour décider des moments excitants de la vidéo. Le module de traitement vidéo peut être stocké dans la mémoire de l'ordinateur et accessible et exécutable par le processeur.
Le module de traitement vidéo peut être stocké sur un appareil qui est le serveur vidéo. Le module de traitement vidéo peut recevoir la vidéo de l'application vidéo stockée sur le dispositif utilisateur. Le module de traitement vidéo peut recevoir la vidéo d'un second serveur, qui stocke des films ou des émissions de télévision.
Le module de traitement vidéo détermine des moments passionnants dans la vidéo associés à un utilisateur. Le module de traitement vidéo peut identifier les moments passionnants et choisir les moments intéressants en fonction de l'étiquette. Par exemple, le module d'interface utilisateur peut générer une interface utilisateur qui comprend une option permettant à l'utilisateur de sélectionner des images, par exemple, en cliquant sur les étagères de la vidéo pour identifier des moments intéressants. Le module de traitement vidéo peut associer à la vidéo des métadonnées qui incluent des emplacements temporels pour les moments intéressants placés par l'utilisateur. Le module de traitement vidéo peut recevoir un signe de ce qui constitue un moment intéressant de la part d'un utilisateur. Par exemple, l'utilisateur peut spécifier que les moments intéressants incluent des personnes dans la vidéo disant une phrase particulière ou s'exprimant sur un sujet spécifique.
Traitement vidéo Trouver des moments intéressants
Le module de traitement vidéo détermine les moments intéressants en identifiant l'audio dans la vidéo. Le module de traitement vidéo peut déterminer le type d'audio dans la vidéo. Par exemple, le module de traitement vidéo peut classer l'audio associé à de la musique, des applaudissements, des rires, des huées, etc. Le module de traitement vidéo peut déterminer le niveau de volume de l'audio. Par exemple, dans une vidéo de match de basket, une augmentation du son des acclamations et des huées peut être associée à un moment intéressant, comme un joueur de basket ratant un coup.
Le module de traitement vidéo peut générer un score d'intérêt pour chaque type de mouvement sur la base du type d'audio. Par exemple, le module de traitement vidéo peut développer un score d'intérêt qui indique que le moment est intéressant en fonction du début de la musique ou du rire. Le module de traitement vidéo peut générer un score d'intérêt qui signifie que le moment n'est pas intéressant sur la base d'une toux ou d'un bruit de fond général. Le module de traitement vidéo peut déterminer le moment intéressant sur la base du score d'intérêt pour chaque type d'audio dans la vidéo.
Le module de traitement vidéo détermine des moments intéressants en identifiant un mouvement continu dans la vidéo et en identifiant un type d'action associé au mouvement constant dans la vidéo. Le module de traitement vidéo peut déterminer l'activité en classant les pixels dans une trame d'image en arrière-plan ou en avant-plan.
Le module de traitement vidéo peut classer toutes les trames d'images ou un sous-ensemble de trames d'images de la vidéo.
Le module de traitement vidéo identifie l'arrière-plan et le premier plan dans un sous-ensemble des trames d'image sur la base de la synchronisation des trames d'image. Le sous-ensemble peut inclure quelques-unes ou toutes les structures intra-codées (images I) de la vidéo. Par exemple, le module de traitement vidéo peut effectuer une classification toutes les trois trames de la vidéo. Dans un autre exemple, le module de traitement vidéo peut effectuer un tri sur un sous-ensemble des images de la vidéo, par exemple, uniquement les images I, les images I et quelques-unes ou toutes les images prédites (images P), etc.
Comparaison du mouvement de premier plan dans les segments vidéo
Ce module de traitement vidéo peut comparer le premier plan dans de nombreuses trames d'images vidéo pour identifier le mouvement de premier plan. Par exemple, le module de traitement vidéo peut utiliser différentes techniques pour identifier l'activité au premier plan, telles que la différenciation de trames, le filtrage médian adaptatif et la soustraction d'arrière-plan. Ce procédé identifie avantageusement le mouvement des objets au premier plan. Par exemple, dans une vidéo d'une personne faisant la roue à l'extérieur, le module de traitement vidéo peut ignorer les mouvements en arrière-plan, tels que le balancement des arbres dans le vent. Pourtant, le module de traitement vidéo identifie la personne effectuant la roue parce que la personne est au premier plan.
Et, le module de traitement vidéo peut analyser la vidéo pour déterminer l'action associée au mouvement continu. Par exemple, le module de traitement vidéo peut utiliser un vecteur basé sur un mouvement continu pour comparer le mouvement constant avec le mouvement continu dans les vidéos disponibles. Le module de traitement vidéo peut utiliser le vecteur t, identifier une personne promenant un chien, frappant une autre personne, attrapant un poisson, etc. Dans un autre exemple, le module de traitement vidéo peut effectuer une reconnaissance d'image pour identifier des objets et des types de mouvement associés aux choses. dans d'autres vidéos passées pour identifier l'action.
Par exemple, le module de traitement vidéo identifie un trampoline. Il détermine qu'une personne saute sur le trampoline en se basant sur des trampolines qui deviennent associés au saut, un gâteau qui est associé au découpage ou au soufflage d'un gâteau d'anniversaire, des skis qui deviennent associés au ski, etc. Le module de traitement vidéo peut associer des métadonnées à la vidéo qui inclut les horodatages de chaque type d'action. Par exemple, le module de traitement vidéo peut générer des métadonnées qui identifient un horodatage de chaque instance d'une personne conduisant un scooter dans la vidéo.
Moments intéressants basés sur un mouvement continu dans les vidéos
Aussi, le module de traitement vidéo peut déterminer un moment intéressant en fonction de l'action associée au mouvement continu. Par exemple, le module de traitement vidéo peut déterminer qu'une vidéo comprend un utilisateur faisant du skateboard. Le module de traitement vidéo génère un score d'intérêt basé sur le type d'action. Le module de traitement vidéo peut développer un score d'intérêt qui correspond à l'acte de faire de la planche à roulettes. Le module de traitement vidéo peut attribuer le score d'intérêt sur la base de la qualité de l'action. Par exemple, le module de traitement vidéo peut donner un score d'intérêt qui indique un moment plus intéressant lorsque les images avec le mouvement montrent :
- Une personne avec un visage visible
- Bords où la qualité des images est élevée
Ceux-ci seraient basés sur la visibilité de l'action, l'éclairage, le flou, la stabilité de la vidéo.
Avec le consentement de l'utilisateur, le module de traitement vidéo peut générer le score d'intérêt en fonction des préférences de l'utilisateur. Par exemple, si un utilisateur a exprimé un intérêt pour la planche à roulettes, le module de traitement vidéo génère un score d'intérêt qui indique que l'utilisateur trouve la planche à roulettes agréable. L'utilisateur fournit des intérêts explicites que le module de traitement vidéo ajoute à un profil d'utilisateur associé à l'utilisateur. Lorsque l'utilisateur donne son consentement à l'analyse d'un comportement implicite, le module de traitement vidéo détermine des types d'actions à ajouter au profil d'utilisateur sur la base d'un comportement implicite, comme fournir des indications d'approbation pour des médias associés à des types d'activités.
Reconnaissance d'objets sur des objets dans des collages vidéo
Le module de traitement vidéo peut effectuer une reconnaissance d'objet pour identifier des objets dans la vidéo. Avec le consentement de l'utilisateur, le module de traitement vidéo peut effectuer une reconnaissance d'objet qui comprend l'identification d'un visage dans la vidéo et la détermination d'une identité du visage. Le module de traitement vidéo peut comparer une trame d'image du visage à des images de personnes, atteindre la trame d'image à d'autres membres qui utilisent l'application vidéo, etc. Avec le consentement de l'utilisateur, le module de traitement vidéo peut demander des informations d'identification au second serveur.

Par exemple, le deuxième serveur peut maintenir un réseau social. Le module de traitement vidéo peut demander des images de profil ou d'autres utilisateurs de réseaux sociaux connectés à l'utilisateur associé à la vidéo. Avec le consentement de l'utilisateur, le module de traitement vidéo peut utiliser des techniques de reconnaissance faciale pour les personnes dans des cadres d'image de la vidéo pour identifier les personnes liées aux visages.
Le module de traitement vidéo peut générer des métadonnées qui comprennent l'identification des objets et des horodatages du moment où les choses apparaissent dans la vidéo. Par exemple, les métadonnées peuvent consister en des étiquettes qui identifient un type d'objet ou de personne. Si l'utilisateur a donné son consentement, le module de traitement vidéo peut générer des métadonnées qui incluent l'identification des personnes et des horodatages lorsque les personnes apparaissent dans la vidéo. Par exemple, pour une vidéo de la fille de l'utilisateur, le module de traitement vidéo peut générer des métadonnées qui identifient chaque fois que la fille apparaît dans la vidéo et les horodatages et identifie les objets avec lesquels la fille interagit dans la vidéo.
Le module de traitement vidéo génère un score d'intérêt pour identifier un type d'objet ou une personne dans la vidéo. Le module de traitement vidéo peut comparer une variété d'objets à une liste d'éléments positifs et à une liste d'objets nuisibles qui incluent des objets communément reconnus comme étant respectivement positifs et négatifs.
Lorsque l'utilisateur consent aux données utilisateur, le module de traitement vidéo attribue le score d'intérêt sur la base des informations de personnalisation pour un utilisateur associé à la vidéo. Par exemple, avec le consentement de l'utilisateur, le module de traitement vidéo maintient un graphe social et génère le score d'intérêt sur la base d'une relation entre l'utilisateur et une personne dans la vidéo telle qu'identifiée à l'aide du graphe social.
Personnalisation et réactions de l'utilisateur à la vidéo
Le module de traitement vidéo peut déterminer des informations de personnalisation, sous réserve du consentement de l'utilisateur, sur la base de données détaillées fournies par l'utilisateur, des informations implicites trouvées sur les réactions de l'utilisateur aux vidéos, telles que des commentaires fournis sur des sites de vidéos, une activité dans des applications de réseaux sociaux, etc. le module de traitement vidéo détermine les préférences de l'utilisateur sur la base des types de vidéos associées à l'utilisateur. Par exemple, le module de traitement vidéo peut déterminer que l'utilisateur préfère les vidéos sur les sports en fonction de la création ou du visionnage de vidéos par l'utilisateur qui incluent différents types de sports, tels que le baseball, le basket-ball, etc.
Le module de traitement vidéo peut déterminer un événement associé à la vidéo. Le module de traitement vidéo peut déterminer l'événement sur la base de métadonnées associées à la vidéo. Par exemple, les métadonnées peuvent inclure une date et un emplacement associés à la vidéo. Le module de traitement vidéo peut utiliser la date et l'emplacement pour récupérer des informations, par exemple, à partir d'un second serveur, sur l'événement qui s'est produit à cette date et à cette heure. Lorsque l'utilisateur donne son consentement aux métadonnées, le module de traitement vidéo peut utiliser des métadonnées qui identifient des objets et des personnes dans la vidéo pour déterminer l'événement.
Par exemple, le module de traitement vidéo peut déterminer que l'événement était un concert sur la base de l'identification de foules de personnes dans la vidéo. Des objets particuliers peuvent être associés à des circonstances spécifiques. Par exemple, les gâteaux sont associés aux anniversaires et aux mariages. Le basket-ball est associé à un terrain, etc. Dans un autre exemple, les gens peuvent être liés à des événements, tels que des personnes portant des uniformes dans des circonstances spécifiques pendant les heures de classe, des personnes assises sur des bancs avec une réunion d'église, des personnes autour d'une table avec des assiettes avec le dîner, etc. Le module de traitement vidéo peut générer un score passionnant basé sur le type d'événement identifié dans la vidéo.
Le module de traitement vidéo peut utiliser davantage de sources de données pour identifier l'événement. Par exemple, le module de traitement vidéo peut déterminer la date, l'heure et l'emplacement où la vidéo a été prise en fonction des métadonnées associées à la vidéo et, avec le consentement de l'utilisateur, demander des informations d'événement associées aux données et à l'heure à partir d'une application de calendrier. associé à l'utilisateur. Le module de traitement vidéo peut demander les informations d'événement à un deuxième serveur qui gère l'application de calendrier.
Événements à partir de vidéos déterminés à partir d'informations accessibles au public
Le module de traitement vidéo peut déterminer l'événement à partir d'informations disponibles publiquement. Par exemple, le module de traitement vidéo peut utiliser la date, l'heure et l'emplacement associés à la vidéo pour déterminer que la vidéo provient d'un match de football. Le module de traitement vidéo peut associer à la vidéo des métadonnées qui comprennent des informations d'identification pour l'événement.
Le module de traitement vidéo peut transcrire l'audio en texte et identifier un moment intéressant en fonction du lecteur. Le module de traitement vidéo peut générer des métadonnées qui identifient un horodatage pour chaque cas où un utilisateur a prononcé un mot spécifique. Par exemple, lorsque la vidéo provient de discours prononcés lors d'une conférence sur l'informatique en nuage, le module de traitement vidéo peut identifier un horodatage pour chaque endroit où un orateur a dit « l'avenir ». Le module de traitement vidéo peut utiliser l'audio comme signe d'un moment intéressant. Par exemple, pour des événements sportifs ou d'autres compétitions, le module de traitement vidéo peut identifier le moment où une foule commence à applaudir et déterminer un mouvement continu qui s'est produit juste avant l'acclamation, y compris un moment intéressant.
Le module de traitement vidéo peut déterminer si le score d'intérêt atteint ou dépasse une valeur de segmentation seuil. Supposons qu'une partie de la vidéo comprenne un score d'intérêt qui atteint ou dépasse la valeur de segmentation seuil. Dans ce cas, le module de traitement vidéo peut demander au module de segmentation de générer un segment vidéo constitué du moment intéressant. Les parties de la vidéo qui n'atteignent pas ou dépassent la valeur de segmentation seuil peuvent ne pas être identifiées comme incluant un moment intéressant.
En savoir plus sur les scores d'intérêt des segments vidéo potentiels
The video processing module may apply interest scores on a scale, such as from 1 to 10. The interest score may get based on a combination of factors identified in the partn of the video. For example, the video processing module may generate an interest score based on the part of the video, including an event, an object, and a person.
The video processing module may receive feedback from a user and change the user profile to modify the interest score accordingly. For example, if a user provides a sign of approval (eg, a thumbs up, a +1, a like, saving a collage to the user's media library, etc.) of a collage that includes a video on new types of wearables, the video processing module may add wearables in a list of positive objects.
In another example, the user may explicitly state that the user enjoys collages where the event type is a rock show. The video processing module may update personalization information associated with the user, such as a user profile, to include the rock show as a preferred event type. The feedback consists of an indication of disapproval (a thumbs down, a -1, a dislike, etc.). The expressions of approval and disapproval get determined based on comments provided by a user. The feedback includes identifying a person, an object, or a type of event that someone wants to get included in the collage.
The segmentation module may be operable to segment the video into video segments based on interesting moments. This segmentation module may be a set of instructions executable by the processor to feature the video. It may get stored in the computer's memory and can be accessible and executable by the processor.
Segmentation to Find Interesting Moments For Video Collages
And, the segmentation module generates video segments that include interesting moments. Where the interesting moment is associated with continual motion, the segmentation module may create a video segment with a beginning and an end. The segmentation module may identify a start and an intermediate endpoint of continual motion within the piece and pick a sub-segment that includes both these points. For example, if the video is of a girl doing many cartwheels, the start point may be the start of a first cartwheel, and the intermediate endpoint may be the end of the first cartwheel. In another example, the segmentation module may identify a segment based on different types of motion.
For example, a first sub-segment maybe a cartwheel, and a second subsegment may be a jumping celebration. Next, may determine how to generate the segment by including at least a particular number of interesting moments. For example, the segmentation module may create a video segment with a first interesting moment with a specific object in the first frames. It may show a second interesting moment with continual motion in a group of double frames and a third interesting moment that includes a person in a third frame. Also, the segmentation module may generate a video segment that is one to three seconds long.
The segmentation module may generate a video segment that includes many frames at different periods in the video. For example, the segmentation module may create a video segment that provides for many instances where people at a conference say “cloud computing” at different periods in the video.
The segmentation module generates video segments based on a theme. When a user specifies that interesting moments include a type of action, the segmentation module generates a video segment that consists of the interesting moments identified by the video processing module. For example, the segmentation module may show a video segment where a person rides a scooter in the video. The segmentation module may select many action instances to include in the video segment based on the interesting scores.
Ranking Interesting Moments To Choose For Video Collages
The segmentation module may rank the interesting moments based on their corresponding interesting scores and select many of the interesting moments based on the length of the video segment, such as three seconds, five seconds, twenty seconds, etc. For example, the segmentation module may select the top five most interesting moments based on the ranking because the total length of the five most interesting moments is under 20 seconds.
The segmentation module may determine markers that state different sections within the video and generate segments that include interesting moments within the units.
The sections may include:
- Different acts or scenes in a movie
- Different news segments in a news reporting show
- Different videos in a show about people filming dangerous stunts on video
- Etc.
For example, the segmentation module may generate three video segments for a movie. The three segments represent the three acts in the film, and each segment includes interesting moments cut from the corresponding act. The markers may consist of metadata stating each section's start and end, black frames, white frames, a title card, a chapter card, etc.
The segmentation module verifies that the video segments are different from each other. For example, the segmentation module may determine that each video segment includes different objects, so the collage does not include video segments that look too similar.
The collage module may be operable to generate a collage from the video segments. The collage module can be a set of instructions executable by the processor to provide the functionality described below for generating the collage. The collage module can become stored in the computer's memory and accessible and executable by the processor.
The collage module receives video segments from the segmentation module. The collage module may retrieve the selected video segments from the storage device.
Generating Video Collages From Video Segments
The collage module may generate a collage from the video segments where the video segments get displayed in a single pane. The video collages may take many forms. For example, the collage module may generate video collages when at least two video segments are available. In another example, the collage module may create video collages when at least four video segments are available. The video segments may be displayed in square windows, in portrait windows (eg, if the video segment gets shot in portrait mode), in a landscape window (eg, if the video gets shot in landscape mode), and with different aspect ratios (eg, 16:9, 4:3, etc.).
The collage module may configure the aspect ratios and orientations based on the user device used to view the collage. For example, the collage module may use a 16:9 aspect ratio for high-definition televisions, a 1:1 aspect ratio for square displays or viewing areas, a portrait collage for a user device in a portrait orientation, and a vast collage (eg, 100:9) for wearables such as augmented reality and virtual reality displays.
The collage module may combine a predetermined number of video segments to form the collage. For example, the collage module may rank the video segments from most attractive to least interesting based on the interest scores and generate a collage based on the predetermined number of video segments that are the most interesting. The collage module may select video segments with interest scores that meet or exceed a predetermined collage value.
The collage module processes the video segments. For example, the collage module may convert the video segments to high dynamic range (HDR), black and white, sepia, etc.
The Layout and Ordering of Video Segments Based O Chronology
The collage module may layout and order the video segments based on chronology, interest scores, visual similarity, color similarity, and the length of time of each piece. Ordering the collage based on chronology may include the first video segment corresponding to the earliest time, the second video segment corresponding to the earliest time, etc. The collage module may order the video segments based on the interest scores by ranking the video segments from most attractive to least interesting based on the interest scores and order the collage based on the ranking. The collage module may arrange the video segments in a clockwise direction, counterclockwise guidance, or an arbitrary direction. Other configurations are possible.
The collage module generates instructions for the user interface module to create graphical data that renders the collage with video segments in windows of different sizes. The size of the windows may get based on interest scores for each of the video segments. For example, the video segment with an interest score that indicates that it is most interesting may have the largest window size.
Additionally, the size of the windows may get based on the length of the video segments. For example, the shortest video segment may correspond to the smallest window size. The collage module may determine window size based on an artistic effect. For example, the collage module may generate windows that resemble creative works from the De Stijl art movement. In particular, the collage module may create a collage with shapes that resemble a Piet Mondrian painting with different sized boxes and different line thicknesses that distinguish the separation between different video segments.
The collage module generates a collage that is a video file (eg, an animated GIF, an MPG, etc.) with associated code (eg, JavaScript) that recognizes user selection (eg, to move to the second collage in a hierarchy, to playback a specific segment, etc.). The collage module may link the video segments to a location in the video. Upon selecting one of the video segments, the video gets displayed in the video that corresponds to the piece. For example, each video segment in the collage may include a hyperlink to the corresponding location in the video.
Generating Video Collages by Meeting a Threshold Score
The collage module generates and displays a collage by determining video segments that meet a threshold score. It may evaluate display characteristics for the collage and identify window layouts that meet the display characteristics. It can also select a particular window layout, generate the collage, and cause the collage to get displayed.
A graphic representation gets illustrated. The graphical representation includes an example timeline of a video and a corresponding collage 310 generated from four interesting moments. The timeline represents an eight-minute video. The eight-minute video may be an ice skating competition where four different ice skating couples each have a two-minute demonstration. The video processing module identified four interesting moments labeled A, B, C, and D in this example.
The segmentation module generates four video segments where each video segment includes a corresponding interesting moment.
Interesting moment A may include a first couple executing a sustained edge step.
The interesting moment B may consist of a second couple where one of the skaters runs a triple axel jump.
The interesting moment C may include a third couple executing the sustained edge step.
And the interesting moment D may consist of a fourth couple executing a serpentine step sequence.
The video processing module may determine the interesting moments based on a user identifying the interesting moments, identifying continual motion, for example, a motion that occurs before the crowd starts cheering, or another technique.
The collage module generates a collage from the video segments. In this example, the collage module generates a collage that orders the video segments chronologically in a clockwise direction. Suppose a user selects one of the video segments.
The user interface module may cause the video to get displayed at the location in the video that corresponds to the time of the video segment.
For example, in the example depicted, if a user selects video segment D, a new window may appear that displays the video at the D location illustrated on the timeline near the end of the video.
A Graphic Representation of Another Example Video Collage
In this example, the collage includes 19 video segments. The collage module may generate the different sized windows for the collage based on the interest scores for each video segment and the length of the video segments. For example, a figure may represent a collage generated from a video of a news program. Video segment A may represent the feature news story for the news program, which is both the most interesting and the longest. As a result, video segment A gets described with the largest window. Video segments B, C, and H, represent other less interesting and shorter news segments. Lastly, video segments D, E, F, and G represent short snippets in the news program.
The collage module generates a hierarchical collage. Hierarchical collages may be helpful to, for example, present a limited number of video segments in a single window. Besides, the hierarchical collage may create an entertaining effect that helps users stay more engaged when so many video segments appear too crowded. The collage module may group the video segments based on the timing of the video segments or a type of interesting moment associated with the video segments.
The collage module may generate the first collages based on the groups. For example, the collage module may divide a video into three parts and develop the first collages for each video segment in the first, second, and last. In another example, a video may include tryouts and competitions. The collage module may group based on the type of interesting moment by distinguishing between tryouts and competitions.
The collage module may generate two first collages, one first collage for the video segments in the tryouts and one second for the video segments in the competitions. The representative segment may be the most extended video segment for a group. The representative segment may be a segment that includes a high amount of continual motion compared with other elements in the group. A combination of interest score, segment length, amount of continual movement, etc., may get used to select the representative segment.
The collage module may select a representative segment from the video segments associated with the first collages. The usual component may get based on the interest score for each of the video segments in the group. For example, continuing with the above example of a group of tryouts and a group of competitions, the collage module may select the most interesting tryout video segment to represent the tryout group's representative segment.
The collage module may generate a second collage that includes the representative segment for each of the groups. The standard components link to each of the corresponding first collages such that the selection of one of the usual segments causes the related first collage to be visible. The collage module may instruct the user interface module to generate graphical data that drives the second collage to open to display the corresponding first collage, replace the second collage with the first collage, or to causes all the first collages to get displayed.
The collage module configures the video segments in the collage to play automatically. Or additionally, the collages may have to get selected to play. The video segments may play at once or sequentially such that a first video segment plays, then a second video segment plays, etc. The video segments may play once or become configured to play on a continuous loop. A user may be able to configure automatic playback or other options as system settings.
The collage module configures the video segments to play at different frame rates. For example, video segment A may play at the standard speed of 24 FPS (frames per second), video segment B may play at a slower pace of 16 FPS, video segment C may play at a faster speed of 50 FPS, and video segment D may play at 24 FPS. The collage module selects the frame rate based on the content of the video segment. For example, the collage module may determine a slow frame rate for video segments when the rate of continual motion in the video segment is high, such as a video segment of a pitcher throwing a baseball. The collage module may select a faster frame rate when the rate of continual motion in part is low, such as a video segment of a person blowing out a candle or cutting a cake.
An Example Timeline And Hierarchical Video Collages
For example, the timeline represents a video of a meeting that includes presenters giving talks, attendees forming discussion groups, and closing remarks becoming presented. The collage module groups the video segments into three groups: group A represents a section where presenters talk, group B represents a section where people form discussion groups, and group C describes closing remarks.
Le module de collage génère deux premiers collages : un pour le groupe A, qui comprend quatre segments vidéo, et un pour le groupe B, qui fournit trois segments vidéo. Le module de collage génère un deuxième collage qui comprend des détails représentatifs pour les deux premiers collages et le segment vidéo pour le groupe C. Le deuxième collage peut consister en un composant habituel de chaque groupe A, B et C.
Supposons qu'un utilisateur sélectionne le segment représentatif pour le groupe A. Dans ce cas, le module d'interface utilisateur amène une interface utilisateur à afficher le premier collage pour le groupe A, qui comprend les segments vidéo A1, A2, A3 et A4. Si l'utilisateur sélectionne le segment vidéo A3, cela amène l'interface utilisateur à afficher la vidéo à l'emplacement correspondant à A3 dans la chronologie.
Le module d'interface utilisateur peut fonctionner pour fournir des informations à un utilisateur. Ce module d'interface utilisateur peut être un ensemble d'instructions exécutables par le processeur pour fournir la fonctionnalité décrite ci-dessous pour fournir des informations à un utilisateur. Le module d'interface utilisateur peut être stocké dans la mémoire de l'ordinateur et accessible et exécutable par le processeur.
Le module d'interface utilisateur peut recevoir des instructions des autres modules de l'application vidéo pour générer des données graphiques exploitables pour afficher une interface utilisateur. Par exemple, le module d'interface utilisateur peut créer une interface utilisateur qui affiche un collage créé par le module de collage.
Le module d'interface utilisateur peut générer des données graphiques pour afficher des collages liés à la vidéo complète. Les réponses à un utilisateur cliquant sur le collage, l'interface utilisateur peut afficher la vidéo originale ou entraîner l'ouverture d'une nouvelle page Web contenant la vidéo complète. Le module d'interface utilisateur offre une option pour télécharger le collage sur un appareil utilisateur ou diffuser le collage à partir du serveur vidéo.
Le module d'interface utilisateur peut générer une option permettant à un utilisateur de fournir une rétroaction sur les collages. Par exemple, le module d'interface utilisateur peut créer une interface utilisateur qui comprend un bouton de retour que l'utilisateur peut sélectionner pour afficher un menu déroulant qui contient des objets que l'utilisateur souhaite ajouter en tant qu'intérêts explicites. Le module d'interface utilisateur peut fournir les éléments sur la base d'étiquettes associées aux segments vidéo utilisés pour créer la liste d'objets que l'utilisateur peut sélectionner comme intérêts explicites.
Une représentation graphique d'une interface utilisateur qui comprend une section vidéo
Dans la section vidéos, le module d'interface utilisateur peut recevoir une désignation d'un moment intéressant d'un utilisateur. Dans cet exemple, le module d'interface utilisateur comprend des instructions qui informent les utilisateurs que l'utilisateur peut identifier des moments intéressants en cliquant sur la vidéo. Suite à la sélection de l'utilisateur, le module de segment vidéo génère un segment qui inclut le moment intéressant. Le module de collage génère un collage composé des segments vidéo.
Une figure comprend également une section de collages qui consiste en un collage. Dans cet exemple, l'utilisateur sélectionne l'un des boutons de lecture pour visualiser un segment vidéo correspondant. L'interface utilisateur comprend également une option pour indiquer l'approbation de la vidéo dans un bouton +1 et un bouton de partage qui permet à l'utilisateur de partager le collage. Par exemple, le module d'interface utilisateur peut générer une option de partage du collage via un réseau social, par e-mail, via une application de chat, etc.
Un exemple de méthode pour générer un collage vidéo
Les moments intéressants sont déterminés dans une vidéo. Par exemple, un utilisateur identifie les moments intéressants, sélectionnés en fonction d'un mouvement continu, d'objets dans la vidéo, etc. Les segments vidéo sont générés en fonction des moments intéressants, où chacun des segments vidéo comprend au moins un des moments intéressants de la vidéo . Un collage est généré à partir des segments vidéo, où le collage se compose d'au moins deux fenêtres, et chaque fenêtre comprend l'un des segments vidéo.
Générer un collage vidéo hiérarchique
Les étapes peuvent être effectuées par l'application vidéo.
Les collages vidéo sont créés en fonction de moments intéressants.
Les moments intéressants sont déterminés dans une vidéo.
Les segments vidéo sont regroupés en groupes.
Deux premiers collages vidéo ou plus sont générés, chacun correspondant à l'un des deux groupes ou plus. Chacun des premiers collages vidéo comprend au moins deux segments vidéo. Un composant représentatif est sélectionné pour chaque groupe à partir d'au moins deux segments vidéo de chacun des premiers collages. Un deuxième collage est généré qui comprend le segment habituel pour chaque groupe. Le deuxième collage est lié à un premier collage correspondant qui fournit au moins deux segments vidéo dans un groupe associé.
