+

WO2006032799A1 - Système d'indexation de vidéo de surveillance - Google Patents

Système d'indexation de vidéo de surveillance Download PDF

Info

Publication number
WO2006032799A1
WO2006032799A1 PCT/FR2005/002372 FR2005002372W WO2006032799A1 WO 2006032799 A1 WO2006032799 A1 WO 2006032799A1 FR 2005002372 W FR2005002372 W FR 2005002372W WO 2006032799 A1 WO2006032799 A1 WO 2006032799A1
Authority
WO
WIPO (PCT)
Prior art keywords
characterization
video stream
stream
image
matrix
Prior art date
Application number
PCT/FR2005/002372
Other languages
English (en)
Inventor
Philippe Gouspillou
Original Assignee
Video & Network Concept
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Video & Network Concept filed Critical Video & Network Concept
Publication of WO2006032799A1 publication Critical patent/WO2006032799A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Definitions

  • the present invention relates to the field of video.
  • the present invention more particularly relates to a method for characterizing and indexing images of a video stream in order to facilitate searching for elements in a surveillance video stream.
  • This process focuses on indexing video sequences.
  • the mechanisms implemented evoke reference images, a graphic representation of the objects contained in the sequences.
  • the characterizations of the scenes relevant to the criteria of appearance / disappearance, etc. are stored in a "frozen” manner (different from a continuous stream of elements characterizing a video stream) in a database.
  • This solution realizes a motion segmentation of the video and creates a symbolic representation "meta-information" of the detected objects and their movement.
  • These "meta-information” are stored in a database in the form of direct graphs annotated, then indexed. Such "meta-information” exists only for moving objects.
  • a characterization matrix can not be produced for each of the images of the stream and therefore a continuous stream of characterization matrices separate from the video stream is not created.
  • the prior art does not propose a solution allowing a light characterization (light compared to the high rate of video) of a video sequence by a flow of characterizing matrices.
  • the present invention has an inverse approach in providing a continuous flow of matrices. She describes images, in a systematic way without prejudging the behavior, which makes it possible later to analyze not on the images themselves but on sufficiently simplified simplified matrices.
  • the characterization matrices thus obtained are "light" in terms of the amount of information and allow:
  • WOO3 / 067884 application proposing an image sequence processing solution for detecting / tracking objects and generating an alarm when the behavior of these tracked objects corresponds to a predefined behavior.
  • a characterization of the objects tracked can be provided.
  • this document does not propose a stream of characterization matrices timestamped and distinct from the video stream.
  • US6330025 is known in which high quality video recording is performed upon detecting a predetermined event. Possibly the operator can add annotations on the stream viewed. It is clear that a recording is only made when a predefined event is detected which goes to against a characterization of each of the images as a stream of characterization matrices.
  • the document WO03 / 028376 aims to capture images of people at control points.
  • a keyframe and description data are associated with each captured video sequence.
  • No "image” processing is performed to characterize each of them and to provide a flow of characterization matrices.
  • the present invention intends to overcome the drawbacks of the prior art by proposing a method for characterizing the image elements of a video stream by characterization matrices, these matrices constituting a data stream timestamped and parallel to the video stream.
  • the method according to the present invention responds particularly well to the search and the detection of elements inside a video stream and to the temporal constraints that they induce. Specifically, the invention applies both to a "real-time" detection by the detection of a matrix similar to that sought after than to the posterior detection by traversing the flow of characterizing matrices rather than the video stream, too much. heavy.
  • the invention relates in its most general sense to a method for characterizing images of a video stream for the search of elements, comprising:
  • a step of encoding said digitized video stream by an encoding unit characterized in that
  • Said characterization and encoding steps are performed in parallel and in real time;
  • Said characterization step produces a characterization matrix of each of the images of said digitized video stream
  • said characterization matrix comprises:
  • said target characterization comprises:
  • said method further comprises a step of capturing a fixed image zoomed on one of said characterized targets.
  • said method further comprises a step of associating said fixed image with the characterization matrix comprising said zoomed target.
  • said capture is performed by an annex camera.
  • the invention also relates to a system for implementing the method comprising an image sensor, a frame memory, a scanning unit, a computing unit, an encoding unit comprising an encoding processor.
  • the invention also relates to a method of searching for elements in a video stream, characterized in that it implements the characterization method and in that it furthermore comprises:
  • the invention also relates to a method of searching for elements in a video stream, characterized in that it implements the characterization method and in that it further comprises: a step of transmitting said matrix of characterization generated during the characterization step at a remote server through a communication network;
  • a comparison step on said remote server of said characterization matrices with search criteria is a comparison step on said remote server of said characterization matrices with search criteria.
  • said method further comprises:
  • FIG. 1 represents the architecture of the system according to the present invention
  • FIG. 2 illustrates a simplified graphic representation of a scene analyzed by the present invention.
  • the invention relates to a method and a system for characterizing, in real time, the images of the CCTV video stream. This characterization is stored as a very small file in comparison with the weight of the images. These files are associated with the image streams by a time stamp and are either transmitted in parallel of the video stream or transmitted alone.
  • the invention relates to a system for analyzing CCTV images to determine and retrieve key elements during search, in real time or a posteriori.
  • the advantage of the method of the present invention is to allow a real-time analysis or a retrospective search on these files to search quickly, efficiently and simplified characteristic elements.
  • the present invention comprises an image sensor (1) of the digital camera or video surveillance camera type.
  • the sensor delivers analog or digital information containing a series of images (video signal for example).
  • a step of digitizing the flow may be necessary if the sensor is analog.
  • a frame memory makes it possible to store, temporarily (the processing time of the previous frame) and in real time, the frames generated by the image sensor.
  • the image thus acquired and more precisely the frame stored in the frame memory is transmitted to an encoding unit whose purpose is to compress the video signal and to obtain a bitstream (in which the images are indexed by the timestamping system.
  • the same image is transmitted to the processing unit whose purpose is to derive the essential characteristics of which the present text refers.
  • the characteristic matrices thus obtained are also individually timestamped identically to the compressed images they characterize.
  • the video stream and the matrix stream are then two separate data streams whose correspondence between matrix and image is ensured by the timestamping of these same streams.
  • the treatments according to the present invention are carried out, preferably in real time in order to maintain the best system performance (speed).
  • Real-time processing means processing that lasts up to the time interval between two consecutive frames. Thus, each new frame is processed before receiving the next one.
  • the compressed bitstream and the sequence of characteristic matrices are then stored in a mass memory (memory unit) of application-dependent length: in general, several days to several months for video surveillance applications.
  • mass memory memory unit
  • a network interface makes it possible to give access to the compressed bitstream or to the matrices characteristics.
  • the external stations can also launch search queries to the processing unit, these searches being performed on the characteristic matrices. Once found the matrix corresponding to the search criteria (or reference image), it is possible thanks to the timestamp information and a set of index index to access the image or sequence of corresponding images.
  • the characterization of the images is carried out in real time at the moment when they are acquired, recorded and possibly transmitted.
  • the result of this characterization is a set of information, which we will call descriptive matrix, in the form of a file of small size compared to the size of the image, even compressed, which is associated with it.
  • This association is achieved by a temporal marking method with the image that it characterizes.
  • Some meta-data association systems of the MPEG-7 type (Motion Picture Expert Group) can be used to make this association.
  • This file is saved alongside the image. It can be exploited or transmitted alone, without the image that it characterizes.
  • the search for elements may be subsequent to the recording of these data (matrices and video).
  • the interest of the invention is to allow search through characteristic matrices and not images.
  • it significantly simplifies the reprocessing and accelerates.
  • the bandwidth needs are greatly reduced given the small size of the files, which facilitates, moreover, the research on a large number of sources.
  • Another application of the present invention relates to real-time search. Characteristics of the searched element are sent to the processing server in real time. When creating the arrays, while the server receives the video stream from the sensor, the server compares the characteristics of the searched element with the matrices created in real time. If the characteristics match, an alarm can be raised.
  • the matrix of characterization is specific of the elements that one can be brought to monitor (human, car, object) that one calls "targets".
  • the basic structure is composed as follows:
  • the essential part of the matrix concerns the characterization of the targets since the search will be all the more refined if the characterizations have been well chosen and well realized.
  • characterization of the targets we note: • the position in the image,
  • the three-zone color characteristics are particularly well suited to characterization and self-research, "high" corresponding to the head
  • the presence duration information of the target in the image makes it possible to carry out calculations on the duration of presence and possibly to establish rules following a too long presence in a passage zone, for example.
  • the invention also makes it possible, in real time and from the coordinates of the targets, to make complementary photos to the overall video sequences.
  • an image sensor for example a digital camera separate from the camera, or use the same camera.
  • the photo can be made either by electronic zoom if the sensor of the camera used for the characterization is sufficient, or by an additional mobile camera that will focus on the target with a high magnification and will record the photo.
  • the fixed image thus recorded may also be associated with the characteristic matrix in order to allow a finer analysis.
  • the "close-up" photos thus obtained are stored as objects with hypertext links allowing access to them.
  • a display device makes it possible to display a graphical representation of the elements analyzed in the scene by the present invention.
  • a display device can be realized by computer means (processor, memory and software for interpreting and transcribing the characteristic matrices of the targets) and a display screen.
  • FIG. 2 represents the display using simple shapes (round, square, etc.) of the geographic location of the targets (2) in the analyzed scene.
  • An insert (3) informs of the number of targets present in the scene (four in this case) and the time of the analysis.
  • the device also allows the display of the instantaneous movement of the target with the help of arrows (6) but also that of the path (4) followed by the target (the historization can be done for example by saving the last positions of the target the target in the computer memory).
  • ancillary means such as a computer mouse, to "point" a target on the screen and display the associated characteristics (5) to this target.
  • a very useful application of the present invention relates to the disappearance of a child in a city whose surveillance is provided by digital cameras or image recording servers implementing the method of the invention. To trace the child, it is sufficient to describe the characteristics of the child: • size, shape (human),
  • the query can then be sent to the servers looking in the characteristic matrices if these criteria are found, and if they are not completely, what is the percentage of correspondence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

La présente invention se rapporte au domaine de la vidéo. La présente invention se rapporte plus particulièrement à un procédé de caractérisation d'images d'un flux vidéo pour la recherche d'éléments, comprenant : une première étape d'acquisition d'un flux vidéo par un capteur d'images ; une étape de numérisation dudit flux acquis par un module de numérisation, une étape de caractérisation dudit flux vidéo numérisé par une unité de traitement ; une étape d'encodage dudit flux vidéo numérisé par une unité d'encodage, caractérisé en ce que : lesdites étapes de caractérisation et d'encodage sont réalisées de façon parallèle et en temps réel ; ladite étape de caractérisation réalise une matrice de caractérisation de chacune des images dudit flux vidéo numérisé, et en ce qu'il comprend, en outre, une étape d'horodatage des flux traité issu de l'étape de traitement et encodé issu de l'étape d'encodage

Description

SYSTEME D'INDEXATION DE VIDÉO DE SURVEILLANCE
La présente invention se rapporte au domaine de la vidéo.
La présente invention concerne plus particulièrement un procédé de caractérisation et d'indexation d'images d'un flux vidéo afin de faciliter la recherche d'éléments dans un flux de vidéo de surveillance.
Actuellement, les systèmes de vidéo surveillance, même numériques, sont passifs et impliquent une intervention humaine lente dans l'utilisation faite des images. Par exemple, lors d'un acte terroriste ou d'une disparition, les enquêtes nécessitent la re-visualisation manuelle de milliers d'images, issues de caméras de surveillance placées dans la ville ou de tous les enregistrements vidéo qui ont pu être réalisés dans les environs de la zone où s'est déroulée l'action recherchée. Ces manipulations sont lentes et demandent beaucoup de personnel et conduisent souvent à des délais très longs dans l'obtention de résultats qui permettent de lancer les actions réelles de terrain. Hors dans ces cas tragiques, ce sont les premières heures qui comptent. Plus le temps passe et plus la probabilité de retrouver les traces des agresseurs ou des disparus s'amenuise.
On connaît déjà, dans l'état de la technique, des systèmes d'enregistrement utilisés dans les applications de vidéo surveillance. Ces systèmes permettent l'analyse des images, généralement limitée à la détection de mouvement (motion détection) . Lorsque le résultat de la détection est actif, le système enregistre les images. Cette solution permet de limiter la durée des enregistrements afin d'optimiser l'espace de sauvegarde sur le média utilisé, mais présente l'inconvénient d'être rudimentaire et surtout de ne permettre aucune recherche fine dans les images.
Il existe également des systèmes qui peuvent analyser dans un ensemble d'images déjà enregistrées une activité dans une zone d'intérêt, par exemple, la disparition d'un objet su une table. Cette solution nécessite des temps importants de traitements puisque le système doit analyser a posteriori. De plus, la capacité d'enregistrement se trouve limitée du fait des recherches simultanées et la bande passante disponible sur le réseau peut également s'avérer limitante.
L'art antérieur connaît également, par le brevet américain US 6 646 676 (Paul DaGraca et autres), un système de surveillance et de commande. Ce système réalise un traitement sur un flux déjà compressé. Ce traitement se base essentiellement sur la détection de mouvement dans l'optique d'un déclenchement d'alarme.
L'art antérieur connaît également, par le brevet américain US 6 721 454 (Richard Qian et autres), un procédé pour l'extraction automatique d'événements significatifs d'une vidéo. Cette solution présente uniquement la détection du mouvement d'objet à l'intérieur de séquences vidéo afin de déterminer des événements.
On connaît également, par les demandes de brevet américain US 6 424 370 et US 5 969 755 (Jonathan D. Courtney), un procédé pour fournir une indexation vidéo automatique du mouvement d'un objet, basée sur le contenu. Les objets mobiles dans la vidéo d'une caméra de surveillance sont détectés dans la séquence vidéo par des méthodes de segmentation de mouvement par l'intermédiaire d'un segmenteur de mouvement. Les objets sont suivis au travers de données segmentées dans un traqueur d'objet. Une représentation symbolique de la vidéo est générée sous forme de graphiques annotés décrivant les objets et leur mouvement. Un analyseur de mouvement analyse les résultats du suivi d'objet et annote le mouvement de graphique avec des index décrivant plusieurs événements. Le graphique est alors classé en utilisant un schéma de classification basé sur une règle pour identifier des événements d'intérêt tels que l'apparition / disparition, le dépôt / retrait, l'entrée / sortie, et le mouvement / immobilité des objets. Des séquences de la vidéo identifiée par approche spatio¬ temporel, événement, et requêtes basées sur les objets sont rappelées pour regarder la vidéo désirée.
Ce procédé se concentre sur l'indexation de séquences vidéo. Les mécanismes mis en œuvre évoquent des images de référence, une représentation graphique des objets contenus dans les séquences. De plus, les caractérisations des scènes pertinentes au regard des critères d'apparition / disparition, etc., sont stockées de façon « figée » (différente d'un flux continu d'éléments caractérisants un flux vidéo) dans une base de données. Cette solution réalise une segmentation de mouvement de la vidéo et crée une représentation symbolique « méta-information » des objets détectés et de leur mouvement. Ces « méta-information » sont stockées dans une base de données sous forme de graphes directs annotés, puis indexées. Une telle « méta- information » n'existe que pour des objets en mouvement. Ainsi, il est clair qu'une matrice de caractérisation ne peut être produite pour chacune des images du flux et donc un flux continu de matrices de caractérisation distinct du flux vidéo n'est pas créé.
L'art antérieur connaît également, par la demande de brevet PCT WO 98 / 21 688 (Sarnoff Corporation), un procédé et un appareil associé permettant de représenter complètement des informations vidéo de manière à faciliter l'indexation de ces informations vidéo. Cette solution propose un prétraitement vidéo avant d'effectuer une étape d'indexage. Un flux est découpé en scènes homogènes qui sont a leur tour découpées en plusieurs niveaux de scène. L'ensemble de ces niveaux permets de reconstituer la scène sous forme de mosaïque d'éléments clés.
L'art antérieur ne propose pas de solution permettant une caractérisation light (légère comparée au débit important de la vidéo) d'une séquence vidéo par un flux de matrices caractérisantes.
On connaît également la demande de brevet US 2004/01611133 proposant une solution orientée vers l'analyse comportementale avec une notion d'auto-apprentissage des comportements. Cette solution intègre notamment l'analyse de dissociation d'objets laissant penser qu'un élément est abandonné à un endroit (par exemple une valise déposée dans un aéroport). La notion de description des images qui est très proche des fonctionnalités issues des outils de Media Asset Management (nom commercial) est beaucoup plus floue, mal définie, et fait référence à des éléments complémentaires comme l'analyse faciale. Dans cette solution, l'analyse comportementale conduit à : 1) enregistrer les images, 2) les caractériser pour les « illustrer ». Ces événements à détecter sont prédéfinis selon une multitude de paramètres portant sur les objets. Cette solution n'offre pas un flux continu de matrices de caractérisation associées à chaque image. Ce flux continu fournit l'avantage de pouvoir définir les événements a posteriori.
La présente invention a une approche inverse en fournissant un flux continu de matrices. Elle décrit des images, de façon systématique sans préjuger du comportement, ce qui permet ultérieurement de faire l'analyse non plus sur les images elles-mêmes mais sur des matrices simplifiées suffisamment caractéristiques.
Elle définit une description des images orientée vers le déplacement d'humains (et non d'objets vagues) les caractérisants par :
• leur nombre ;
• leur « look » avec 3 niveaux de caractérisation (haut = tête, milieu = vêtement type chemise ou pull, bas = Vêtement bas type pantalon) ;
• leur déplacement dans le plan de l'image - décrits par des vecteurs de mouvements dans l'image.
Les matrices de caractérisation ainsi obtenues sont « légères » en termes de quantité d'information et permettent :
• la recherche d'individus par définition du « look »
• un suivi synthétique des mouvements des personnes (mode d'affichage) qui donne la possibilité d'une analyse de type comportementale soit visuelle par l'opérateur, soit automatique grâce à des outils d'analyse comportementale.
On connaît également la demande WOO3/067884 proposant une solution de traitement de séquence d'images pour détecter/suivre des objets et générer une alarme lorsque le comportement de ces objets suivis correspond à un comportement prédéfini. Une caractérisation des objets suivis peut être fournie. Cependant, ce document ne propose pas un flux de matrices de caractérisation horodatées et distinct du flux vidéo. De même, on connaît le document US6330025 dans lequel un enregistrement vidéo haute qualité est réalisé à la détection d'un événement prédéterminé. Éventuellement l'opérateur peut ajouter des annotations sur le flux visualisé. Il est clair qu'un enregistrement n'est effectué que lorsqu'un événement prédéfini est détecté ce qui va à 1'encontre d'une caractérisation de chacune des images sous forme d'un flux de matrices de caractérisation.
De même, le document WO03/028376 a pour objet la capture d'images de personnes à des points de contrôle. Une image clé et des données de description sont associées à chaque séquence vidéo capturée. Aucun traitement « à l'image » n'est réalisé pour caractériser chacune d'entre- elles et fournir un flux de matrices de caractérisation.
La présente invention entend remédier aux inconvénients de l'art antérieur en proposant un procédé de caractérisation des éléments d'images d'un flux vidéo par des matrices de caractérisation, ces matrices constituant un flux de données horodaté et parallèle au flux vidéo.
Le procédé selon la présente invention répond particulièrement bien à la recherche et la détection d'éléments à l'intérieur d'un flux vidéo et aux contraintes temporelles qu'elles induisent. Précisément, l'invention s'applique aussi bien à une détection « en temps réel » par la détection d'une matrice semblable à celle recherchée qu'à la détection a posteriori en parcourant le flux de matrices caractérisantes plutôt que le flux vidéo, trop lourd.
A cet effet, l'invention concerne dans son acception la plus générale un procédé de caractérisation d'images d'un flux vidéo pour la recherche d'éléments, comprenant :
• une première étape d'acquisition d'un flux vidéo par un capteur d'images ; • une étape de numérisation dudit flux acquis par un module de numérisation,
• une étape de caractérisation dudit flux vidéo numérisé par une unité de traitement ;
• une étape d'encodage dudit flux vidéo numérisé par une unité d'encodage, caractérisé en ce que :
• lesdites étapes de caractérisation et d'encodage sont réalisées de façon parallèle et en temps réel ;
• ladite étape de caractérisation réalise une matrice de caractérisation de chacune des images dudit flux vidéo numérisé, et
• en ce qu'il comprend, en outre, une étape d'horodatage des flux traité issu de l'étape de traitement et encodé issu de l'étape d'encodage.
De préférence, ladite matrice de caractérisation comprend :
• le pourcentage de différence par rapport à l'image précédente ; • le pourcentage de différence par rapport à une image de référence ;
• le nombre de cibles mobiles détectées ;
• la caractérisation desdites cibles.
Avantageusement, ladite caractérisation des cibles comprend :
• la position dans l'image desdites cibles,
• le vecteur de déplacement desdites cibles,
• la dimension desdites cibles en rapport avec l'image globale ou à une référence,
• les caractéristiques de couleur desdites cibles,
• la durée de présence de ladite cible dans la scène.
Selon un mode de réalisation, ledit procédé comprend, en outre, une étape de capture d'une image fixe zoomée sur une desdites cibles caractérisées.
Selon une variante, ledit procédé comprend, en outre, une étape d'association de ladite image fixe avec la matrice de caractérisation comprenant ladite cible zoomée. Selon un mode de mise en œuvre, ladite capture est réalisée par un appareil photo annexe.
L'invention concerne également un système pour la mise en œuvre du procédé comprenant un capteur d'images, une mémoire de trame, une unité de numérisation, une unité de calcul, une unité d'encodage comprenant un processeur d'encodage.
L'invention concerne également un procédé de recherche d'éléments dans un flux vidéo caractérisé en ce qu'il met en œuvre le procédé de caractérisation et en ce qu'il comprend, en outre, :
• une étape d'envoi d'une requête portant sur les caractéristiques desdits éléments recherchés à l'unité de traitement ;
une étape de comparaison desdites caractéristiques avec ladite matrice de caractérisation générée lors de l'étape de caractérisation.
L'invention concerne également un procédé de recherche d'éléments dans un flux vidéo caractérisé en ce qu'il met en œuvre le procédé de caractérisation et en ce qu'il comprend, en outre, : • une étape de transmission de ladite matrice de caractérisation générée lors de l'étape de caractérisation à un serveur distant au travers d'un réseau de communication ;
• une étape de comparaison sur ledit serveur distant desdites matrices de caractérisation avec des critères de recherche.
De préférence, ledit procédé comprend, en outre, :
• une étape de récupération des caractéristiques d'une cible dans lesdites matrices ; et • une étape d'affichage d'une représentation spatiale des positions géographiques desdites cibles dans la scène sur un dispositif de visualisation.
On comprendra mieux l'invention à l'aide de la description, faite ci-après à titre purement explicatif, d'un mode de réalisation de l'invention, en référence aux figures annexées : la figure 1 représente l'architecture du système selon la présente invention ;
- la figure 2 illustre une représentation graphique simplifiée d'une scène analysée par la présente invention.
L'invention concerne un procédé et un système permettant de caractériser, en temps réel, les images du flux vidéo de vidéosurveillance. Cette caractérisation est stockée sous forme de fichier de très faible taille en comparaison du poids des images. Ces fichiers sont associés aux flux d'images par un marquage temporel et sont soit transmis en parallèle du flux vidéo soit transmis seul.
Plus précisément, l'invention concerne un système pour l'analyse d'images de vidéosurveillance afin de déterminer et de retrouver des éléments clés lors de recherche, en temps réel ou a posteriori. L'intérêt du procédé de la présente invention est de permettre une analyse temps réel ou une recherche a posteriori sur ces fichiers pour rechercher de façon rapide, efficace et simplifiée des éléments caractéristiques.
En référence à la figure 1, la présente invention comprend un capteur d'images (1) de type caméra numérique ou caméra de vidéo surveillance. Le capteur délivre une information analogique ou numérique contenant une suite d'images (signal vidéo par exemple). Une étape de numérisation du flux peut être nécessaire si le capteur est analogique. Une mémoire de trame permet de stocker, temporairement (le temps du traitement de la trame précédente) et en temps réel, les trames générées par le capteur d'images. L'image ainsi acquise et plus précisément la trame stockée dans la mémoire de trame, est transmise à une unité d'encodage dont le but est de compresser le signal vidéo et d'obtenir un bitstream (flux de bits) dans lequel les images sont indexées par le système d'horodatage. En même temps, la même image est transmise à l'unité de traitement dont le but est d'en tirer les caractéristiques essentielles dont le présent texte fait référence. Les matrices caractéristiques ainsi obtenues sont également horodatées individuellement de manière identique aux images compressées qu'elles caractérisent. Le flux vidéo et le flux de matrices sont alors deux flux de données distincts dont la correspondance entre matrice et image est assurée par l'horodatage de ces mêmes flux.
Les traitements selon la présente invention sont réalisés, de préférence en temps réel afin de conserver les meilleures performances du système (rapidité). On entend par traitements en temps réel, des traitements qui durent au maximum l'intervalle de temps entre deux trames consécutives. Ainsi, chaque nouvelle trame est traitée avant la réception de la suivante.
Le bitstream compressé et la suite de matrices caractéristiques sont ensuite stockés dans une mémoire de masse (Unité mémoire) de longueur dépendant de l'application : en général, plusieurs jours à plusieurs mois pour des applications de vidéo surveillance.
Enfin une interface réseau permet de donner l'accès, soit au bitstream compressé, soit aux matrices caractéristiques. Les stations extérieures peuvent également lancer des requêtes de recherche à l'unité de traitement, ces recherches s'effectuant sur les matrices caractéristiques. Une fois trouvée la matrice correspondant aux critères de recherche (ou image de référence), il est possible grâce à l'information d'horodatage et à un jeu d'index de repérage d'accéder à l'image ou à la séquence d'images correspondante.
Selon la présente invention, la caractérisation des images est réalisée en temps réel au moment où elles sont acquises, enregistrées et éventuellement transmises. Le résultat de cette caractérisation est un ensemble d'informations, que nous appellerons matrice descriptive, sous forme de fichier de petite taille comparée à la taille de l'image, même compressée, qui lui est associée. Cette association est réalisée par une méthode de marquage temporel à l'image qu'il caractérise. Certains systèmes d'association de méta-donnée, du type MPEG-7 (Motion Picture Expert Group), peuvent être utilisés pour réaliser cette association.
Ce fichier est enregistré parallèlement à l'image. Il peut être exploité ou transmis seul, sans l'image qu'il caractérise.
Dans une application de la présente invention, la recherche d'éléments peut être postérieure à l'enregistrement de ces données (matrices et vidéo). L'intérêt de l'invention est de permettre la recherche au travers des matrices caractéristiques et non pas des images. Ainsi, on simplifie, de façon notable, les retraitements et on les accélère. On peut déporter l'analyse des données sur des serveurs après la transmission des matrices. Enfin, les besoins de bande passante sont grandement réduits compte tenu de la faible taille des fichiers, ce qui facilite, d'ailleurs, la recherche sur un grand nombre de sources.
Une autre application de la présente invention concerne la recherche en temps réel. Des caractéristiques de l'élément recherché sont envoyées au serveur de traitement en temps réel. Lors de la création des matrices, alors que le serveur reçoit le flux vidéo depuis le capteur, le serveur compare les caractéristiques de l'élément recherché avec les matrices créées en temps réel. Si les caractéristiques correspondent, une alarme peut être remontée.
La matrice de caractérisation est spécifique des éléments que l'on peut être amené à surveiller (humain, voiture, objet) que l'on appelle « cibles ». La structure de base se compose comme suit :
• pourcentage de différence par rapport à l'image précédente ; • pourcentage de différence par rapport à une image de référence ;
• nombre de cibles mobiles détectées ;
• caractérisation des cibles.
La partie essentielle de la matrice concerne la caractérisation des cibles puisque la recherche sera d'autant plus fine que les caractérisations auront été bien choisies et bien réalisées. Comme caractérisation des cibles, on note : • la position dans l'image,
le vecteur de déplacement,
• la dimension en rapport avec l'image globale ou à une référence,
• les caractéristiques de couleur : trois zones « haute — moyenne — basse », la durée de présence de la cible dans la scène filmée et analysée.
Les caractéristiques de couleur en trois zones sont particulièrement bien adaptées à la caractérisation et à la recherche d'individu, « haute » correspondant à la tête
(cheveu ou chapeau), « moyenne » au manteau et « basse » au pantalon.
L'information de durée de présence de la cible dans l'image permet d'effectuer des calculs sur la durée de présence et d'éventuellement établir des règles suite à une présence trop longue dans une zone de passage, par exemple.
Dans un mode de réalisation plus avancé, l'invention permet également, en temps réel et à partir des coordonnées des cibles, d'effectuer des photos complémentaires aux séquences vidéo d'ensemble. Pour cela, on peut utiliser un capteur d'images, par exemple un appareil photo numérique distinct de la caméra, ou bien utiliser cette même caméra.
La photo peut être réalisée soit par zoom électronique si le capteur de la caméra utilisée pour la caractérisation est suffisant, soit par une caméra mobile additionnelle qui s'orientera sur la cible avec un fort grossissement et enregistrera la photo.
L'image fixe ainsi enregistrée pourra être également associée à la matrice caractéristique afin de permettre une analyse plus fine. Les photos « gros plan » ainsi obtenues sont stockées comme des objets avec des liens de type hypertexte permettant d'y accéder.
Dans un mode de réalisation illustré par la figure 2, un dispositif d'affichage permet de visualiser une représentation graphique des éléments analysés dans la scène par la présente invention. Un tel dispositif peut être réalisé par des moyens informatiques (processeur, mémoire et logiciel permettant d'interpréter et de transcrire les matrices caractéristiques des cibles) et un écran d'affichage.
La figure 2 représente l'affichage à l'aide de formes simples (rond, carré, ...) de la localisation géographique des cibles (2) dans la scène analysée. Un encart (3) renseigne du nombre de cibles présentes dans la scène (quatre dans ce cas précis) et de l'heure de l'analyse.
Le dispositif permet aussi l'affichage du mouvement instantané de la cible à l'aide de flèches (6) mais également celui du trajet (4) suivi par la cible (l'historisation peut se faire par exemple par la sauvegarde des dernières positions de la cible dans la mémoire informatique) .
Enfin, des moyens annexes, tels une souris d'ordinateur, permettent de « pointer » une cible sur l'écran et d'afficher les caractéristiques associées (5) à cette cible.
Une application très utile de la présente invention concerne la disparition d'un enfant dans une ville dont la surveillance est assurée par des caméras numériques ou des serveurs d'enregistrement d'images mettant en œuvre le procédé de l'invention. Pour retrouver la trace de l'enfant, il suffit de décrire les caractéristiques de l'enfant : • taille, forme (humaine),
• couleur de la tête, du vêtement haut, du vêtement bas,
• sens de déplacement.
La requête peut alors être envoyée aux serveurs qui recherchent dans les matrices caractéristiques si ces critères sont retrouvés, et s'il ne le sont pas complètement, quel est le pourcentage de correspondance
(matching) . Il est alors possible de visualiser les images ou séquences associées pour effectuer une validation humaine permettant la prise de décision. L'invention est décrite dans ce qui précède à titre d'exemple. Il est entendu que l'homme du métier est à même de réaliser différentes variantes de l'invention sans pour autant sortir du cadre du brevet.

Claims

REVENDICATIONS
1. Procédé de caractérisation d'images d'un flux vidéo pour la recherche d'éléments, comprenant : • une étape d'acquisition d'un flux vidéo par un capteur d'images ;
• une étape de numérisation dudit flux acquis par un module de numérisation,
• une étape de caractérisation dudit flux vidéo numérisé par une unité de traitement ;
• une étape d'encodage dudit flux vidéo numérisé par une unité d'encodage fournissant un flux vidéo encodé, caractérisé en ce que :
• lesdites étapes de caractérisation et d'encodage sont réalisées de façon parallèle et en temps réel ;
• ladite étape de caractérisation comprend une étape de calcul d'une matrice de caractérisation pour chacune des images dudit flux vidéo numérisé et fournit un flux des matrices ; • lesdits flux de matrices et flux vidéo encodé sont distincts ; et
• en ce qu'il comprend, en outre, une étape d'horodatage du flux des matrices et du flux encodé, ledit horodatage assurant la correspondance entre une matrice dudit flux des matrices et une image dudit flux vidéo.
2. Procédé de caractérisation selon la revendication 1, caractérisé en ce que ladite matrice de caractérisation comprend :
• le pourcentage de différence par rapport à l'image précédente ;
• le pourcentage de différence par rapport à une image de référence ; « le nombre de cibles mobiles détectées ; • la caractérisation desdites cibles.
3. Procédé de caractérisation selon la revendication 2, caractérisé en ce que ladite caractérisation des cibles comprend :
• la position dans l'image desdites cibles,
• le vecteur de déplacement desdites cibles,
• la dimension desdites cibles en rapport avec l'image globale ou à une référence, • les caractéristiques de couleur desdites cibles,
• la durée de présence de ladite cible dans la scène.
4. Procédé de caractérisation selon l'une des revendications 2 ou 3, caractérisé en ce qu'il comprend, en outre, une étape de capture d'une image fixe zoomée sur une desdites cibles caractérisées.
5. Procédé de caractérisation selon la revendication précédente, caractérisé en ce qu'il comprend, en outre, une étape d'association de ladite image fixe avec la matrice de caractérisation comprenant ladite cible zoomée.
6. Procédé de caractérisation selon l'une des revendications 4 ou 5, caractérisé en ce que ladite capture est réalisée par un appareil photo annexe.
7. Système pour la mise en œuvre du procédé selon l'une quelconque des revendications précédentes comprenant un capteur d'images pour l'acquisition d'un flux vidéo, une mémoire de trame, une unité de numérisation pour numériser ledit flux vidéo, une unité de calcul, une unité d'encodage pour encodé ledit flux vidéo numérisé et des moyens d'horodatage, caractérisé en ce que : • ladite unité de calcul comprend des moyens aptes à calculer une matrice de caractérisation pour chacune des images dudit flux vidéo numérisé et à fournir un flux des matrices distinct dudit flux vidéo encodé ; • lesdits moyens d'horodatage sont aptes à horodater ledit flux vidéo numérisé et ledit flux de matrices pour assurer la correspondance entre une matrice dudit flux des matrices et une image dudit flux vidéo.
8. Procédé de recherche d'éléments dans un flux vidéo, caractérisé en ce qu'il met en œuvre le procédé de caractérisation selon l'une quelconque des revendications 1 à 6 et en ce qu'il comprend, en outre, :
• une étape d'envoi d'une requête portant sur les caractéristiques desdits éléments recherchés à l'unité de traitement ;
• une étape de comparaison desdites caractéristiques avec ladite matrice de caractérisation générée lors de l'étape de caractérisation.
9. Procédé de recherche d'éléments dans un flux vidéo, caractérisé en ce qu'il met en œuvre le procédé de caractérisation selon l'une quelconque des revendications 1 à 6 et en ce qu'il comprend, en outre, : • une étape de transmission de ladite matrice de caractérisation générée lors de l'étape de caractérisation à un serveur distant au travers d'un réseau de communication ;
• une étape de comparaison sur ledit serveur distant desdites matrices de caractérisation avec des critères de recherche.
10. Procédé de recherche d'éléments selon l'une des revendications 8 et 9, caractérisé en ce qu'il comprend, en outre, : • une étape de récupération des caractéristiques d'une cible dans lesdites matrices ; et
• une étape d'affichage d'une représentation spatiale des positions géographiques desdites cibles dans la scène sur un dispositif de visualisation.
PCT/FR2005/002372 2004-09-23 2005-09-23 Système d'indexation de vidéo de surveillance WO2006032799A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0452138A FR2875629B1 (fr) 2004-09-23 2004-09-23 Systeme d'indexation de video de surveillance
FR0452138 2004-09-23

Publications (1)

Publication Number Publication Date
WO2006032799A1 true WO2006032799A1 (fr) 2006-03-30

Family

ID=34948673

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2005/002372 WO2006032799A1 (fr) 2004-09-23 2005-09-23 Système d'indexation de vidéo de surveillance

Country Status (2)

Country Link
FR (1) FR2875629B1 (fr)
WO (1) WO2006032799A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424342B2 (en) * 2010-07-28 2019-09-24 International Business Machines Corporation Facilitating people search in video surveillance
US9134399B2 (en) 2010-07-28 2015-09-15 International Business Machines Corporation Attribute-based person tracking across multiple cameras
US8515127B2 (en) 2010-07-28 2013-08-20 International Business Machines Corporation Multispectral detection of personal attributes for video surveillance
US8532390B2 (en) 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5969755A (en) * 1996-02-05 1999-10-19 Texas Instruments Incorporated Motion based event detection system and method
US6330025B1 (en) * 1999-05-10 2001-12-11 Nice Systems Ltd. Digital video logging system
WO2003028376A1 (fr) * 2001-09-14 2003-04-03 Vislog Technology Pte Ltd Systeme d'enregistrement de point de controle/comptoir de service client avec capture, indexation et recherche d'image/video et fonction de correspondance avec une liste noire
WO2003067884A1 (fr) * 2002-02-06 2003-08-14 Nice Systems Ltd. Procede et appareil permettant une poursuite d'objets reposant sur une sequence de trame video
US20040161133A1 (en) * 2002-02-06 2004-08-19 Avishai Elazar System and method for video content analysis-based detection, surveillance and alarm management

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5969755A (en) * 1996-02-05 1999-10-19 Texas Instruments Incorporated Motion based event detection system and method
US6330025B1 (en) * 1999-05-10 2001-12-11 Nice Systems Ltd. Digital video logging system
WO2003028376A1 (fr) * 2001-09-14 2003-04-03 Vislog Technology Pte Ltd Systeme d'enregistrement de point de controle/comptoir de service client avec capture, indexation et recherche d'image/video et fonction de correspondance avec une liste noire
WO2003067884A1 (fr) * 2002-02-06 2003-08-14 Nice Systems Ltd. Procede et appareil permettant une poursuite d'objets reposant sur une sequence de trame video
US20040161133A1 (en) * 2002-02-06 2004-08-19 Avishai Elazar System and method for video content analysis-based detection, surveillance and alarm management

Also Published As

Publication number Publication date
FR2875629B1 (fr) 2007-07-13
FR2875629A1 (fr) 2006-03-24

Similar Documents

Publication Publication Date Title
US20200265085A1 (en) Searching recorded video
US11210504B2 (en) Emotion detection enabled video redaction
US20200012674A1 (en) System and methods thereof for generation of taxonomies based on an analysis of multimedia content elements
US9171075B2 (en) Searching recorded video
KR101223424B1 (ko) 비디오 모션 검출
US8594373B2 (en) Method for identifying an object in a video archive
US20070058842A1 (en) Storage of video analysis data for real-time alerting and forensic analysis
Heller et al. Interactive lifelog retrieval with vitrivr
Han et al. GlimpseData: Towards continuous vision-based personal analytics
CN111222373A (zh) 一种人员行为分析方法、装置和电子设备
EP3496000A1 (fr) Extraction automatique d'attributs d'un objet au sein d'un ensemble d'images numeriques
WO2006032799A1 (fr) Système d'indexation de vidéo de surveillance
JP6909657B2 (ja) 映像認識システム
CN112036306A (zh) 基于监控视频解析实现目标追踪的系统及其方法
FR2936627A1 (fr) Procede d'optimisation de la recherche d'une scene a partir d'un flux d'images archivees dans une base de donnees video.
del Molino et al. Organizing and retrieving episodic memories from first person view
Blighe et al. Exploiting context information to aid landmark detection in sensecam images
Kansal et al. CARF-Net: CNN attention and RNN fusion network for video-based person reidentification
Castro-Girón et al. A Method for Dataset Labeling for Activity Recognition in Videos
FR2872326A1 (fr) Procede de detection d'evenements par videosurveillance
DeAngelus et al. On-demand Forensic Video Analytics for Large-Scale Surveillance Systems
Kamble Life Logging: A Practicable Approach
WO2024079119A1 (fr) Système de surveillance
Tejaswini et al. Finding missing person using image similarity and euclidean loss
CN110569778A (zh) 一种基于大数据处理技术的行人身份识别系统

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 05807456

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 05807456

Country of ref document: EP

Kind code of ref document: A1

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载