JP2012212325A - Visual axis measuring system, method and program - Google Patents
Visual axis measuring system, method and program Download PDFInfo
- Publication number
- JP2012212325A JP2012212325A JP2011077741A JP2011077741A JP2012212325A JP 2012212325 A JP2012212325 A JP 2012212325A JP 2011077741 A JP2011077741 A JP 2011077741A JP 2011077741 A JP2011077741 A JP 2011077741A JP 2012212325 A JP2012212325 A JP 2012212325A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- parameter
- face
- face image
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title abstract description 4
- 238000000034 method Methods 0.000 title description 20
- 238000005259 measurement Methods 0.000 claims abstract description 25
- 230000005477 standard model Effects 0.000 claims description 35
- 210000005252 bulbus oculi Anatomy 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 8
- 238000000691 measurement method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 210000001508 eye Anatomy 0.000 description 26
- 210000004709 eyebrow Anatomy 0.000 description 18
- 238000001514 detection method Methods 0.000 description 13
- 238000013500 data storage Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 210000001747 pupil Anatomy 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 238000002945 steepest descent method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
Description
この発明は視線計測システム、方法およびプログラムに関し、特に、たとえば単眼カメラで撮影した多数のフレーム顔画像を処理することによってその顔画像に含まれる目の視線方向を推定または計測する、視線計測システム、方法およびプログラムに関する。 The present invention relates to a line-of-sight measurement system, method, and program, and in particular, a line-of-sight measurement system that estimates or measures the line-of-sight direction of an eye included in the face image, for example, by processing a number of frame face images captured by a monocular camera, It relates to a method and a program.
特許文献1には本件出願人が提案した視線推定システムが開示されている。この背景技術では、単眼カメラからの被験者の顔画像信号を処理することによって、当該被験者の視線方向を推定できる。
特許文献1の背景技術ではカメラからの顔画像信号のリアルタイム処理によって視線方向を推定するものであり、被験者の顔の中の目や鼻口などのパーツの配置が全く分からない状態から処理を開始するので、逐次の学習による精度の向上に限界があった。 In the background art of Patent Document 1, the gaze direction is estimated by real-time processing of a face image signal from a camera, and processing is started from a state in which the arrangement of parts such as eyes and nose in the subject's face is not known at all. Therefore, there was a limit to the improvement of accuracy by sequential learning.
それゆえに、この発明の主たる目的は、新規な、視線計測システム、方法およびプログラムを提供することである。 Therefore, a main object of the present invention is to provide a novel gaze measurement system, method and program.
この発明の他の目的は、精度を高められる、視線計測システム、方法およびプログラムを提供することである。 Another object of the present invention is to provide a line-of-sight measurement system, method, and program capable of improving accuracy.
この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために後述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。 The present invention employs the following configuration in order to solve the above problems. Note that reference numerals in parentheses, supplementary explanations, and the like indicate correspondence with embodiments to be described later in order to help understanding of the present invention, and do not limit the present invention.
第1の発明は、フレーム顔画像から取得した人の眼球位置と虹彩位置とに基づいてフレーム顔画像毎の視線方向を計測する視線計測システムであって、標準モデルを利用してフレーム顔画像毎に顔画像の虹彩位置を含む特徴点の位置データを取得する特徴点データ取得手段、特徴点の位置データを利用してフレーム顔画像毎に顔の位置および姿勢データを取得する顔データ取得手段、特徴点の位置データおよび顔の位置および姿勢データに基づいてフレーム画像毎に個人パラメータおよびフレームパラメータを設定するパラメータ設定手段、個人パラメータおよびフレームパラメータの全フレーム顔画像に対する適合度を計算する適合度計算手段、適合度が所定の閾値になるまで個人パラメータおよびフレームパラメータを修正する修正手段、および修正された個人パラメータおよびフレームパラメータに基づいて視線方向を計測する手段を備える、視線計測システムである。 A first invention is a line-of-sight measurement system that measures a line-of-sight direction for each frame face image based on a human eyeball position and iris position acquired from the frame face image, and uses the standard model for each frame face image. Feature point data acquisition means for acquiring feature point position data including the iris position of the face image, face data acquisition means for acquiring face position and orientation data for each frame face image using the feature point position data, Parameter setting means for setting individual parameters and frame parameters for each frame image based on feature point position data and face position and orientation data, and fitness calculation for calculating the fitness of individual parameters and frame parameters for all frame face images Means for correcting personal parameters and frame parameters until the matching level reaches a predetermined threshold And a means for measuring a gaze direction based on the modified personal parameter and frame parameters, a gaze tracking system.
第1の発明では、たとえばコンピュータ(サーバ12)によって形成される特徴点データ取得手段(12,261,S105)が、標準モデルを利用してフレーム顔画像毎に顔画像の虹彩位置を含む特徴点の位置データを取得する。ここで、標準モデルとは、一例として、解剖学の知見に従って構築した人の顔の所定の特徴点(たとえば、両目の目頭、目尻、口角)の3次元座標の位置を示す座標データと、それらの特徴点に対して解剖学的に推定できる眼球の位置および眼球の半径のデータとを含むものである。特徴点データ取得手段(12,261,S105)は、フレーム顔画像にこのような標準モデルを適用して、当該被験者の特徴点を検出する。顔データ取得手段(12,262,S107)は、特徴点の位置データを利用して、たとえば複数の特徴点に関する投影行列(P)をQR分解するなどして、フレーム顔画像毎に顔の位置および姿勢データを取得する。パラメータ設定手段(12, S111,S121)は、特徴点の位置データおよび顔の位置および姿勢データに基づいてフレーム画像毎に個人パラメータおよびフレームパラメータを設定する。個人パラメータとは、一例として、各被験者に独特の上述の標準モデルに相当しかつ全てのフレームに共通する、6つの特徴点の3次元座標、眼球の位置および眼球の半径(r)の1組のデータセットであり、フレームパラメータは、一例として、各フレームに特有のパラメータであって、顔の位置および姿勢、虹彩(瞳孔)の位置および虹彩(瞳孔)の半径を含むデータセットである。適合度計算手段(12,263,S115)は、パラメータ設定手段が設定した個人パラメータおよびフレームパラメータの各フレーム顔画像に対する適合度を示すスコア値を計算し、全フレーム画像についてそのスコア値を積算する。つまり、適合度計算手段(12,263,S115)は、積算スコア値を適合度として計算する。修正手段(12,264,S117,S121)はその適合度が所定の閾値になるまで個人パラメータおよびフレームパラメータを修正する。つまり、修正手段で個人パラメータおよびフレームパラメータを修正する都度積算スコア値を計算し、そのスコア値が所定の閾値を下回るまで、修正、積算スコア値計算が繰り返される。そして、視線方向計測手段(12,265,S123)は、修正された個人パラメータおよびフレームパラメータに基づいて、たとえば眼球中心と虹彩中心を結ぶ3次元直線として視線方向を計測する。 In the first invention, for example, the feature point data acquisition means (12,261, S105) formed by the computer (server 12) uses the standard model to position the feature points including the iris position of the face image for each frame face image. Get the data. Here, the standard model is, for example, coordinate data indicating the position of the three-dimensional coordinates of predetermined feature points (for example, the eyes of the eyes, the corners of the eyes, and the corners of the eyes) constructed according to the knowledge of anatomy, and those Data of the position of the eyeball and the radius of the eyeball that can be estimated anatomically with respect to these feature points. The feature point data acquisition means (12,261, S105) applies such a standard model to the frame face image and detects the feature point of the subject. The face data acquisition means (12,262, S107) uses the position data of the feature points, for example, QR-decomposes the projection matrix (P) related to a plurality of feature points, and performs face position and posture for each frame face image. Get the data. The parameter setting means (12, S111, S121) sets personal parameters and frame parameters for each frame image based on the feature point position data and the face position and orientation data. As an example, the personal parameter corresponds to the above-described standard model unique to each subject and is common to all frames, and is a set of three-dimensional coordinates of the six feature points, the position of the eyeball, and the radius (r) of the eyeball. As an example, the frame parameter is a parameter specific to each frame, and includes a face position and posture, an iris (pupil) position, and an iris (pupil) radius. The goodness-of-fit calculation means (12,263, S115) calculates score values indicating the goodness of the individual parameters and frame parameters set by the parameter setting means for each frame face image, and accumulates the score values for all frame images. That is, the fitness level calculation means (12,263, S115) calculates the integrated score value as the fitness level. The correction means (12, 264, S117, S121) corrects the personal parameters and the frame parameters until the matching level reaches a predetermined threshold. That is, the integrated score value is calculated each time the personal parameter and the frame parameter are corrected by the correcting means, and the correction and the integrated score value calculation are repeated until the score value falls below a predetermined threshold value. Then, the gaze direction measuring means (12,265, S123) measures the gaze direction as, for example, a three-dimensional straight line connecting the eyeball center and the iris center based on the corrected personal parameter and frame parameter.
第1の発明によれば、個人的パラメータおよびフレームパラメータが全フレーム顔画像に対して適合するように修正されるので、視線計測の精度が向上する。 According to the first invention, since the personal parameters and the frame parameters are corrected so as to be suitable for the full-frame face image, the accuracy of the line-of-sight measurement is improved.
第2の発明は、第1の発明に従属し、適合度計算手段は、標準モデルを使って個人パラメータとフレームパラメータに基づいて生成した虹彩の投影像と、各フレーム顔画像における虹彩との比較の誤差の全フレーム顔画像の総計を適合度として計算する、視線計測システムである。 The second invention is dependent on the first invention, and the fitness calculation means compares the iris projection image generated based on the personal parameter and the frame parameter using the standard model and the iris in each frame face image. This is a line-of-sight measurement system that calculates the sum of all frame face images of the above error as fitness.
第2の発明によれば、生成した虹彩の投影像と実際のフレーム顔画像の虹彩との誤差を全フレームについて積算して適合度とするので、推定または計測する視線方向の精度向上が期待できる。 According to the second aspect of the invention, since the error between the generated projection image of the iris and the iris of the actual frame face image is integrated for all frames to obtain the fitness, the accuracy of the gaze direction to be estimated or measured can be expected to improve. .
第3の発明は、第1の発明に従属し、適合度計算手段は、標準モデルを使って個人パラメータとフレームパラメータに基づいて生成した虹彩を含む顔の所定の特徴点の投影像と、各フレーム顔画像におけるそれらの特徴点との比較の誤差の全フレーム顔画像の総計を適合度として計算する、視線計測システムである。 The third invention is dependent on the first invention, and the fitness calculation means includes a projected image of predetermined feature points of the face including the iris generated based on the personal parameters and the frame parameters using the standard model, This is a line-of-sight measurement system that calculates the total of all frame face images of errors in comparison with their feature points in the frame face image as the fitness.
第3の発明によれば、虹彩を含む顔の所定の特徴点の投影像と実際のフレーム顔画像におけるそれらの特徴点の誤差(距離)の和を全フレームについて積算して適合度とするので、これらの発明により適合度を正確に計算することができ、結果的に、推定または計測する視線方向の精度向上が期待できる。 According to the third aspect of the invention, the sum of errors (distances) between the projected images of predetermined feature points of the face including the iris and those feature points in the actual frame face image is integrated for all frames to obtain the fitness. According to these inventions, the fitness can be accurately calculated, and as a result, it is expected that the accuracy of the gaze direction to be estimated or measured is improved.
第4の発明は、第1ないし第3のいずれか発明に従属し、修正したパラメータに基づいて標準モデルを更新する更新手段をさらに備える、視線計測システムである。 A fourth invention is a line-of-sight measurement system according to any one of the first to third inventions, further comprising update means for updating the standard model based on the corrected parameter.
第4の発明によれば、修正した個人パラメータによって標準モデルを更新するので、その標準モデルを利用して特徴点を検出できる被験者の範囲が拡大する。つまり、より多くのタイプの被験者に適用できる標準モデルが得られる。 According to the fourth invention, since the standard model is updated with the corrected personal parameter, the range of subjects who can detect feature points using the standard model is expanded. That is, a standard model that can be applied to more types of subjects is obtained.
第5の発明は、フレーム顔画像から取得した人の眼球位置と虹彩位置とに基づいてフレーム顔画像毎の視線方向を計測する視線計測方法であって、標準モデルを利用してフレーム顔画像毎に顔画像の虹彩位置を含む特徴点の位置データを取得する特徴点データ取得ステップ、特徴点の位置データを利用してフレーム顔画像毎に顔の位置および姿勢データを取得する顔データ取得ステップ、特徴点の位置データおよび顔の位置および姿勢データに基づいてフレーム画像毎に個人パラメータおよびフレームパラメータを設定するパラメータ設定ステップ、個人パラメータおよびフレームパラメータの全フレーム顔画像に対する適合度を計算する適合度計算ステップ、適合度が所定の閾値になるまで個人パラメータおよびフレームパラメータを修正する修正ステップ、および修正された個人パラメータおよびフレームパラメータに基づいて視線方向を計測するステップを含む、視線計測方法である。 A fifth invention is a line-of-sight measurement method for measuring a line-of-sight direction for each frame face image based on a human eyeball position and an iris position acquired from the frame face image, and uses the standard model for each frame face image. A feature point data acquisition step for acquiring feature point position data including the iris position of the face image, a face data acquisition step for acquiring face position and orientation data for each frame face image using the feature point position data, Parameter setting step for setting individual parameters and frame parameters for each frame image based on the feature point position data and face position and posture data, and fitness calculation for calculating the suitability of individual parameters and frame parameters for all frame face images Step, modify personal parameters and frame parameters until the matching level reaches a predetermined threshold Comprising the step of measuring a gaze direction based on personal parameters and frame parameters were fixed steps, and modifications that are line-of-sight measurement method.
第5の発明でも第1の発明と同様の効果が期待できる。 In the fifth invention, the same effect as in the first invention can be expected.
第6の発明は、フレーム顔画像から取得した人の眼球位置と虹彩位置とに基づいてフレーム顔画像毎の視線方向を計測する視線計測システムのコンピュータによって実行される視線計測プログラムであって、コンピュータを、標準モデルを利用してフレーム顔画像毎に顔画像の虹彩位置を含む特徴点の位置データを取得する特徴点データ取得手段、特徴点の位置データを利用してフレーム顔画像毎に顔の位置および姿勢データを取得する顔データ取得手段、特徴点の位置データおよび顔の位置および姿勢データに基づいてフレーム画像毎に個人パラメータおよびフレームパラメータを設定するパラメータ設定手段、個人パラメータおよびフレームパラメータの全フレーム顔画像に対する適合度を計算する適合度計算手段、適合度が所定の閾値になるまで個人パラメータおよびフレームパラメータを修正する修正手段、および修正された個人パラメータおよびフレームパラメータに基づいて視線方向を計測する手段として機能させる、視線計測プログラムである。 A sixth invention is a line-of-sight measurement program executed by a computer of a line-of-sight measurement system that measures a line-of-sight direction for each frame face image based on a human eyeball position and an iris position acquired from the frame face image. The feature point data acquisition means for acquiring the feature point position data including the iris position of the face image for each frame face image using the standard model, the face point for each frame face image using the feature point position data Face data acquisition means for acquiring position and orientation data, parameter setting means for setting individual parameters and frame parameters for each frame image based on the position data of feature points and the position and orientation data of faces, all of the personal parameters and frame parameters A fitness calculation means for calculating the fitness for the frame face image, and the fitness is a predetermined threshold Made up to function as a means for measuring a gaze direction based on personal parameters and correcting means corrects the frame parameters, and modified personal parameter and frame parameters, a line-of-sight measurement program.
第6の発明でも第1の発明と同様の効果が期待できる。 In the sixth invention, the same effect as in the first invention can be expected.
この発明によれば、全フレームの顔画像と照合して個人的パラメータおよびフレームパラメータを修正するので、視線の推定または計測の精度を向上させることができる。 According to the present invention, since the personal parameters and the frame parameters are corrected by collating with the face images of all frames, the accuracy of eye gaze estimation or measurement can be improved.
この発明の上述の目的,その他の目的,特徴,および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above object, other objects, features, and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.
この発明の一実施例の視線計測システム10は、サーバ12を含み、このサーバ12はネットワーク16を介してクライアント14からアクセスされる。クライアント14にたとえばCCDまたはCMOSセンサのような固体撮像素子を含むカメラ18が設けられ、このカメラ18は被験者20の顔を撮影して、被験者の顔画像(動画像)信号をクライアント14に送る。クライアント14は、カメラ18で取得した被験者20の一連の顔画像信号を、一連のフレーム顔画像データとして、被験者20の視線方向をフレーム顔画像から推定して計測してもらうために、ネットワーク16を通してサーバ12に送る。ただし、クライアント14からサーバ12へのフレーム顔画像データの送信は、ネットワーク16を介して行う他、たとえばフレーム顔画像データを記録した記録媒体(図示せず)からサーバ12に取り込むなどの方法が考えられる。 The line-of-sight measurement system 10 according to an embodiment of the present invention includes a server 12 that is accessed from a client 14 via a network 16. The client 14 is provided with a camera 18 including a solid-state imaging device such as a CCD or a CMOS sensor. The camera 18 captures the face of the subject 20 and sends a face image (moving image) signal of the subject to the client 14. The client 14 uses a series of face image signals of the subject 20 acquired by the camera 18 as a series of frame face image data, and estimates the direction of the subject's line of sight 20 from the frame face image to be measured. Send to server 12. However, transmission of the frame face image data from the client 14 to the server 12 is performed via the network 16, and for example, a method of taking in the server 12 from a recording medium (not shown) on which the frame face image data is recorded is considered. It is done.
サーバ12は、そのようにして入力された入力画像データを、たとえばハードディスクや半導体メモリのような記憶装置である入力画像保存装置22に保存する。 The server 12 stores the input image data input as described above in an input image storage device 22 which is a storage device such as a hard disk or a semiconductor memory.
なお、サーバ12が計測した視線方向のデータ(視線データ)は、必要に応じて、ネットワーク16を介してクライアント14に送られる。 The line-of-sight data (line-of-sight data) measured by the server 12 is sent to the client 14 via the network 16 as necessary.
サーバ12における視線計測は、背景技術として挙げた特許文献1(特開2008‐102902号)において本件発明者等が既に提案した視線推定方法を利用する。簡単にいうと、この背景となる視線計測技術は、被験者の顔の特徴点と虹彩中心の関係から顔特徴点と眼球中心の相対関係を求め、ついで、その相対関係を元にそのときの顔画像で得られている特徴点群から眼球中心位置を推定し、その位置と虹彩中心位置から視線方向を推定するのである。 The line-of-sight measurement in the server 12 uses the line-of-sight estimation method already proposed by the present inventors in Patent Document 1 (Japanese Patent Laid-Open No. 2008-102902) cited as background art. In simple terms, the background gaze measurement technology calculates the relative relationship between the facial feature point and the eyeball center from the relationship between the facial feature point of the subject and the iris center, and then based on that relative relationship, The eyeball center position is estimated from the feature point group obtained in the image, and the gaze direction is estimated from the position and the iris center position.
図2は図1実施例におけるサーバ12のメモリ24のメモリマップを示し、このメモリ24にはプログラム記憶領域26およびデータ記憶領域28が形成される。プログラム記憶領域28には、それぞれ後に詳しく説明する、入力顔画像から被験者の顔を検出し、その顔の特徴点を抽出するための顔検出・特徴点抽出プログラム261、顔画像からカメラ16に対する被験者の顔の位置および姿勢を検出するための顔位置・姿勢検出プログラム262を含む。顔の特徴点としては、実施例では、被験者の左右の目の目頭および目尻、口の両端(口角)の計6点を用いる。これらの特徴点は2次元座標として表現される。 FIG. 2 shows a memory map of the memory 24 of the server 12 in the embodiment of FIG. 1, in which a program storage area 26 and a data storage area 28 are formed. In the program storage area 28, a face detection / feature point extraction program 261 for detecting the face of the subject from the input face image and extracting feature points of the face, which will be described in detail later, and the subject for the camera 16 from the face image A face position / posture detection program 262 for detecting the position and posture of the face. As facial feature points, in the embodiment, a total of six points including the eyes and corners of the left and right eyes of the subject and both ends (mouth corners) of the mouth are used. These feature points are expressed as two-dimensional coordinates.
プログラム記憶領域26はさらに、個人パラメータおよびフレームパラメータ(後述)の入力顔画像に対する適合度を判定するために、後述のスコア積算のためのスコア積算プログラム263、およびそのスコア積算処理の結果に基づいて個人パラメータおよびフレームパラメータを修正するためのパラメータ修正プログラム264を含む。 The program storage area 26 is further based on a score integration program 263 for score integration to be described later and the result of the score integration processing in order to determine the adaptability of the personal parameters and frame parameters (to be described later) to the input face image. A parameter correction program 264 for correcting personal parameters and frame parameters is included.
プログラム記憶領域26はさらに、修正した個人パラメータに含まれる眼球中心とフレームパラメータに含まれる虹彩中心とに基づいて視線方向を推定する視線推定プログラム265、およびパラメータ修正の結果に基づいて標準モデルを更新する標準モデル更新プログラム266を含む。 The program storage area 26 further updates the standard model based on the result of parameter correction, and the line-of-sight estimation program 265 that estimates the line-of-sight direction based on the eyeball center included in the corrected personal parameter and the iris center included in the frame parameter. The standard model update program 266 is included.
データ記憶領域28には、一連のフレーム顔画像を分解した各フレーム顔画像のデータを記憶しておくための、フレーム顔画像データ記憶領域281を含み、この領域281に、入力画像保存装置22(図1)から読み出して各フレームに分解した顔画像データを記憶しておく。 The data storage area 28 includes a frame face image data storage area 281 for storing data of each frame face image obtained by disassembling a series of frame face images, and the input image storage device 22 ( The face image data read from FIG. 1) and decomposed into each frame is stored.
データ記憶領域28はまた、上の顔検出・特徴点抽出プログラム261や顔位置・姿勢推定プログラム262で利用される標準モデルのデータを記憶した標準モデル記憶領域282が含まれる。ここで、標準モデルとは、解剖学の知見に従って構築した人の顔の上述の6つの特徴点の3次元座標の位置を示す座標データと、それらの特徴点に対して解剖学的に推定できる眼球の位置および眼球の半径(r)のデータとを含むデータベースである。 The data storage area 28 also includes a standard model storage area 282 that stores standard model data used in the above face detection / feature point extraction program 261 and face position / posture estimation program 262. Here, the standard model is coordinate data indicating the position of the three-dimensional coordinates of the above-mentioned six feature points of the human face constructed according to anatomical knowledge, and can be estimated anatomically with respect to these feature points. It is a database including data on the position of the eyeball and the radius (r) of the eyeball.
顔検出・特徴点抽出プログラム261や顔位置・姿勢推定プログラム262で検出した特徴点のデータや顔の位置および姿勢のデータは、入力画像から抽出した図7のような目領域の画像とともに、特徴点、顔位置、姿勢データ記憶領域283に記憶される。 The feature point data and the face position and orientation data detected by the face detection / feature point extraction program 261 and the face position / posture estimation program 262 together with the image of the eye region as shown in FIG. The point, face position, and posture data storage area 283 is stored.
データ記憶領域28はさらに、個人パラメータ記憶領域284およびフレームパラメータ記憶領域285を含む。個人パラメータとは、各被験者に独特の上述の標準モデルに相当しかつ全てのフレームに共通する、6つの特徴点の3次元座標、眼球の位置および眼球の半径(r)の1組のデータセットのことである。これに対して、フレームパラメータは、各フレームに特有のパラメータであって、顔の位置および姿勢、虹彩(瞳孔)の位置および虹彩(瞳孔)の半径を含むデータセットである。したがって、フレームパラメータ記憶領域285は、一連の顔画像のフレーム数(K)に相当する記憶場所を有する。 The data storage area 28 further includes a personal parameter storage area 284 and a frame parameter storage area 285. The personal parameters are a set of data sets corresponding to the above-mentioned standard model unique to each subject and common to all frames, including the three-dimensional coordinates of the six feature points, the position of the eyeball, and the radius (r) of the eyeball. That is. On the other hand, the frame parameter is a parameter specific to each frame, and is a data set including a face position and posture, an iris (pupil) position, and an iris (pupil) radius. Therefore, the frame parameter storage area 285 has a storage location corresponding to the number of frames (K) of a series of face images.
そして、データ記憶領域28に形成される視線データ記憶領域286は、上述の視線推定プログラムで推定または計測した視線方向を示すデータを、たとえばたとえば旋回方向の角度(水平面内の角度)および俯仰方向の角度(垂直面内の角度)のデータとして、フレーム毎に記憶するための領域である。この視線データ記憶領域も、一連の顔画像のフレーム数(K)に相当する記憶場所を含む。 The line-of-sight data storage area 286 formed in the data storage area 28 stores data indicating the line-of-sight direction estimated or measured by the above-described line-of-sight estimation program, for example, an angle in a turning direction (an angle in a horizontal plane) and an elevation direction. This is an area for storing data for each frame as angle (angle in the vertical plane) data. This line-of-sight data storage area also includes a storage location corresponding to the number of frames (K) of a series of face images.
図3はサーバ12が実行する図1実施例の動作を示すフロー図であり、最初のステップS101では、サーバ12は、たとえばクライアントコンピュータ14から入力され、入力画像保存装置22(図1)に保存されている一連のフレーム顔画像データを、フレーム毎の顔画像データに分解して、メモリ24(図2)のフレーム顔画像データ記憶領域281に記憶する。 FIG. 3 is a flowchart showing the operation of the embodiment in FIG. 1 executed by the server 12. In the first step S101, the server 12 is input from, for example, the client computer 14 and stored in the input image storage device 22 (FIG. 1). The series of frame face image data that has been processed is decomposed into face image data for each frame and stored in the frame face image data storage area 281 of the memory 24 (FIG. 2).
そして、メモリ26の適宜の領域に形成されて、フレーム数をカウントするためのカウンタ(図示せず)をインクリメントする(ステップS103)。最初のフレームを処理するためにはこのカウンタに「1」がセットされ、順次フレーム毎にインクリメントされる。以下、ステップS113で最後のフレーム(K)までの処理が終了したと判断するまで、ステップS105‐S111を繰り返し実行する。 Then, a counter (not shown) that is formed in an appropriate area of the memory 26 and counts the number of frames is incremented (step S103). In order to process the first frame, “1” is set in this counter, and is sequentially incremented for each frame. Thereafter, steps S105 to S111 are repeatedly executed until it is determined in step S113 that the processing up to the last frame (K) has been completed.
ステップS105では、図2に示す顔検出・特徴点抽出プログラム261に従って、そのときのフレーム顔画像から、被験者の顔を検出し、ついで特徴点を抽出する。
(顔検出)
視線方向の推定処理の動作の前提として、まず、たとえば6分割矩形フィルタを利用して、顔検出処理が実行される。
In step S105, according to the face detection / feature point extraction program 261 shown in FIG. 2, the face of the subject is detected from the frame face image at that time, and then feature points are extracted.
(Face detection)
As a premise of the operation of the gaze direction estimation process, first, for example, a face detection process is executed using a six-divided rectangular filter.
サーバ12は、顔画像を処理するにあたり、横が顔幅、縦がその半分程度の大きさの矩形フィルタで画面を走査する。矩形は、たとえば、3×2に6分割されていて、各分割領域の平均明るさが計算され、それらの相対的な明暗関係がある条件を満たすとき、その矩形の中心を眉間候補とする。 When processing the face image, the server 12 scans the screen with a rectangular filter whose width is the width of the face and whose length is about half that of the face. The rectangle is divided into, for example, 3 × 2, and the average brightness of each divided region is calculated, and when the relative brightness relationship is satisfied, the center of the rectangle is set as a candidate for the eyebrows.
連続した画素が眉間候補となるときは、それを取囲む枠の中心候補のみを眉間候補として残す。残った眉間候補を標準モデルと比較してテンプレートマッチング等を行うことで、上述した手続きで得られた眉間候補のうちから、偽の眉間候補を捨て、真の眉間を抽出する。以下、さらに詳しく説明する。 When consecutive pixels become the eyebrow candidate, only the center candidate of the frame surrounding it is left as the eyebrow candidate. By comparing the remaining eyebrow candidates with the standard model and performing template matching or the like, the false eyebrow candidates are discarded from the eyebrow candidates obtained by the above-described procedure, and the true eyebrow candidates are extracted. This will be described in more detail below.
図4は、眉間候補領域を検出するためのフィルタを説明するための概念図であり、図4(a)は、上述した3×2に6分割された矩形フィルタ(以下、「6分割矩形フィルタ」と呼ぶ。)を示す。 FIG. 4 is a conceptual diagram for explaining a filter for detecting an eyebrow candidate region. FIG. 4A shows the above described 3 × 2 rectangular filter (hereinafter referred to as “6-divided rectangular filter”). ").
6分割矩形フィルタは、(1) 鼻筋は両目領域よりも明るい、(2) 目領域は頬部よりも暗い、という顔の特徴を抽出し、顔の眉間位置を求めるフィルタである。たとえば、1点(x、y)を中心として、横i画素、縦j画素(i,j:自然数)の矩形の枠を設ける。そして、図4(a)のように、この矩形の枠を、横に3等分、縦に2等分して、6個のブロックS1‐S6に分割する。 The six-divided rectangular filter is a filter that extracts facial features such as (1) nose muscles are brighter than both eye regions and (2) eye regions are darker than the cheeks, and obtains the position between the eyebrows. For example, a rectangular frame of horizontal i pixels and vertical j pixels (i, j: natural number) is provided centering on one point (x, y). Then, as shown in FIG. 4A, this rectangular frame is divided into three equal parts horizontally and two equal parts vertically and divided into six blocks S1-S6.
このような6分割矩形フィルタを顔画像の両目領域および頬部に当てはめてみると、図4(b)のようになる。 When such a 6-divided rectangular filter is applied to both eye regions and cheeks of a face image, the result is as shown in FIG.
ただし、図4の6分割フィルタは各矩形領域が等分されたものであったが、このフィルタは図5に示すように変形されてもよい。 However, although the 6-divided filter in FIG. 4 is obtained by equally dividing each rectangular area, this filter may be modified as shown in FIG.
鼻筋の部分が目の領域よりも通常は狭いことを考慮すると、ブロックS2およびS5の横幅w2は、ブロックS1,S3,S4およびS6の横幅w1よりも狭い方がより望ましい。好ましくは、幅w2は幅w1の半分とすることができる。図10は、このような場合の6分割矩形フィルタの構成を示す。また、ブロックS1、S2およびS3の縦幅h1と、ブロックS4、S5およびS6の縦幅h2とは、必ずしも同一である必要もない。 Considering that the nose muscle portion is usually narrower than the eye region, it is more desirable that the width w2 of the blocks S2 and S5 is narrower than the width w1 of the blocks S1, S3, S4 and S6. Preferably, the width w2 can be half of the width w1. FIG. 10 shows the configuration of a six-divided rectangular filter in such a case. Further, the vertical width h1 of the blocks S1, S2 and S3 and the vertical width h2 of the blocks S4, S5 and S6 are not necessarily the same.
図5に示す6分割矩形フィルタにおいて、それぞれのブロックSi(1≦i≦6)について、画素の輝度の平均値「バーSi」(Siに上に“−”(バー)をつける。)を求める。 In the 6-divided rectangular filter shown in FIG. 5, for each block Si (1 ≦ i ≦ 6), the average value “bar Si” of the pixel luminance (“−” (bar) is added above Si). .
ブロックS1に1つの目と眉が存在し、ブロックS3に他の目と眉が存在するものとすると、以下の関係式(1)および(2)が成り立つ。 Assuming that one eye and eyebrows exist in the block S1 and another eye and eyebrows exist in the block S3, the following relational expressions (1) and (2) hold.
そこで、これらの関係を満たす点を眉間候補(顔候補)として抽出する。 Therefore, a point satisfying these relationships is extracted as an eyebrow candidate (face candidate).
矩形枠内の画素の総和を求める処理には、公知の文献(P. Viola and M. Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features,”Proc. Of IEEEConf. CVPR, 1, pp.511-518, 2001)において開示されている、インテグラルイメージ(Integral Image)を利用した計算の高速化手法を取り入れることができる。インテグラルイメージを利用することでフィルタの大きさに依らず高速に実行することができる。多重解像度画像に本手法を適用することにより、画像上の顔の大きさが変化した場合にも顔候補の抽出が可能となる。 For the process of calculating the sum of pixels in a rectangular frame, a known document (P. Viola and M. Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features,” Proc. Of IEEEConf. CVPR, 1, pp.511). -518, 2001), it is possible to incorporate a high-speed calculation method using an integral image. By using an integral image, it can be executed at high speed regardless of the size of the filter. By applying this method to a multi-resolution image, face candidates can be extracted even when the size of the face on the image changes.
このようにして得られた眉間候補(顔候補)に対しては、上で説明した標準モデルとのテンプレートマッチングにより、真の眉間位置(真の顔領域)を特定することができる。 For the eyebrow candidate (face candidate) obtained in this way, the true eyebrow position (true face region) can be specified by template matching with the standard model described above.
なお、得られた顔候補に対して、サポートベクタマシン(SVM)による顔モデルによる検証処理を適用し顔領域を決定することもできる。髪型の違いや髭の有無、表情変化による認識率の低下を避けるため、たとえば、図7に示すように、眉間を中心とした画像領域を利用してSVMによるモデル化を行うことができる。なお、このようなSVMによる真の顔領域の決定については、文献:S. Kawato, N. Tetsutani and K. Hosaka: “Scale-adaptive face detection and tracking in real time with ssr fi1ters and support vector machine”, IEICE Trans.on Info. and Sys., E88−D, 12, pp.2857−2863(2005)に開示されている。6分割矩形フィルタによる高速候補抽出とSVMによる処理とを組み合わせることで実時間の顔検出が可能である。
(特徴点検出)
続いて、目、口や虹彩(瞳孔)の位置を、たとえば、眼の両端、口の両端の特徴点抽出は、予め用意した各特徴点周辺のテンプレート画像を利用した類似点の探索処理によって実現できる。テンプレート画像をGaborフィルタ等の空間フィルタを利用して低次元のベクトルに変換することで、照明変化に対して頑健で効率的な照合処理とすることもできる。
Note that a face area can be determined by applying verification processing using a face model by a support vector machine (SVM) to the obtained face candidates. In order to avoid a reduction in recognition rate due to differences in hairstyles, presence or absence of wrinkles, and changes in facial expressions, for example, as shown in FIG. For the determination of the true face area by SVM, refer to S. Kawato, N. Tetsutani and K. Hosaka: “Scale-adaptive face detection and tracking in real time with ssr fi1ters and support vector machine”, IEICE Trans. on Info. and Sys., E88-D, 12, pp. 2857-2863 (2005). Real-time face detection is possible by combining high-speed candidate extraction with a six-divided rectangular filter and processing by SVM.
(Feature point detection)
Subsequently, the extraction of feature points at the eyes, mouth and iris (pupil), for example, the feature points at both ends of the eye and at both ends of the mouth, is realized by searching for similar points using template images around each feature point prepared in advance. it can. By converting the template image into a low-dimensional vector using a spatial filter such as a Gabor filter, it is possible to perform a collation process that is robust against an illumination change and efficient.
両目の位置については、先に説明した顔領域検出で眉間のパターンを探索しているため、眉間の両側の暗い領域を再探索することにより、大まかな両目の位置を推定することができる。しかし、視線方向の推定のためには、虹彩中心をより正確に抽出する必要がある。ここでは、上で求まった目の周辺領域に対して、ラプラシアンにより虹彩のエッジ候補を抽出し、円のハフ変換を適用することにより、虹彩および虹彩の中心の投影位置を検出する。 As for the positions of both eyes, since the pattern between the eyebrows is searched for by detecting the face area described above, the positions of both eyes can be roughly estimated by searching again for the dark areas on both sides of the eyebrows. However, it is necessary to extract the iris center more accurately in order to estimate the gaze direction. Here, for the peripheral region of the eye obtained above, iris edge candidates are extracted by Laplacian, and the Hough transform of the circle is applied to detect the projection position of the iris and the center of the iris.
図8は顔検出結果の例を示す図である。検出された顔において、虹彩中心や鼻先や口なども検出されている。たとえば、特徴点としては、左右の目の目尻や目頭、口の両端などを用いることができる。 FIG. 8 is a diagram illustrating an example of a face detection result. In the detected face, the iris center, nose tip and mouth are also detected. For example, as the feature points, the right and left eye corners, the corners of the eyes, both ends of the mouth, and the like can be used.
このようにして検出された特徴点の位置データは、メモリ24(図2)の特徴点、顔位置、姿勢記憶領域283に、フレーム毎に、記憶される。
(視線推定の原理)
視線の推定においては、視線方向は眼球中心と虹彩中心を結ぶ3次元直線として与えられるものとする。
The feature point position data detected in this way is stored for each frame in the feature point, face position, and posture storage area 283 of the memory 24 (FIG. 2).
(Principle of gaze estimation)
In the gaze estimation, the gaze direction is given as a three-dimensional straight line connecting the eyeball center and the iris center.
図9は視線方向を決定するためのモデルを説明する概念図である。画像上での眼球半径をr、画像上での眼球中心と虹彩中心との距離をdとすると、視線方向とカメラ光軸とのなす角θは次式(3)で表される。 FIG. 9 is a conceptual diagram illustrating a model for determining the line-of-sight direction. When the eyeball radius on the image is r and the distance between the eyeball center and the iris center on the image is d, the angle θ formed by the line-of-sight direction and the camera optical axis is expressed by the following equation (3).
後により詳しく説明するように、この実施例の視線方向の推定では、眼球中心と顔特徴点間の相対関係の推定処理と眼球中心の投影位置推定とを行なう。そのために、ステップS107で、顔の位置および姿勢を推定する。
(顔位置・姿勢推定)
顔特徴点pjの2次元観測位置xj(k)(太字)=[xj(k),yj(k)]tとv)標準モデルより求まった3次元位置sj(太字)=[Xj,Yj,Zj]t(j=1,…,M)の間には、M個の特徴点のうち観測されたm個の特徴点について注目すると、次式の関係が得られる。
As will be described in detail later, in the estimation of the line-of-sight direction in this embodiment, the estimation process of the relative relationship between the eyeball center and the face feature point and the projection position estimation of the eyeball center are performed. Therefore, in step S107, the face position and posture are estimated.
(Face position / posture estimation)
2D observation position xj (k) (bold) = [xj (k), yj (k)] t and v) 3D position sj (bold) = [Xj, Yj, In the range of Zj] t (j = 1,..., M), when attention is paid to the m feature points observed among the M feature points, the following relationship is obtained.
ただし、行列P(k)は2×3の行列である。右辺の第2項の行列S(k)は行列Sのうち、観測された特徴点に対応する要素のみからなる部分行列である。上述の通り、カメラと顔は十分に離れているとし正射影を仮定している。ここで、4点以上の特徴点が観測されれば、行列P(k)は以下のように計算できる。 However, the matrix P (k) is a 2 × 3 matrix. The matrix S (k) of the second term on the right side is a partial matrix consisting of only elements corresponding to the observed feature points in the matrix S. As described above, it is assumed that the camera and the face are sufficiently separated from each other and an orthogonal projection is assumed. Here, if four or more feature points are observed, the matrix P (k) can be calculated as follows.
画像フレームIkにおける眼球中心の投影位置xr(i)(太字),xl(i)(太字)は、行列P(k)を用いて以下のように計算できる(ステップS210)。 The projection positions xr (i) (bold) and xl (i) (bold) at the center of the eyeball in the image frame Ik can be calculated as follows using the matrix P (k) (step S210).
したがって、画像フレームIkにおいて特徴点として抽出した虹彩中心の投影位置とこの眼球中心の投影位置を用いると、視線の推定を行なうことができる。 Therefore, the line of sight can be estimated by using the iris center projection position extracted as the feature point in the image frame Ik and the eyeball center projection position.
なお、行列PをQR分解により分解することで、顔の姿勢Rがまた、顔の位置が以下のように計算できる。 By decomposing the matrix P by QR decomposition, the face posture R and the face position can be calculated as follows.
ただし、r1、r2はそれぞれ1×3のベクトルである。このような顔の姿勢Rの検出については、文献:L.Quan: “Self-calibration of an affine camera from multiple views”,Int’l Journal of Computer Vision, 19, pp. 93−105(1996)に開示がある。 However, r1 and r2 are 1 × 3 vectors, respectively. Such detection of face posture R is described in literature: L.L. Quan: “Self-calibration of an affine camera from multiple views”, Int’l Journal of Computer Vision, 19, pp. 93-105 (1996).
得られたrを真値とみなして、式(10)、(11)、(12)に従って、最小二乗法により、投影誤差を最小とするスケールsおよび並進ベクトルvx,vyを求める。式(12)のスケールsが顔の大きさを示し、並進ベクトルvx,vyが顔の位置を示す。 The obtained r is regarded as a true value, and the scale s and the translation vectors vx and vy that minimize the projection error are obtained by the least square method according to the equations (10), (11), and (12). The scale s in Expression (12) indicates the size of the face, and the translation vectors vx and vy indicate the position of the face.
このようにして、ステップS107で、各フレーム画像における被験者の顔の位置および姿勢を推定する。 In this way, in step S107, the position and posture of the subject's face in each frame image are estimated.
このようにして検出された顔の位置および姿勢データは、メモリ24(図2)の特徴点、顔位置、姿勢記憶領域283に、フレーム毎に記憶される。 The face position and orientation data detected in this way is stored for each frame in the feature point, face position and orientation storage area 283 of the memory 24 (FIG. 2).
続くステップS109で、サーバ12はそのとき処理している入力画像から、先の図7に示すような目領域の画像データを抽出し、メモリ24の特徴点、顔位置、姿勢記憶領域283に、特徴点、顔位置および姿勢データと一緒に、フレーム毎に、記憶する。 In subsequent step S109, the server 12 extracts image data of the eye area as shown in FIG. 7 from the input image being processed at that time, and stores it in the feature point, face position, and posture storage area 283 of the memory 24. Along with the feature point, face position, and posture data, each frame is stored.
次のステップS111で、サーバ12は、上で求めた特徴点、顔位置および姿勢データに従って、当該フレームの初期パラメータを設定する。個人パラメータは上述のように、特徴点との相対的位置関係から求めた眼球位置と、その眼球位置を中心とした解剖学的に得られる眼球半径である。ただし、個人パラメータはフレーム毎に変化するというものではなく、すべてのフレームに対して共通のものである。ステップS111で設定された個人パラメータの初期値が個人パラメータ記憶領域284(図2)に記憶される。また、フレームパラメータはフレーム毎に変化するもので、各フレームにおける顔の位置、姿勢、虹彩(瞳孔)位置および虹彩(瞳孔)半径の初期値をフレームパラメータ記憶領域285(図2)の該当フレームの記憶場所に記憶する。 In the next step S111, the server 12 sets initial parameters of the frame in accordance with the feature point, face position, and posture data obtained above. As described above, the personal parameter is the eyeball position obtained from the relative positional relationship with the feature point, and the eyeball radius obtained anatomically with the eyeball position as the center. However, personal parameters do not change from frame to frame, but are common to all frames. The initial values of the personal parameters set in step S111 are stored in the personal parameter storage area 284 (FIG. 2). The frame parameters change from frame to frame, and the initial values of the face position, posture, iris (pupil) position, and iris (pupil) radius in each frame are stored in the frame parameter storage area 285 (FIG. 2). Store it in a memory location.
このようにして初期パラメータを設定した後、サーバ12は、ステップS115において、全フレームについて、スコアを積算する。「スコア」とは、たとえば標準モデルのデータを使って個人パラメータ(眼球半径、眼球位置)とフレームパラメータ(虹彩半径および虹彩位置)に基づいて生成した虹彩の投影像(コンピュータグラフィックス画像)と、実際の各フレーム顔画像における虹彩との比較の誤差である。実際の顔画像としては、実施例では、ステップS109で特徴点、顔位置、姿勢記憶領域283に特徴点、顔位置、姿勢のデータとともにフレーム毎に記憶した図7で示すような目領域の画像を利用する。この誤差は、虹彩の投影像とフレーム顔画像における虹彩とのずれ(距離)、および大きさ(面積)の差をそれぞれ画像上のピクセル数として計算する。あるいは、虹彩を含む顔の所定の特徴点の投影像と実際のフレーム顔画像におけるそれらの特徴点の観測位置のずれ(距離)の和を誤差として計算してもよい。そのフレーム毎の誤差(スコア)を全Kフレームで合計する。つまり、全フレームについてスコアを積算する。スコアは、パラメータ設定手段として機能するステップS111で設定した個人パラメータおよびフレームパラメータが各フレーム顔画像に適合している程度(適合度)を示すものであり、したがって、このステップS115で得られる積算スコア値は、つまり、初期パラメータ設定手段が設定した個人パラメータおよびフレームパラメータの全フレーム顔画像に対する適合度である。 After setting the initial parameters in this way, the server 12 accumulates scores for all frames in step S115. “Score” is, for example, a projection image (computer graphics image) of an iris generated based on personal parameters (eyeball radius, eyeball position) and frame parameters (iris radius and iris position) using standard model data, This is an error in comparison with the iris in each actual frame face image. As an actual face image, in the embodiment, the image of the eye region as shown in FIG. 7 stored for each frame together with the feature point, face position, and posture data in the feature point, face position, and posture storage region 283 in step S109. Is used. For this error, the difference (distance) and size (area) between the projected image of the iris and the iris in the frame face image are calculated as the number of pixels on the image. Alternatively, the sum of the deviation (distance) of the projection positions of predetermined feature points of the face including the iris and the observation positions of those feature points in the actual frame face image may be calculated as an error. The error (score) for each frame is totaled for all K frames. That is, the scores are integrated for all frames. The score indicates the degree (fitness) that the personal parameter and the frame parameter set in step S111 functioning as the parameter setting means are adapted to each frame face image. Therefore, the integrated score obtained in step S115. In other words, the value is the degree of suitability of the personal parameter and the frame parameter set by the initial parameter setting means with respect to the all-frame face image.
次に、ステップS117において、ステップS115で積算したスコア値を所定の閾値と比較し、スコア値が閾値より小さいかどうか、つまり、ステップS111で設定した、全フレームに共通する個人パラメータおよび各フレーム毎のフレームパラメータが実際の全部のフレーム画像に対して十分適合しているかどうかを判断する。ステップS117では、すなわち、そのようなパラメータを使って視線方向を推定したとき誤差が許容できる範囲に収まるパラメータであるかどうかを判断する。 Next, in step S117, the score value integrated in step S115 is compared with a predetermined threshold value, and whether or not the score value is smaller than the threshold value, that is, the personal parameters common to all frames set in step S111 and for each frame. It is determined whether or not the frame parameters are sufficiently adapted to all the actual frame images. In step S117, that is, it is determined whether or not the parameter falls within an allowable range when the gaze direction is estimated using such parameters.
ステップS117で“NO”が判断されると、つまり、積算したスコア値が閾値以上であると判断したとき、次のステップS119で、サーバ12は、ステップS115で求めたスコア値に基づいてステップS121で個人パラメータやフレームパラメータを修正した回数(繰り返し回数)が所定の規定値を超えたかどうか判断する。 If “NO” is determined in step S117, that is, if it is determined that the integrated score value is equal to or greater than the threshold value, in the next step S119, the server 12 performs step S121 based on the score value obtained in step S115. It is determined whether or not the number of times the personal parameter or frame parameter has been corrected (the number of repetitions) exceeds a predetermined specified value.
ステップS119で“NO”なら、次のステップS121で、サーバ12は個人パラメータおフレームパラメータを、スコア値が最も小さくなるように最適化手法を用いて修正する。修正方法としては種々考えられるが、実施例では、一例として最急降下法を用いる。最急降下法とは、誤差曲面の傾斜が最も急に降下する方向に
パラメータを修正することで誤差が最小となるパラメータの数値を求める方法である。ただし、誤差修正の最適化のためには別の方法が採用されてもよい。
If “NO” in the step S119, in the next step S121, the server 12 modifies the personal parameter and the frame parameter by using an optimization method so that the score value becomes the smallest. Although various correction methods are conceivable, in the embodiment, the steepest descent method is used as an example. The steepest descent method is a method of obtaining a numerical value of a parameter that minimizes the error by correcting the parameter in a direction in which the slope of the error curved surface descends most steeply. However, another method may be employed to optimize error correction.
このようにして、ステップS115‐S121を繰り返し実行して、理想的にはスコア値がゼロ(0)になるように、実際的には、閾値を下回るように個人パラメータおよびフレームパラメータを修正する。なお、ステップS111で設定した個人パラメータおよび各フレームパラメータ(初期パラメータ)はステップS121でその後全フレームの顔画像との対比に基づいて、修正される。しかしながら、ステップS121で修正したパラメータもその後ステップS121でさらに修正されるのであり、その意味でステップS121は、先のステップS111と同じく、パラメータ設定手段としても機能するのである。 In this way, steps S115 to S121 are repeatedly executed, and the personal parameters and the frame parameters are actually corrected to be below the threshold value so that the score value is ideally zero (0). Note that the personal parameters and the frame parameters (initial parameters) set in step S111 are corrected in step S121 based on the comparison with the face images of all frames. However, the parameter modified in step S121 is further modified in step S121, and in this sense, step S121 also functions as a parameter setting unit, similar to the previous step S111.
このステップS121で修正された個人パラメータおよびフレーム顔画像毎のフレームパラメータは、図2に示す個人パラメータ記憶領域284およびフレームパラメータ記憶領域285にそれぞれ記憶される。 The personal parameters modified in step S121 and the frame parameters for each frame face image are stored in the personal parameter storage area 284 and the frame parameter storage area 285 shown in FIG.
そして、ステップS117で“YES”が判断されるか、もしくはステップS119で“YES”が判断されると、サーバ12は続いて、ステップS121で修正して記憶した個人パラメータおよび各フレームパラメータに基づいて、ステップS123において、眼球位置と虹彩位置とを結ぶ3次元直線(図10)としてフレーム顔画像毎に視線方向を推定し、視線方向データを視線データ記憶領域285(図2)に記憶する。この視線方向データが、先に入力された一連の顔画像信号の各フレーム毎の被験者の視線方向を示すデータとして、必要に応じてクライアント14に返される。 Then, if “YES” is determined in step S117 or “YES” is determined in step S119, the server 12 subsequently proceeds based on the personal parameters and each frame parameter corrected and stored in step S121. In step S123, the gaze direction is estimated for each frame face image as a three-dimensional straight line (FIG. 10) connecting the eyeball position and the iris position, and the gaze direction data is stored in the gaze data storage area 285 (FIG. 2). This line-of-sight direction data is returned to the client 14 as needed as data indicating the line-of-sight direction of the subject for each frame of the series of face image signals input previously.
そして、最後に、サーバ12はステップS125において、ステップS121で修正した個人パラメータを用いて、標準モデルを更新する。標準モデルの該当するパラメータが平均値であるときは、ステップS121で修正した個人パラメータの該当するパラメータを加えて平均値を計算し直す。たとえば、標準モデルの1つのパラメータがN人の被験者の該当パラメータの平均値であれば、このステップS125では、N+1人の平均値を計算して、その結果で当該パラメータを更新する。標準モデルのパラメータの分散値を更新するときは、ステップS121で修正した当該パラメータ値に基づいて、たとえば重み付けを考慮して分散値を変更する。 Finally, in step S125, the server 12 updates the standard model using the personal parameters corrected in step S121. If the corresponding parameter of the standard model is an average value, the average value is recalculated by adding the corresponding parameter of the personal parameter corrected in step S121. For example, if one parameter of the standard model is an average value of corresponding parameters of N subjects, in this step S125, an average value of N + 1 people is calculated, and the parameter is updated with the result. When updating the variance value of the parameter of the standard model, the variance value is changed in consideration of weighting, for example, based on the parameter value corrected in step S121.
標準モデルを修正した個人パラメータで更新することによって、その標準モデルを利用して特徴点を検出できる被験者の範囲が拡大する。つまり、より多くのタイプの被験者に適用できる標準モデルが得られる。 By updating the standard model with the modified personal parameters, the range of subjects that can detect feature points using the standard model is expanded. That is, a standard model that can be applied to more types of subjects is obtained.
このように、この実施例によれば、ステップS121において、全フレームで積算したスコア値(設定パラメータと実際の顔画像との誤差の総和)を最小にするようにパラメータを修正するので、ステップS123で推定または計測する視線方向の精度が向上する。 As described above, according to this embodiment, in step S121, the parameter is corrected so as to minimize the score value (sum of errors between the setting parameter and the actual face image) accumulated in all frames. The accuracy of the gaze direction estimated or measured by is improved.
10 …視線計測システム
12 …サーバ
14 …クライアント
16 …ネットワーク
18 …カメラ
20 …被験者
22 …入力画像保存装置
24 …メモリ
DESCRIPTION OF SYMBOLS 10 ... Eye-gaze measurement system 12 ... Server 14 ... Client 16 ... Network 18 ... Camera 20 ... Test subject 22 ... Input image storage device 24 ... Memory
Claims (6)
標準モデルを利用してフレーム顔画像毎に顔画像の前記虹彩位置を含む特徴点の位置データを取得する特徴点データ取得手段、
前記特徴点の位置データを利用してフレーム顔画像毎に顔の位置および姿勢データを取得する顔データ取得手段、
前記特徴点の位置データおよび前記顔の位置および姿勢データに基づいてフレーム画像毎に個人パラメータおよびフレームパラメータを設定するパラメータ設定手段、
前記個人パラメータおよびフレームパラメータの全フレーム顔画像に対する適合度を計算する適合度計算手段、
前記適合度が所定の閾値になるまで前記個人パラメータおよびフレームパラメータを修正する修正手段、および
修正された個人パラメータおよびフレームパラメータに基づいて前記視線方向を計測する手段を備える、視線計測システム。 A line-of-sight measurement system that measures a line-of-sight direction for each frame face image based on a human eyeball position and an iris position acquired from a frame face image,
Feature point data acquisition means for acquiring feature point position data including the iris position of the face image for each frame face image using a standard model;
Face data acquisition means for acquiring face position and posture data for each frame face image using the feature point position data;
Parameter setting means for setting individual parameters and frame parameters for each frame image based on the position data of the feature points and the position and orientation data of the face;
Goodness-of-fit calculation means for calculating goodness of the personal parameters and frame parameters to all frame face images;
A line-of-sight measurement system comprising: correction means for correcting the personal parameter and frame parameter until the fitness level reaches a predetermined threshold; and means for measuring the line-of-sight direction based on the corrected personal parameter and frame parameter.
標準モデルを利用してフレーム顔画像毎に顔画像の前記虹彩位置を含む特徴点の位置データを取得する特徴点データ取得ステップ、
前記特徴点の位置データを利用してフレーム顔画像毎に顔の位置および姿勢データを取得する顔データ取得ステップ、
前記特徴点の位置データおよび前記顔の位置および姿勢データに基づいてフレーム画像毎に個人パラメータおよびフレームパラメータを設定するパラメータ設定ステップ、
前記個人パラメータおよびフレームパラメータの全フレーム顔画像に対する適合度を計算する適合度計算ステップ、
前記適合度が所定の閾値になるまで前記個人パラメータおよびフレームパラメータを修正する修正ステップ、および
修正された個人パラメータおよびフレームパラメータに基づいて前記視線方向を計測するステップを含む、視線計測方法。 A gaze measurement method for measuring a gaze direction for each frame face image based on a human eyeball position and an iris position acquired from a frame face image,
A feature point data acquisition step for acquiring feature point position data including the iris position of the face image for each frame face image using a standard model;
A face data acquisition step of acquiring face position and posture data for each frame face image using the feature point position data;
A parameter setting step for setting personal parameters and frame parameters for each frame image based on the position data of the feature points and the position and orientation data of the face;
A fitness calculation step of calculating the fitness of the personal parameters and the frame parameters with respect to all frame face images;
A line-of-sight measurement method, comprising: a correction step of correcting the personal parameter and the frame parameter until the fitness level reaches a predetermined threshold; and a step of measuring the line-of-sight direction based on the corrected personal parameter and the frame parameter.
標準モデルを利用してフレーム顔画像毎に顔画像の前記虹彩位置を含む特徴点の位置データを取得する特徴点データ取得手段、
前記特徴点の位置データを利用してフレーム顔画像毎に顔の位置および姿勢データを取得する顔データ取得手段、
前記特徴点の位置データおよび前記顔の位置および姿勢データに基づいてフレーム画像毎に個人パラメータおよびフレームパラメータを設定するパラメータ設定手段、
前記個人パラメータおよびフレームパラメータの全フレーム顔画像に対する適合度を計算する適合度計算手段、
前記適合度が所定の閾値になるまで前記個人パラメータおよびフレームパラメータを修正する修正手段、および
修正された個人パラメータおよびフレームパラメータに基づいて前記視線方向を計測する手段
として機能させる、視線計測プログラム。 A line-of-sight measurement program executed by a computer of a line-of-sight measurement system that measures a line-of-sight direction for each frame face image based on a human eyeball position and iris position acquired from a frame face image, the computer comprising:
Feature point data acquisition means for acquiring feature point position data including the iris position of the face image for each frame face image using a standard model;
Face data acquisition means for acquiring face position and posture data for each frame face image using the feature point position data;
Parameter setting means for setting individual parameters and frame parameters for each frame image based on the position data of the feature points and the position and orientation data of the face;
Goodness-of-fit calculation means for calculating goodness of the personal parameters and frame parameters to all frame face images;
A line-of-sight measurement program that functions as a correction unit that corrects the personal parameter and the frame parameter until the fitness level reaches a predetermined threshold, and a unit that measures the line-of-sight direction based on the corrected personal parameter and the frame parameter.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011077741A JP5688514B2 (en) | 2011-03-31 | 2011-03-31 | Gaze measurement system, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011077741A JP5688514B2 (en) | 2011-03-31 | 2011-03-31 | Gaze measurement system, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012212325A true JP2012212325A (en) | 2012-11-01 |
JP5688514B2 JP5688514B2 (en) | 2015-03-25 |
Family
ID=47266219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011077741A Active JP5688514B2 (en) | 2011-03-31 | 2011-03-31 | Gaze measurement system, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5688514B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014194617A (en) * | 2013-03-28 | 2014-10-09 | Advanced Telecommunication Research Institute International | Visual line direction estimating device, visual line direction estimating method, and visual line direction estimating program |
WO2022185436A1 (en) * | 2021-03-03 | 2022-09-09 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006285531A (en) * | 2005-03-31 | 2006-10-19 | Advanced Telecommunication Research Institute International | Gaze direction detection device, gaze direction detection method, and program for causing a computer to execute the gaze direction gaze method |
JP2006343859A (en) * | 2005-06-07 | 2006-12-21 | Toyota Motor Corp | Image processing apparatus and image processing method |
JP2008102902A (en) * | 2006-07-18 | 2008-05-01 | Advanced Telecommunication Research Institute International | Gaze direction estimation apparatus, gaze direction estimation method, and program for causing computer to execute gaze direction estimation method |
-
2011
- 2011-03-31 JP JP2011077741A patent/JP5688514B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006285531A (en) * | 2005-03-31 | 2006-10-19 | Advanced Telecommunication Research Institute International | Gaze direction detection device, gaze direction detection method, and program for causing a computer to execute the gaze direction gaze method |
JP2006343859A (en) * | 2005-06-07 | 2006-12-21 | Toyota Motor Corp | Image processing apparatus and image processing method |
JP2008102902A (en) * | 2006-07-18 | 2008-05-01 | Advanced Telecommunication Research Institute International | Gaze direction estimation apparatus, gaze direction estimation method, and program for causing computer to execute gaze direction estimation method |
Non-Patent Citations (2)
Title |
---|
CSNG200000840009; 本郷 仁志、山本 和彦: '"動領域内の肌色推定による顔領域および顔部品抽出"' 映像情報メディア学会誌 Vol.52, No.12, 19981220, p.1840-1847, 社団法人映像情報メディア学会 * |
JPN6014039649; 本郷 仁志、山本 和彦: '"動領域内の肌色推定による顔領域および顔部品抽出"' 映像情報メディア学会誌 Vol.52, No.12, 19981220, p.1840-1847, 社団法人映像情報メディア学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014194617A (en) * | 2013-03-28 | 2014-10-09 | Advanced Telecommunication Research Institute International | Visual line direction estimating device, visual line direction estimating method, and visual line direction estimating program |
WO2022185436A1 (en) * | 2021-03-03 | 2022-09-09 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
US11967138B2 (en) | 2021-03-03 | 2024-04-23 | Nec Corporation | Processing apparatus, information processing method and recording medium |
JP7521682B2 (en) | 2021-03-03 | 2024-07-24 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
US12190571B2 (en) | 2021-03-03 | 2025-01-07 | Nec Corporation | Processing apparatus, information processing method and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP5688514B2 (en) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shreve et al. | Macro-and micro-expression spotting in long videos using spatio-temporal strain | |
JP6507046B2 (en) | Three-dimensional object detection device and three-dimensional object authentication device | |
CN104978548B (en) | A kind of gaze estimation method and device based on three-dimensional active shape model | |
JP4692526B2 (en) | Gaze direction estimation apparatus, gaze direction estimation method, and program for causing computer to execute gaze direction estimation method | |
US9031286B2 (en) | Object detection device and object detection method | |
JP7230939B2 (en) | Information processing device, information processing method and information processing program | |
CN108985210A (en) | A kind of Eye-controlling focus method and system based on human eye geometrical characteristic | |
JP4936491B2 (en) | Gaze direction estimation apparatus, gaze direction estimation method, and program for causing computer to execute gaze direction estimation method | |
CN104915656B (en) | A kind of fast human face recognition based on Binocular vision photogrammetry technology | |
JP7542563B2 (en) | Eye tracking latency improvement | |
JP6822482B2 (en) | Line-of-sight estimation device, line-of-sight estimation method, and program recording medium | |
CN106529409A (en) | Eye ocular fixation visual angle measuring method based on head posture | |
CN110073363B (en) | Tracking the head of an object | |
JP6191943B2 (en) | Gaze direction estimation device, gaze direction estimation device, and gaze direction estimation program | |
CN112232128B (en) | Eye tracking based method for identifying care needs of old disabled people | |
CN112200074A (en) | A method and terminal for attitude comparison | |
CN104200200A (en) | System and method for realizing gait recognition by virtue of fusion of depth information and gray-scale information | |
CN114894337B (en) | Temperature measurement method and device for outdoor face recognition | |
WO2024113275A1 (en) | Gaze point acquisition method and apparatus, electronic device, and storage medium | |
JP3970573B2 (en) | Facial image recognition apparatus and method | |
Athavale et al. | One eye is all you need: Lightweight ensembles for gaze estimation with single encoders | |
CN110826495A (en) | Consistent tracking and discrimination method and system for left and right limbs of body based on face orientation | |
JP5688514B2 (en) | Gaze measurement system, method and program | |
JP2011232845A (en) | Feature point extracting device and method | |
CN111241870A (en) | Terminal device and face image recognition method and system thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5688514 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |