+

WO2006016605A1 - 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体 - Google Patents

情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体 Download PDF

Info

Publication number
WO2006016605A1
WO2006016605A1 PCT/JP2005/014656 JP2005014656W WO2006016605A1 WO 2006016605 A1 WO2006016605 A1 WO 2006016605A1 JP 2005014656 W JP2005014656 W JP 2005014656W WO 2006016605 A1 WO2006016605 A1 WO 2006016605A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
predetermined
processing
feature
playback
Prior art date
Application number
PCT/JP2005/014656
Other languages
English (en)
French (fr)
Inventor
Noboru Murabayashi
Hiroshige Okamoto
Masaru Miyamoto
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US11/659,830 priority Critical patent/US8422853B2/en
Priority to JP2006531681A priority patent/JP4882746B2/ja
Priority to EP05770478A priority patent/EP1784011A4/en
Publication of WO2006016605A1 publication Critical patent/WO2006016605A1/ja

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/907Television signal recording using static stores, e.g. storage tubes or semiconductor memories
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal

Definitions

  • the present invention performs predetermined band compression processing such as MPEG (Moving Picture Export Group) on video and audio data such as a video signal and an audio signal in a broadcast program, for example, and produces a magneto-optical disk and a hard disk (HDD). ),
  • An information signal processing method, an information signal processing device, and an information signal processing method for performing a special reproduction operation such as a predetermined summary reproduction (digest reproduction) process in a recording / reproducing apparatus that records and reproduces data on a recording medium such as a semiconductor memory It relates to the computer program recording medium.
  • predetermined feature data is extracted based on features appearing in image / audio data (image / audio information signal, image / audio signal, image / audio information data) of the broadcast program to be recorded, and the predetermined feature data is used.
  • image / audio data image / audio information signal, image / audio signal, image / audio information data
  • predetermined feature data is used.
  • the ability to automatically generate position information data indicating a reproduction position at a certain time interval for example, every 3 minutes, 5 minutes, 10 minutes, or the like, or manually desired by the user
  • So-called chapter data is generated to generate position information data at the position, and skip playback, editing operation, and thumbnail image display are performed using the position information data (chapter data).
  • a data file associated with position information such as a frame number in which predetermined feature data of image and sound in a recorded broadcast program is associated with a recorded broadcast program file is proposed.
  • position information such as a frame number in which predetermined feature data of image and sound in a recorded broadcast program is associated with a recorded broadcast program file.
  • DVDs Digital Versatile Discs
  • the desired programs among the broadcast programs recorded on the hard disks are copied and recorded on DVDs, which are left as libraries.
  • a device that edits a desired section of a program and records it on a DVD is used.
  • digest playback using the above-described feature data is also performed on an image / audio file generated by editing or copying.
  • playlist data since there is playlist data, it is not an efficient processing method.
  • the above-described feature data can be extracted from a plurality of types of features for each image signal and audio signal, and each feature data is extracted, for example, when recording the image audio data.
  • the feature data is recorded on the recording medium along with the image and sound data.
  • the recorded feature data is read and signal processing is performed to determine the section for summary playback (digest playback) by a predetermined rule process.
  • the number of files increases, and handling of files during signal processing becomes complicated, which is not efficient.
  • the feature data file generated by extracting and relating the features at the time of recording or the processing method of the playlist file generated by the predetermined process from the feature data is used. Proposals have been made.
  • the object of the present invention is to efficiently process feature data and perform effective summary playback (digest playback) operation or chapter processing using feature data. It is an object to provide an information signal processing method, an information signal processing apparatus, and a computer program recording medium for efficiently performing various operations using summary reproduction (digest reproduction) and chapter data.
  • the information signal processing method uses predetermined first information data recorded on a predetermined recording medium to set a predetermined processing setting on the recording medium or another recording medium in the predetermined operation mode.
  • the predetermined first information processing is performed so that the predetermined second information data is obtained, and the predetermined third information data associated with the first information data is recorded in the predetermined operation mode. If it can be detected, a predetermined second recording process is performed along with the first recording process so as to be the fourth information data using the third information data.
  • the information signal processing apparatus uses predetermined first information data recorded on a predetermined recording medium to perform predetermined processing on the recording medium or another recording medium in the predetermined operation mode.
  • a first signal processing unit that performs predetermined first recording processing so as to be predetermined second information data according to the setting, and is associated with the first information data in a predetermined operation mode. If it can be detected that the predetermined third information data is recorded, the predetermined second recording process is changed to the first recording process so as to be the fourth information data using the third information data.
  • a second signal processing unit to be provided.
  • the program recording medium uses a predetermined first information data recorded on a predetermined recording medium, and sets predetermined processing on the recording medium or another recording medium in a predetermined operation mode.
  • Predetermined first recording processing is performed so that predetermined second information data corresponding to the predetermined information data is recorded, and predetermined third information data associated with the first information data is recorded in a predetermined operation mode.
  • file processing such as editing or copying is performed on an image / audio file
  • an appropriate feature data file or playlist file corresponding to the image / audio file generated by the file processing is automatically generated. Therefore, digest playback using feature data can be performed immediately after file processing.
  • feature data files and playlist files are automatically generated as a result of editing and copying, and corresponding to the generated image and audio files. Need to do ,.
  • a user has a predetermined function such as a digest reproduction editing function using feature data as in the present invention.
  • a predetermined function such as a digest reproduction editing function using feature data as in the present invention.
  • recording and playback devices equipped with only basic functions are sold at an early stage, and after that, according to the demands of various users, the devices themselves that have purchased their own desires and functions can be easily installed later. The user can purchase the device efficiently.
  • FIG. 1A to FIG. 1G are diagrams showing operations of summary reproduction and chapter processing in a recording / reproducing apparatus to which the present invention is applied.
  • FIG. 2 is a diagram showing an example of display by chapter processing.
  • FIG. 3 is a block diagram showing an example of a processing process in the recording / reproducing apparatus.
  • FIG. 4 is a block diagram showing rule processing in the recording / reproducing apparatus.
  • FIG. 5A is a diagram showing an example of a relationship between a semanticizing process and feature data in a recording / reproducing apparatus.
  • FIG. 5B is a diagram showing an example of the relationship between the semanticizing process and the feature data in the recording / reproducing apparatus.
  • FIGS. 6A to 6C are diagrams showing an example of a rule file format in the recording / reproducing apparatus. is there.
  • FIG. 7 is a diagram showing an example of an evaluation value calculation processing method in the recording / reproducing apparatus.
  • FIG. 8A to FIG. 81 are graphs showing an example of a time correction function in the recording / reproducing apparatus.
  • FIG. 9 is a graph showing an example of a general type of time correction function in the recording / reproducing apparatus.
  • FIG. 10 is a diagram showing an example of the structure of video data in the recording / reproducing apparatus.
  • FIG. 11 is a diagram of an example of a connection relationship between playback units in the recording / playback apparatus.
  • FIGS. 12A and 12B are diagrams illustrating an example of a meaning assignment process between playback units in the recording / playback apparatus.
  • FIG. 13A and FIG. 13B are diagrams showing an example of rule 2 processing in the recording / reproducing apparatus.
  • FIG. 14 is a graph showing an example of a time correction function in the recording / reproducing apparatus.
  • FIG. 15A and FIG. 5B are explanatory diagrams of an example of the configuration of a rule file in the recording / reproducing apparatus.
  • FIG. 16A to FIG. 16D are diagrams showing an example of the processing process of the present invention in the recording / reproducing apparatus.
  • FIG. 17 is a block circuit diagram showing a configuration example of a recording / reproducing apparatus to which the present invention is applied.
  • FIG. 18 is a diagram showing an example of various predetermined data recording states in the recording / reproducing apparatus.
  • FIG. 19 is a diagram showing an example of display on the recording / reproducing apparatus.
  • FIG. 20 is a block circuit diagram showing another configuration example of the recording / reproducing apparatus to which the present invention is applied.
  • FIG. 21 is a block circuit diagram showing an example of a configuration of an audio feature extraction processing system in the recording / reproducing apparatus.
  • FIG. 22 is a block circuit diagram showing another example of the configuration of the audio feature extraction processing system in the recording / reproducing apparatus.
  • FIG. 23 is a block circuit diagram showing an example of a configuration of a video system feature extraction processing system in the recording / reproducing apparatus.
  • FIG. 24 is a diagram showing scene change processing in the recording / reproducing apparatus.
  • FIG. 25 is a diagram showing an example of a telop and color feature detection area in the recording / reproducing apparatus.
  • FIG. 26 is a diagram showing an example of similar image characteristics in the recording / reproducing apparatus.
  • FIG. 27 is a diagram showing an example of a person feature detection area in the recording / reproducing apparatus.
  • FIG. 28 is a diagram showing an example of a person detection process in the recording / reproducing apparatus.
  • FIG. 29 is a diagram showing an example of person detection (number of persons determination) processing in the recording / reproducing apparatus.
  • FIG. 30 is a diagram showing an example of the number of people detection process in the recording / reproducing apparatus.
  • FIG. 31 is a diagram showing an example of the number of people detection process in the recording / reproducing apparatus.
  • FIG. 32 is a diagram showing an example of the number of people detection process in the recording / reproducing apparatus.
  • FIG. 33 is a diagram showing an example of the number of people detection process in the recording / reproducing apparatus.
  • FIG. 34A to FIG. 34E are diagrams showing an example of playback unit processing in the recording / playback apparatus.
  • FIG. 35A and FIG. 35B are diagrams showing an example of playback unit processing in the recording / playback apparatus.
  • FIG. 36 is a diagram showing an example of CM (commercial) detection processing in the recording / reproducing apparatus.
  • FIG. 37 is a block diagram showing a configuration example of a playback unit processing system in the recording / playback apparatus.
  • FIG. 38 is a diagram showing an example of the structure of a feature data file in the recording / reproducing apparatus.
  • FIG. 39 is a diagram showing an example of a configuration of a feature data file in the recording / reproducing device.
  • FIG. 40 is an explanatory diagram showing an example of the structure of a feature data file in the recording / reproducing apparatus.
  • FIG. 41 is a diagram showing an example of a hierarchical structure of reproduction unit data in the recording / reproduction device.
  • FIG. 42 is a diagram showing an example of a hierarchical structure of reproduction unit data in the recording / reproduction device.
  • FIG. 43 is a diagram showing an example of a configuration of playback unit video feature data in the recording / playback apparatus.
  • FIG. 44A and FIG. 44B are diagrams showing an example of playlist (summary) data in the recording / reproducing apparatus.
  • FIG. 45 is a flowchart showing an example of the operation of the recording / reproducing apparatus.
  • FIG. 46 is a diagram showing an example of the relationship between the recording time and the selectable summary playback time in the recording / playback apparatus.
  • FIG. 47 is a diagram showing an example of the recording time and the number of automatically set chapters in the recording / reproducing apparatus.
  • FIG. 48 is a flowchart showing an example of a recording operation of the recording / reproducing apparatus.
  • FIG. 49 is a flowchart showing an example of a reproducing operation of the recording / reproducing apparatus.
  • FIG. 50 is a flowchart showing another example of the reproducing operation of the recording / reproducing apparatus.
  • FIG. 51 is a block diagram illustrating a configuration example of an editing processing device to which the present invention has been applied.
  • FIG. 52 is a diagram showing a feature data detection area in the editing processing apparatus.
  • FIG. 53A and FIG. 53B are diagrams showing feature data files in the editing processing device.
  • FIG. 54A and FIG. 54B are diagrams showing an example of identification data ID of feature data in the editing processing device.
  • FIG. 55 is a diagram showing playlist data in the editing processing device.
  • FIG. 56 is a diagram showing an operation in a copy processing mode in the editing processing apparatus.
  • FIG. 57 is a diagram showing an operation in one-file edit processing mode in the edit processing device.
  • FIG. 58 is a diagram showing operations in the one-file edit processing mode in the edit processing device.
  • FIG. 59 is a diagram showing operations in the one-file edit processing mode in the edit processing device.
  • FIG. 60 is a diagram showing an operation in a one-file edit processing mode in the edit processing device.
  • FIG. 61A and FIG. 61B are diagrams showing the operation of the feature data file editing process in the one-file editing processing mode in the editing processing apparatus.
  • FIG. 62A to FIG. 62D are diagrams showing a feature data file editing process.
  • FIG. 63 is a diagram showing operations in the multiple file editing processing mode in the editing processing apparatus.
  • FIG. 64A to FIG. 64H are diagrams showing operations in the multiple file editing processing mode in the editing processing device.
  • FIG. 65 is a block circuit diagram showing another configuration example of the edit processing live device to which the present invention is applied.
  • playlist data generation in addition to special description, it is also possible to generate playlist data and chapter data together even if not specifically described.
  • Figure 1 is an explanatory diagram of summary playback (digest playback) and chapter processing using feature data. (A) to (G).
  • This video / audio data series includes broadcast programs, movie software, etc., using a predetermined recording medium such as a hard disk (HDD), magneto-optical disk, large-capacity semiconductor memory, etc.
  • a predetermined recording medium such as a hard disk (HDD), magneto-optical disk, large-capacity semiconductor memory, etc.
  • Recording and playback processing shall be performed using predetermined band compression signal processing such as PEG (Moving Picture Export Group).
  • PEG Motion Picture Export Group
  • Fig. 1B shows a conceptual diagram of a predetermined section in which a predetermined meaning is set in an image / audio data sequence and divided into a predetermined video structure (semantic video structure) according to scene changes, audio segments, and the like.
  • each predetermined section predetermined all sections
  • predetermined evaluation value for the interval is set.
  • Each section in which this evaluation value is set is defined as a predetermined evaluation value section (evaluation data section).
  • all sections recorded within a predetermined time refers to all sections of the image / audio data when there is image / audio data for a predetermined time without being limited by the frame of the program.
  • the “predetermined program section” indicates the entire section of the program frame when there is video / audio data of a certain program.
  • a higher evaluation value (evaluation data) is set as the predetermined evaluation value becomes a predetermined key frame interval (important frame interval, important (image and audio) interval) in all predetermined intervals.
  • Fig. 1C shows the outline of the predetermined evaluation value section, and the image / audio data sequence shown in Fig. 1A. Then, fl to f2, f4 to f5, and f7 to f8 are sections above the threshold Th set in the evaluation value, and each section of Al, A2, and A3 is reproduced as a predetermined summary as shown in Figure 1D.
  • the specified summary playback digest playback
  • FIG. 1E is a conceptual diagram when setting a chapter point, and continues as described above, at the beginning of the predetermined key frame section (important frame section) or its vicinity, and at the end of the key frame section. Set a chapter point at or near the beginning of a section that is not the keyframe section (connected last).
  • FF playback fast forward reverse playback
  • REW playback fast forward reverse playback
  • chapter point setting processing predetermined time setting processing, predetermined position setting processing
  • chapter points can be automatically set at or near the beginning of a section that is connected at the end of a key frame section or is not the last key frame section, it is more effective than conventional chapter processing. It is possible to perform effective editing operations (editing processing) using this chapter processing, FF playback, and RW playback.
  • FIG. 1F shows a conceptual diagram for displaying on a predetermined image monitor.
  • fl, f4, and f7 are the key frames after Al, A2, and A3, respectively, and f3, f6, and f9 are the key frames after the Al, A2, and A3 sections, respectively.
  • a broadcast recorded on a hard disk which is a recording medium of a recording / reproducing device, can be obtained by viewing the display screen as shown in FIG. 2 at the beginning of or near the beginning of a section Bl, B2, B3 that is not a section.
  • the key frame sections Al, A2, and A3 shown in Fig. 1D are cut out and recorded on a disc recording medium such as a DVD (Digital Versatile Disc), or at the time of fl, f4, and f7.
  • An operation such as skip playback is assumed.
  • Fig. 1G As shown in Fig. 1G as an example of a conventional preset point in time (chapter point, preset position set point), set at regular intervals such as 5 minutes, 10 minutes, etc. Points (chapter points) are set, but they are not always set to key frames (important frames) so that the forces shown in Fig. 1C and Fig. 1G are also divided!
  • predetermined chapter points predetermined set points or predetermined break points
  • segment processing automatically using the feature data in the present invention
  • FIG. 3 shows an example of the processing process in the present invention.
  • the processing process shown in FIG. 3 includes a feature extraction process (2) for extracting image and audio feature data from MPEG image and audio stream data.
  • the MPEG stream (1) (MPEG data) is recorded on a predetermined recording medium or is assumed to have data recorded on the predetermined recording medium.
  • a predetermined transmission system ( The present invention can be similarly applied to image / audio data transmitted in a wired system or a wireless system.
  • the feature extraction process (2) can be performed at the same time as the recording process. However, if the image / audio data has already been recorded on a predetermined recording medium, the characteristic extraction process is performed by reproducing from the recording medium. Processing can also be performed.
  • rule processing (rule processing) will be described.
  • This rule processing is a rule file in which rules are described in a predetermined format, or rules A predetermined process is performed using the data.
  • rule file for example, a rule based on feature data according to the program genre is described.
  • This rule file and a PU feature data file (reproduction unit feature data file) in which each feature data of a predetermined section is described, and As a result of this calculation, a predetermined playlist file is generated.
  • (*) is assumed to be a predetermined operator using data of a predetermined file.
  • the rule file Rf (n) is described in a predetermined format, for example, as described below, and data of predetermined parameters such as a predetermined time correction function, meaning, and weighting coefficient (evaluation value, importance) of meaning. Etc.
  • PU processing (3) (playback unit processing), which is one of the features of the present invention, is performed.
  • each characteristic data is recorded (stored) in a predetermined recording medium or buffer memory as predetermined data (PU characteristic data file) at the PU (playback unit) t and the separator (4). Is done.
  • the PU feature data file is subjected to PU semantic processing by the prescribed rule 1 processing (5).
  • rule 1 processing (5) As will be explained later, the outline of rule 1 processing (5) is as follows.
  • this rule 1 process (5) the program genre or the program genre that the user has viewed in the past, the time zone, the number of playbacks, the playback time, the playback date and time by EPG (electronic program guide) and others. If other parameters, side information, etc. are available, the predetermined processing may be performed in consideration of these parameters.
  • the designated PU (6) is subjected to the prescribed evaluation value processing in the prescribed rule 2 processing (7).
  • the rule 2 processing (7) the importance of the following (processing 1) and (processing 2) is set. Then, all the evaluation values are processed.
  • a predetermined evaluation value is given by a PU alone or a PU group in which several PUs are connected by force.
  • rule switching processing system 900 performs genre A rule data, rule processing data corresponding to a plurality of program genres, Genre B rule data, genre C rule data, ... and some rule processing data (rule processing data), and according to the program genre information data input to the system controller 20, rule 1 processing (5 ), Rule 2 processing (7), or either rule processing.
  • the rule processing data is switched for each individual with several efforts.
  • the personal 1 rule processing data, the personal 2 rule processing data, and the personal 3 rule processing data are set by a predetermined user input to the system controller. Is selected and processed via the system controller system 20, and predetermined rule processing is performed based on the selected rule processing data.
  • each individual performs a predetermined playback operation such as normal playback or special playback, and the playback information, operation information such as playback position, operation position information, etc.
  • the information data is updated as individual rule processing data by a predetermined learning process at any given time, etc.
  • rule processing As shown in Fig. 4, even if each individual rule processing (rule processing) is switched by the rule switching processing system 901, rule 1 processing (5), rule 2 processing (7), or either rule processing is performed. Switch.
  • the semantically processed PU is described in association with predetermined image / audio feature data by setting the following English characters and meaning, for example, assuming a certain broadcast program.
  • the meaning of characters is defined as a scene that may be assumed to be a key frame (important frame, important scene) in the broadcast program, or a predetermined recording and playback section that is assumed to be effective for summary playback, chapter setting, etc. Select and describe.
  • a scene desired by the user is described.
  • a rule desired by the user can be described in a predetermined adjustment mode.
  • Table 1 An example of a news (report) program
  • the definition character can be set to @ and set as shown in Table 3 below.
  • the rule 1 processing for the defined characters (set characters, meaning characters) set as described above will be specifically described by taking a news program as an example.
  • the predetermined processing is logical product in the case of ⁇ and logical sum in the case of ⁇ .
  • the voice feature attribute is speaker voice
  • a predetermined color is detected in the feature detection region 2 or detection region 3
  • the first or second frequency of similar image information is detected
  • the human feature detection region 1 or detection region 2 or detection region 5 is detected.
  • Camera features can be assumed to be stationary.
  • b, c, d, e, etc. are also the same as in the case of a above, depending on each ⁇ and ⁇ mark in Fig. 5A and Fig. 5B.
  • the definition character and the feature data can be related to each predetermined feature data.
  • each defined character and each feature data is described according to a predetermined format in order to perform predetermined processing, that is, rule 1 processing and rule 2 processing.
  • Fig. 6A shows an example of this, assuming that it is a vector component.
  • each feature data shown in FIG. 5A and FIG. 5B is an attribute of a voice feature, and when the attribute is speaker voice, Al, when the attribute is music, A2, and when the attribute is other A3.
  • the color feature of the video feature is that area 1 is Bl and area 2 is B2.
  • (A1) represents the case where the attribute is speaker voice and the voice feature.
  • 1.0 of 1.0 (A1) 100 is a weighting coefficient for (A1), and here, for convenience, a range of 0 to 1.0 is assumed.
  • the weighting coefficient is a convenient coefficient for performing a predetermined calculation
  • the weighting coefficient is set (described) in the range of 0 to 100 or 0 to 10.
  • 1.0 (A1) 100 in 1.0 (A1) 100 is a detection rate coefficient for (A1), and when 100% is detected in the playback unit section, 1.0 (A1) 100 shall satisfy the condition.
  • 1.0 (A1) 50 means that 50% is detected in the playback unit section.
  • the detection ratio coefficient assumes a range of 0 to: LOO.
  • the detection rate coefficient is a convenient coefficient for performing a predetermined calculation, so set it in the range of 0 to 1 or set (describe) it in the range of 0 to: LO.
  • the detection ratio coefficient can be a ratio at which the characteristic can be detected in the playback unit section.
  • a predetermined reproduction unit (or play unit) (PU) that is set and processed according to the audio segment feature and the scene change feature.
  • a processing concept for setting intervals is introduced.
  • the ratio of each predetermined characteristic described above is calculated based on the ratio at which the predetermined feature data is detected with respect to the entire PU section.
  • the detection ratio F of feature data P in this case Can be calculated by the following equation (3).
  • the above-described evaluation value processing is an example of a processing method, and processing in which the correspondence between the detected feature data or the ratio detected in the playback unit section and the set “meaning” has a predetermined validity. If it is a method, other processing methods than the above can be used.
  • the detection ratio of each feature is shown in Table 4 below, and the detection ratio coefficient and weighting coefficient are shown together.
  • the value averaged by the type of feature data can be used as the evaluation value.
  • the evaluation value is as shown in the following equation (7). You can also.
  • the averaging process is performed on feature data type 5.
  • r 0.8
  • the averaging process is performed on feature data type 5.
  • t can also be an evaluation value.
  • feature data having different attributes is expressed by a logical product operator (*), but may be a logical sum operator (+).
  • the processing is performed based on the concept of the logical sum coefficient w as described in the evaluation value calculation method (3) above.
  • the evaluation value processing is a concept introduced for the sake of convenience in evaluating the value of an expression that combines the set meaning with each feature data, various coefficients, etc.
  • the range, value, etc. of each coefficient in the above evaluation expression are as described above. Not limited to the case described in the description, it can also be set small or large.
  • the evaluation value of each section of the playback unit described in the rule is determined by the rule file by the following evaluation value calculation, for example, In summary playback mode, PU sections with large evaluation values are selected according to the summary playback time, and PU sections with small evaluation values are gradually selected so as to be as close as possible to the summary time.
  • the intermediate processing value d (n) is processed to 100 or 0 according to the detection det (n) and the set detection ratio k (n).
  • the feature data is markedly characterized compared to the case where the processed value is a difference value! It is effective for / ⁇ cases.
  • t can be an evaluation value.
  • the evaluation value processing method has several methods. The method described here is not limited to this.
  • Rule 1 it is an example of a method of expressing the appearance pattern (meaning) of the data to be described.
  • the meaning is a, b, c- ⁇ ', etc. , B, C,... * Can be used as a wild card.
  • the processing is performed in consideration of the connection in the meaning of the playback unit that is the predetermined section implied in the rule 1 processing.
  • temporal correction using the time correction function that is, temporal weighting processing is performed.
  • temporal weighting processing For example, in the above rule 1, if the evaluation value of meaning a is 70 and the evaluation value of meaning b is 80, ( The evaluation value g of ab) is
  • the weighting of the time correction function is, for example, that (ab) described above can be detected at a certain time t, the evaluation value is g, and the time correction coefficient (weighting coefficient) at t is w.
  • the evaluation value is, for example, that (ab) described above can be detected at a certain time t, the evaluation value is g, and the time correction coefficient (weighting coefficient) at t is w.
  • the evaluation value is, for example, that (ab) described above can be detected at a certain time t, the evaluation value is g, and the time correction coefficient (weighting coefficient) at t is w.
  • the time correction function describes the change point (information data of the change point coordinate system) in the rule file at the specified description location of rule 2 according to the specified description rule.
  • This time correction function can be used to perform summary time correction in a predetermined program genre in the rule file.
  • the first half or the second half of the broadcast time has been reproduced mainly depending on a predetermined broadcast program.
  • the time in some cases the time in some cases for a given playback section for digest playback (digest playback) for a given playback section for digest playback (digest playback) ) Can be weighted.
  • the section that performs this weighting has a greater importance on the importance of playback when performing summary playback (digest playback) than the section that does not perform other weighting in terms of time.
  • Fig. 8A shows a flat characteristic in which time is not weighted for a given summary playback section.
  • FIG. 8B shows a case where weighting is performed to increase the weight of playback as the importance in summary playback by comparing the first half with the second half within a predetermined section.
  • FIG. 8C shows a case where weighting is performed to increase the weight of reproduction as the importance in summary reproduction by comparing the latter half with the first half within a predetermined section.
  • FIG. 8D shows a case where weighting is performed to increase the weight of reproduction as importance in summary playback by comparing the first half and the latter half with the middle in a predetermined section. In this section, the middle part is compared with the first half and the latter half, and weighting is performed to increase the weight of reproduction as the importance in summary reproduction.
  • Figure 8F is like connecting the two correction functions of different shapes shown in Figure 8D.
  • the first half, the first half and the middle, the middle, the middle and the second half, and the second half are weighted. In addition, each weight is made different.
  • Fig. 8G is like connecting two correction functions of different shapes as shown in Fig. 8E.
  • the first half, the first half and the middle, the middle, the middle and the second half, and the second half are weighted. In addition, each weight is made different.
  • FIG. 8H shows the combination functions shown in FIGS. 8C and 8D
  • FIG. 81 shows the combination functions shown in FIGS. 8D and 8B.
  • Figure 9 shows the general time correction function.
  • the coordinates of the start point, change point, and end point are PO (ts, s3), Pl (tl, s3), ..., Pe, respectively. (te, sO).
  • the y component of the coordinate represents weighting, here, for convenience, the maximum value is assumed to be 100, the minimum value is assumed to be 0, and a value between 0 and L00 is assumed, and the X coordinate is the position information.
  • the value of the same dimension as the data of “start / end position information” shown in FIGS. 41 to 43 described later, or the ratio from the start point based on the interval between the start and end points, set between 0 and L00 To indicate the position. (Reproduction unit meaning and connection relationship, judgment processing)
  • the meaning of the reproduction unit (PU) can be set from feature data obtained by a predetermined feature extraction process.
  • Each segment (shot) is composed of individual frames.
  • a scene break is a scene change.
  • a segment may be a group of similar images or scenes of similar image (video) characteristics for each scene.
  • Segments and scenes with different meanings can be regarded as a video structure that is composed of several programs.
  • the pitcher pitches, the batter hits, and the batter strikes the “pitcher image scene”, “batter image scene”, “batter striker image” It can capture the connection between image scenes, each of which has a meaning called a “scene”.
  • image feature data and audio feature data are processed for each PU described above in a predetermined program (program), and the meaning of the PU is set according to the feature data.
  • a predetermined program program
  • the meaning of the PU is set according to the feature data. For example, assuming a news program, if the caster (announcer) first reads a use item (news program headline) As an image (image) feature, one or two person features, a telop (Tip feature), a voice feature attributed to speaker voice, and a news program, Since there are several scenes that read out the news, there will be several scenes that are similar to the -use reading scene, and similar image features, that is, specific scene IDs will appear more frequently.
  • the meaning of the PU can be set according to the person feature, voice feature, telop feature, similar image feature, and other predetermined feature data.
  • a PU connection with a predetermined meaning is assumed as in the example of the baseball program described above. That is, it can be a predetermined connection between PUs having predetermined feature data or characteristic data.
  • Figure 11 shows the connection relationships of PUs that have the above-mentioned predetermined meaning, that is, for which the predetermined meaning is set.
  • the predetermined meanings a to d are set in a certain program (weft thread), and in a section 1 3 1; (11) to 1 3 1; (11+ 2)
  • the connection relationship shows that the meaning a of PU (n), the meaning of PU (n + l) b, and the meaning c of PU (n + 2) c are the most natural connections.
  • connection relationship can be a character sequence that defines the meaning of abc. If this a be sequence is a key frame, search for abc in a program (program), The setting process can be performed using the first and last or the vicinity thereof as a predetermined set point.
  • the playback units in a certain section are “throwing”, “hit”, “no meaning”, “score”, and “no meaning”
  • the PUs determined to have three meanings, “throw”, “hit”, and “score” are combined into one, and the given PU cluster of “throw, hit, score” is collected. Can be assumed.
  • PUs with “no meaning” can be included even if they are determined to be meaningless.
  • the above four PUs are grouped into one, and the given PU of “throw, hit, meaningless, score” Can be organized.
  • no meaning is taken as an example because the predetermined meaning processing is performed from the predetermined meanings in the predetermined evaluation data from the predetermined feature data in the processing of rule 1 described above. This is because it is possible to assume a case where a certain meaning cannot be given based on predetermined signal processing.
  • connection of aabb that is, the connection power of “announcer scene”, “announcer scene”, “site scene”, “site scene” is reasonable and reasonable.
  • Figure 12B shows the sumo program described above.
  • FIG. 13A and 13B show the case where the above-described program genre is a use program, and as shown in FIG. 13B, the reference pattern (reference character sequence) is “aabb” described above as shown in FIG. 13A.
  • the section “aabb” is searched for in the predetermined program recording section, and the sections Al and A2 match “aabb”, indicating that the search has been completed.
  • the first positions pl and p3 and the last positions p2 and p4 of the searched “aabb” section are set as predetermined setting positions, and the playlist chapter data described later is used.
  • a predetermined process is performed as (position information data). For example, in the summary playback mode, the playback control process is performed so that the set positions pl to p2 and p3 to p4 are played.
  • predetermined time point setting predetermined position setting
  • the predetermined processing is performed with each of the time points of pl, p2, p3, and p4, or a position in the vicinity of each point as the set position.
  • the predetermined feature data force has the meaning of the predetermined PU, and if it has the predetermined meaning, it is set to the PU, and the connection relation of the PU force meaning set by determining the meaning is determined. Assuming a predetermined number of PU connections and a predetermined number of PUs according to a predetermined meaning Can be processed assuming
  • Rule 2 processing shown in Fig. 6B it is an example of a method for expressing the appearance pattern (meaning) of the data to be described, and the meaning is a force such as a, b, c--' You can use A, B, C, ... as a negation, or * as a wildcard.
  • A is other than the “announcer scene”
  • b is “Scene on site” t ⁇ will be detected, and two “scenes on site” will be detected in addition to “announcer scene”.
  • the following processing is an example of the evaluation value calculation method.
  • the reproduction unit group is (abc)
  • the detection ratio (value) of abc and the weighting coefficient may be as shown in Table 5 below according to the above equation (1).
  • the scale of the evaluation value can be used for a predetermined evaluation process and has a problem in a predetermined calculation process. If there is no problem such as overflow, there is no need to consider the ratio.
  • the above (aabb) may be Gal and a connection such as (GalGal) may be used.
  • processing similar to rule 1 is performed for the evaluation value of Gal.
  • an evaluation value calculation method in this case for example, the average of the sums of the evaluation values of the reproduction units of each meaning or the average of the products of the evaluation values of the reproduction units of the respective meanings can be obtained.
  • the evaluation value of Gal is the sum of
  • rule 3 processing Normally, the processing up to rule 2 is sufficient as shown in FIG. 15A. However, when feature data is provided for a plurality of programs, for example, when time weighting processing is performed for each program. Furthermore, as rule processing, rule 3 processing is provided as shown in FIG. 15A.
  • Fig. 6C shows an example of weighting and time correction for news programs (news) and sports programs (sports).
  • the news program is weighted 100% and the start point Ps (ts, s4), change point Pl (tl, s4), end point Pe (te, s3) are used as the time correction function.
  • 70% weighting is applied and the starting point Ps (ts , s4), a change point Pl (tl, s4), and an end point Pe (te, s3).
  • each scene is subjected to some meaning processing based on various predetermined feature data by the rule 1 processing.
  • an evaluation value is set to each scene given by rule 2 by a predetermined process as shown in FIG. 16B.
  • a scene (image) having the highest evaluation value is selected from the above scenes, and a scene with a high evaluation value is as close to tl as possible. Select the force and set the position information to play the selected section.
  • the set position information is stored in a predetermined data memory, and when performing reproduction control, the position information is read and reproduction of a predetermined section is performed.
  • a predetermined summary reproduction (digest reproduction) is performed by sequentially reproducing each section (skip reproduction).
  • the PU section is selected so that the evaluation value is as large as possible and the predetermined PU section is selected, and as close as possible to the predetermined playback time.
  • a predetermined PU interval is selected.
  • a predetermined position is set at the beginning (or its vicinity) of a section with a high evaluation value and the end (or its vicinity) of a section with a high evaluation value. Therefore, it can be used to perform predetermined operations such as editing processing of the section, pause playback pause processing, repeated playback processing, and the like.
  • the recorded video and audio data is broadcast program data, and is subjected to predetermined band compression processing by MPEG (Moving Picture Export Group).
  • MPEG Motion Picture Export Group
  • wavelet transform, fractal analysis signal processing, and the like may be used as other band compression signal processing.
  • the DCT coefficient of image data corresponds to the force analysis coefficient in multi-resolution analysis in the case of wavelet transform, and the same signal processing can be performed.
  • FIG. 17 shows an example of the overall block configuration of the recording / reproducing apparatus 30 to which the present invention is applied.
  • a predetermined broadcast program is received by the receiving antenna system 1 and the receiving system 2, and the audio signal is converted into a predetermined AZD conversion at a predetermined sampling frequency and a predetermined number of quantization bits by the audio AZD conversion processing system 3.
  • Signal processing is performed and then input to the speech encoder processing system 4.
  • signal processing is performed by a predetermined band compression method such as MPEG audio or AC 3 audio (Dolby AC 3 or Audio Code number 3).
  • the video signal is subjected to predetermined AZD conversion signal processing at a predetermined sampling frequency and a predetermined number of quantization bits in the video AZD conversion processing system 8, and then input to the image encoder processing system 9.
  • the image encoder processing system 9 performs signal processing using a predetermined band compression method such as MPEG video or wavelet transform.
  • Audio data and image data processed by the audio encoder processing system 4 and the image encoder processing system 9 are input to the recording processing system 6 via the multiplexing processing system 5.
  • a part of the signal input to the speech encoder processing system 4 or a part of the signal in the process of the signal processing in the predetermined encoder signal processing is input to the feature extraction processing system 10.
  • the force input to the feature extraction processing system 10 from the speech encoder processing system 4 is applied to the speech encoder processing system 4. It may be input to the feature extraction processing system 10 at the same time.
  • a part of the signal input to the video encoder processing system 9 or a part of the signal in the signal processing process in the predetermined encoder signal processing is the feature extraction processing system 10. Is input.
  • a signal is input from the video encoder processing system 9 to the feature extraction processing system 10 as a part of the signal input to the video encoder processing system 9. It may be input to the feature extraction processing system 10 as well as being input to the processing system 9.
  • the feature data is sequentially detected for each predetermined section, and is recorded in a predetermined recording area of the predetermined recording medium 7 together with the image / audio data subjected to the predetermined encoder processing.
  • Playlist processing (9) for generating playlist data for performing predetermined summary playback (digest playback) from the above feature data or digest playback chapter processing (11) for generating chapter data.
  • Predetermined signal processing is performed by the generation processing system 19
  • the generation of playlist data and chapter data can be performed by the following signal processing process (processing a or processing b).
  • the playlist data generation process When the playlist data generation process is completed, it is ready to perform a predetermined summary playback operation, and a predetermined summary playback (digest playback) can be performed using this playlist data.
  • signal processing may be performed so that playlist data is no longer generated, and in this case, it is deleted. If you generate data again, such as by correcting the feature, you can leave the feature data as it is!
  • the feature data is stored in the playlist / chapter generation processing system 19 after the feature data of the predetermined section is accumulated via the system controller system 20, and the playlist data for predetermined summary playback (digest playback) is generated.
  • the generated playlist data is recorded in a predetermined recording area of the recording medium 7 after being subjected to a predetermined recording process in the recording processing system 6.
  • the playlist data is composed of a data force that is a pair of playback start point information and playback end point information for each predetermined playback section for skip playback of a predetermined recorded section, for example, for each predetermined section.
  • This consists of data such as the playback start frame number and playback end frame number.
  • playlist data is used for the process of performing summary playback (digest playback) by skipping a predetermined required section in the recorded program, in addition to the frame data as described above, It may be time code data or time stamp data such as MPEG PTS (Presentation Time Stamp) or DTS (Decode Time Stamp).
  • Playlist data is recorded in a recording mode for recording image / audio information data such as a broadcast program as described above.
  • the playlist data is set in a playback mode described later.
  • the audio encoder processing system 4 may be used when recording an image or audio data that has already been subjected to a predetermined encoding process such as MPEG.
  • the audio encoder processing system 4 may be used.
  • the system controller system 20 it is detected by the system controller system 20 whether the digital image and audio data are directly input and recorded, and whether the analog signal is input by the receiving system 2 and recorded after a predetermined encoding process.
  • the analog input system or the digital input system can be set by a user's predetermined operation via the user input IZF system 21.
  • the signal from the audio encoder processing system 4 or the audio AZD conversion processing system 3, the video encoder processing system 9 or the image AZD conversion processing system 8 and the digital image and audio data subjected to the predetermined encoding process are directly It can be detected automatically by detecting with the system controller 20.
  • the video encoder processing system 9 or the image AZD conversion processing system 8 a predetermined encoding process is performed. It can be determined that digital image and audio data are input.
  • Video encoder processing system 9 or image AZD conversion processing system 8 is detected by the system controller system 20 without detecting the predetermined encoded digital data. If judged as analog input it can.
  • the predetermined recording process may be performed with the analog input signal from the receiving system 2 as the initial setting (default setting).
  • the DCT processing performed for normal recording processing can be used as the feature extraction processing when predetermined encoding processing is performed.
  • the subband processing performed for normal recording processing is also used as the feature extraction processing. be able to.
  • the feature extraction process is performed after the recording is completed as necessary.
  • the feature extraction processing is performed after the recording is completed, even in the case of the analog input described above, it may be automatically performed when the predetermined recording is completed depending on the load of the signal processing system.
  • the feature extraction process can also be performed by software processing, so depending on the performance of the system controller system, it cannot be performed simultaneously with each predetermined signal processing in the recording mode. Force to do.
  • the system controller system 20 can be composed of a CPU, DSP (digital signal processor), and other various processors. However, the higher the performance, the more expensive the system controller system 20 is based on the processing capability as described above. It may be determined whether the processing is performed simultaneously with the recording processing or after completion.
  • the predetermined feature extraction processing is performed after the end of a predetermined timer recording operation or at night when it can be assumed that the user is not normally operating the device.
  • the time at which the apparatus is operating is stored by a predetermined memory means in the system controller system 20, and a predetermined learning is performed.
  • a time for feature extraction processing may be automatically set as appropriate by the learning processing.
  • the predetermined feature extraction processing can be performed while the time is not being operated. In that case, it is assumed that not all of the predetermined data is processed, but the location in the middle of processing is stored in a predetermined memory means in the system controller system 20 to detect that the device is not operating normally such as recording and playback. Then, if it is determined that there is enough time for processing, it is recommended to perform predetermined signal processing from the middle.
  • predetermined image / audio data, feature data, etc. are recorded from the recording medium 7, and the predetermined data is reproduced and the reproduction processing system 12 performs the predetermined reproduction process. Is done.
  • Reproduced predetermined data is separated into predetermined data by a reproduction data separation processing system 13, and audio data is input to the audio decoding processing system 14, and a signal processing method in which band compression signal processing is performed at the time of recording. Is then input to the audio DZA processing system 15 for DZA conversion processing and then output as an audio signal.
  • the image (video) data subjected to the predetermined classification processing is subjected to a predetermined decoding process corresponding to the signal processing method in which the band compression signal processing is performed at the time of recording in the video decoding processing system 16 and then the video DZA processing system 17
  • the DZA conversion process is performed and output as a video signal.
  • the signal processing method differs depending on whether or not feature data and playlist data are recorded on the recording medium together with the image and sound data.
  • playlist data playlist data file
  • chapter data corresponding to the cases of FIGS. 18A and 18B
  • playlist data recording medium data recording medium
  • An explanation will be given of a case where the recorded images can be played back in the summary playback mode, or the predetermined chapter images can be displayed as thumbnails in the chapter display mode.
  • the playback data separation processing system 13 When data is separated and feature data, or parameter data, playlist data, chapter data, etc. are recorded, predetermined separated feature data, predetermined parameter data, predetermined playlist data, chapter data, etc. Is input to the system controller system 20.
  • the playback data separation processing system 13 cannot separate feature data, parameter data, playlist data, and chapter data, the above data is not input to the system controller system 20, so playback is performed.
  • the data classification processing system 13 and the system controller system 20 perform processing for determining whether or not the feature data, playlist data, predetermined chapter data, parameter data, etc. are recorded on the predetermined recording medium 7.
  • the playlist data is composed of reproduction start information data and reproduction end information data of some predetermined reproduction sections in order to perform predetermined summary reproduction.
  • the chapter data is the beginning or the vicinity of the predetermined feature section, the end or the vicinity of the predetermined feature section, the beginning or the vicinity of the section other than the feature section connected to the feature section, or the end of the section other than the feature section. Or the position information power in the vicinity of it.
  • the system controller system 20 performs summary playback (digest playback) by performing skip playback according to the skip playback start data information and skip playback end data information of the play list data detected for playback.
  • the image at or near the chapter point is stored in a predetermined sum by the specified chapter data.
  • a predetermined display process is performed as a nail image by the display processing system 27, and a predetermined image is displayed.
  • playlist data playlist data file
  • chapter data corresponding to the cases shown in FIGS. 18C and 18D cannot be reproduced, that is, playlist data and chapter data are recorded (stored) on a recording medium or a storage medium.
  • a series of chapter related processing such as displaying the thumbnail time point in the predetermined chapter mode and displaying the thumbnail and playing the chapter will be described.
  • the recording media 25 is DVD software and the recording media processing system 26 and the playback processing system 12 are used to reproduce the video and audio data from other recording media.
  • the recording media processing system 26 and the playback processing system 12 are used to reproduce the video and audio data from other recording media.
  • the processing described here is applicable.
  • playlist data or chapter data has not been generated and playback detection cannot be performed, or if it is desired to regenerate playlist data or chapter data that has been detected for playback, summary playback is performed from the specified feature data and parameter data that have been detected for playback. Play list data and predetermined chapter related mode chapter data can be generated.
  • the display processing system 27 performs a predetermined display indicating that there is no playlist data as shown in FIG. Also good.
  • the generated playlist data is input to the system controller system 20.
  • the system controller system 20 controls the playback control system 18 so that a predetermined playback section is sequentially played back (skip playback) based on the playlist data in accordance with a predetermined summary playback time input by the user.
  • the reproduction of the recording medium 7 is controlled by this control.
  • the generated chapter data is input to the system controller system 20.
  • the system controller system 20 responds to a predetermined chapter-related operation mode by user input.
  • the playback control system 18 can perform operations related to the predetermined chapter, such as image thumbnail display at a predetermined point in time, editing processing such as cutting and connecting of the chapter points, skip playback of the chapter points selected by the user, etc. This controls the playback of the recording medium 7 and controls the display processing system 27 via the system controller system 20.
  • an external recording medium such as a DVD
  • the reproduction control system 18 uses the recording medium processing system. 26 is controlled to perform the predetermined summary reproduction process as described above.
  • the reproduction control system 18 controls the recording medium processing system 26 to perform the predetermined signal processing as described above.
  • the feature data power is also generated as playlist data and chapter data has been described.
  • the feature data May not play.
  • the audio / video data is played back from the recording medium A7 in the summary playback mode
  • the data played back by the playback processing system 12 is input to the playback data separation processing system 13 and a predetermined band compression method is used during the separated recording.
  • the image data and audio data processed in the above are input to the feature extraction processing system 10, and the DCT DC coefficient, AC coefficient, motion vector (motion vector) that is the image characteristic data, etc.
  • Various predetermined characteristic data detection processes are performed.
  • a signal indicating that the predetermined signal processing is completed is input from the system controller system 20 to the display processing system 27, and a predetermined display as shown in FIG. Let ’s do it.
  • the above-mentioned feature data is stored in the memory system 11 for each predetermined feature extraction section, and when the processing of all the above-mentioned predetermined feature data is completed, it is input to the playlist / chapter generation processing system 19 and the predetermined playlist data or Chapter data is generated.
  • the feature extraction processing data of a predetermined section may be sequentially input from the feature extraction processing system 10 directly to the playlist 'chapter generation processing system 19 as described above.
  • the playlist / chapter generation processing system 19 may perform the predetermined playlist data or chapter data generation processing as described above by a predetermined signal from the system controller system 20.
  • the processed feature data from the feature extraction processing system may be subjected to signal processing so as to be input to the playlist chapter generation processing system 19 via the system controller system 20.
  • a signal indicating that the predetermined processing has been completed is input to the system controller system 20 at a desired summary time.
  • the corresponding summary reproduction or the predetermined chapter related operation using the predetermined chapter data can be performed.
  • playlist data or chapter data can be generated as shown in FIG.
  • the display processing system 27 is made to display a predetermined display indicating that this is the case, or to display the summary playback mode and the chapter-related predetermined operation mode.
  • the summary playback time desired by the user such as the power to play it in 30 minutes, the playback in 20 minutes, etc. Therefore, it can be considered to generate playlist data corresponding to several summarization times in advance according to the total time length of all sections from which the features of image and sound data such as recorded broadcast programs are extracted.
  • each playlist data is generated for summary playback of 40 minutes, 30 minutes, and 20 minutes.
  • a summary playback operation corresponding to a predetermined summary time can be immediately performed.
  • the recording medium processing system 26 detects the recording medium 25, the reproduction processing system 12 processes the reproduction signal, and the reproduction data separation processing system. In step 13, predetermined image / audio data is separated. Subsequent signal processing is the same as in the case of the recording medium 7 described above, and is therefore omitted.
  • control program for executing the above-described series of processing is incorporated in dedicated hardware and can execute various functions by installing a computer or various programs. Installed from a recording medium on a personal computer.
  • This recording medium is distributed to provide a program to the user separately from a computer that is not only a hard disk in which a control program is recorded, and is a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor on which a program is recorded. Consists of package media such as memory.
  • FIG. 20 will be described as another example of the recording / reproducing apparatus 30 shown in FIG.
  • the recording / reproducing apparatus 30A shown in FIG. 20 differs from the recording / reproducing apparatus 30 described above in that a series of signal processing for performing feature extraction processing in the recording mode is performed in software in the system controller system 20.
  • predetermined software is downloaded by the network system 24, and feature extraction processing, playlist processing (chapter generation processing (reproduction section, reproduction time position) by software processing as described below. Information generation processing))) is performed.
  • the present invention can be applied in software after a while. If the time is not in time, the design and manufacturing side can provide the user with both a system with a simple configuration to which the present invention is not applied and a system to which the present invention is applied.
  • the present invention can be applied by software processing, so that there is an advantage that functions can be added later.
  • the user When installing the present invention by downloading software, the user connects to a predetermined Internet site via a network system 24 using a predetermined operation system (such as a remote control 22), and the present invention can be operated by a predetermined operation system. Download the software.
  • a predetermined operation system such as a remote control 22
  • the downloaded software of the present invention is subjected to predetermined decompression processing, installation processing, and the like in the system controller system 20, and will be described later, including feature extraction processing, playlist processing, chapter processing, etc. Equipped with processing function.
  • the predetermined feature extraction process described above can be performed simultaneously with the predetermined recording process.
  • the memory system 11 described above can also use a predetermined data storage memory provided in the system controller system 20.
  • band compression of a predetermined image / sound is performed as the predetermined recording process.
  • an MPU or CPU or DSP (digital 'signal processor) having a predetermined performance as described above can be used, and the same MPU or CPU or DSP performing this band compression processing is used.
  • Predetermined feature extraction processing, playlist generation processing, and the like can be performed.
  • the recording / reproducing apparatus 30A shown in FIG. 20 differs from the above-described recording / reproducing apparatus 30 in that a series of signal processing is performed in the system controller system 20 when the feature data cannot be detected and the feature extraction process is performed in the reproduction mode. To do it.
  • a microprocessor MPU or CPU
  • the predetermined feature extraction process described above can be performed simultaneously with the predetermined recording process.
  • the memory system 11 described above can also use a predetermined data storage memory provided in the system controller system 20.
  • the audio system feature extraction processing system As shown in FIG. 21, it is input to the MPEG video / audio stream decoder stream separation system 100, and the separated audio data is input to the audio data decoding system 101 for predetermined decoding processing. Is done.
  • the decoded audio data (audio signal) is input to the level processing system 102, the data counter system 103, and the data buffer system 104.
  • the level processing system 102 calculates the average power (or average level) Pav of a predetermined section of the audio data.
  • the data is converted into an absolute value, and the voice data integration processing system 105 performs the integration processing until the data counter system 103 measures a predetermined number of sample data.
  • the average power Pav can be obtained by the calculation of the following equation (32) with the value (level) of the audio data as Ad (n).
  • Olsec (10msec) to lsec can be considered as the predetermined interval for calculating the average level.
  • Fs 48KHz
  • the integration calculation line of 480 to 48000 samples ! the number of samples Perform average processing with Sm to maintain the average level (average par) Pav.
  • the data Pav output from the sound data integration processing system 105 is input to the determination processing system 106, where it is compared with the predetermined threshold value Ath set in the L threshold value setting system 107, and silence determination processing is performed.
  • Ath fluctuates according to the average level of the predetermined voice interval in addition to the force fixed value AthO which can be set as the fixed value AthO. It is also possible to set the threshold value Athm.
  • n the interval where processing is currently considered
  • Pav (n—k) of the interval (n—k) before that As shown in the following equation (33) It is possible to make it.
  • Athm (Pav (n- l) + Pav (n- 2)) / m (34)
  • m is set in the range of about 2-20.
  • the predetermined audio data accumulated in the data buffer system 104 is input to the frequency analysis processing system 108, and a predetermined frequency analysis process is performed.
  • FFT Fast Fourier Transform
  • the predetermined number of analysis sample data of the data from the data buffer system 104 is, for example, 512, 1024, 2048, etc.
  • Predetermined analysis processing is performed with the number of samples.
  • a signal (data) from the frequency analysis processing system 108 is input to the determination processing system 109, and a predetermined determination process is performed.
  • the music (musical sound) discrimination process can be performed with the continuity of the spectrum peak in the predetermined frequency band.
  • Japanese Unexamined Patent Application Publication No. 2002-116784 discloses such techniques.
  • a breathing interval in the speech waveform of a person so a predetermined steep rising or falling interval is seen in the waveform, and the predetermined rising or falling interval is detected.
  • predetermined signal processing can be performed.
  • the predetermined determination processing is performed in the baseband domain. It is possible to use the method to perform (signal analysis and judgment processing in the time domain).
  • FIG. 22 shows a configuration example of an audio system feature extraction processing system in the case where signal attribute analysis is performed in the compression band without decoding audio signals (audio data).
  • a data stream subjected to predetermined band compression signal processing for example, image audio data such as MPEG is input to the stream separation system 100 and separated into image data and audio data.
  • the audio data is input to the stream data analysis system 110, and signal analysis processing such as a predetermined sampling frequency and the number of quantization bits is performed.
  • the predetermined audio data is input to the subband analysis processing system 111.
  • Predetermined subband analysis processing is performed in the subband analysis processing system 111, and predetermined signal processing similar to that described in the above equations (32) to (34) is performed on data in the predetermined subband band.
  • a predetermined integration process is performed until a predetermined number of sampling data is detected by the data count system 103 after being input to the voice data integration processing system 105, and then a predetermined threshold set by the threshold setting system 107. Based on the value, the judgment processing system 106 performs a predetermined silence judgment process.
  • this silence determination process it is possible to use a predetermined data band of approximately 3 KHz or less as a subband band in a band where a lot of energy is collected in consideration of the spectrum of voice data.
  • the image data that has undergone the predetermined separation processing in the stream separation system is input to the stream data analysis system 200, and is subjected to predetermined detection such as rate detection, pixel number detection, etc.
  • Data analysis is performed, and DCT coefficient processing system 201 performs DCT calculation processing (inverse DCT calculation processing) such as DCT DC coefficient detection and AC coefficient detection.
  • DCT calculation processing inverse DCT calculation processing
  • Motion vector detection processing is performed.
  • the scene change detection processing system 202 for example, it is divided into predetermined screen areas and each area is divided.
  • the average value of Y (luminance data), Cb, and Cr (color difference data) of DCT DC coefficient data is calculated for each area, and the difference calculation between frames or the difference calculation between fields is performed for each area and compared with the predetermined threshold value. Then, a predetermined scene change is detected.
  • the difference data between frames (or fields) in each region can be detected when there is a scene change that is smaller than a predetermined threshold value.
  • the screen division area is, for example, an area that divides the effective screen into 16 as shown in FIG.
  • the screen division method to be calculated is not limited to the case of Fig. 24, and the number of divisions can be increased or decreased. However, if the number is too small, the accuracy of scene change detection becomes insensitive, and if the number of divisions is large, the accuracy is high. Since it is considered too sharp, an appropriate predetermined number of divisions is set within a range of about 256 (16 X 16) or less.
  • the color feature detection processing system 203 can also detect a color feature based on the average value of Y, Cb, and Cr data of a DCT DC coefficient in a predetermined region.
  • the predetermined area for example, an area as shown in FIG. 25 can be used.
  • the effective screen is divided into four in the horizontal direction to provide detection areas 1 to 4, and four in the vertical direction to provide detection areas 5 to 8.
  • Each detection area is given an area ID, and the data of each detection area is identified by the area ID.
  • detection areas 1 to 4 only in the horizontal direction or detection areas 5 to 8 only in the vertical direction are provided.
  • a grid-like division method such as 5 ⁇ 5 or 6 ⁇ 6 can be used.
  • this color feature is combined with, for example, a voice attribute feature, the probability of a “scene where the effort starts” from “soil scene” + “speech attribute or other (or speaker voice)” is high. Therefore, such a scene section can be set as a key frame section.
  • the voice level increases due to the cheering of the audience at the start scene of the approach, or data in a voice frequency band different from the normal state is detected.
  • the similar image detection processing system 204 is a process of assigning (adding) (or assigning) a predetermined ID (identification number or identification symbol) to each image (scene) for each similar scene (similar image, similar video). Similar images (scenes) are assigned (assigned) with the same ID.
  • a predetermined ID identification number or identification symbol
  • Similar images (scenes) are assigned (assigned) with the same ID.
  • Japanese Patent Application Laid-Open No. 2002-344872 discloses the technique.
  • This process of adding (applying) records the ID in a one-to-one correspondence with the position information (frame number, PTS, recording time, etc.) of the image (scene) or image (scene).
  • the position information and ID of the image (scene) have a one-to-one correspondence, and it goes without saying that the image (scene) itself and its position information are also included. Since it corresponds one-to-one, various predetermined operations using ID can be performed, for example, similar image classification such as displaying images with the same ID or skip playback of image scenes with the same ID. it can.
  • detection appearance ranks such as first and second detection frequencies can be set.
  • the screen is divided into a plurality of parts (for example, 25 parts), the DCT average DC coefficient of the area corresponding to each divided screen area is calculated, and the calculated average DC coefficient is calculated.
  • the predetermined vector distance is predetermined and smaller than the value! /
  • the image (scene) corresponding to the place is defined as a similar image (similar scene), and the similar image (similar scene) is the same predetermined. This is the process of assigning an ID (scene ID).
  • the maximum ID value plus 1 is used as the new ID, and the image (scene) Assigned).
  • a processing method such as calculating the appearance frequency of an ID in a predetermined section and detecting the first to second frequencies.
  • the first and second appearance frequencies are considered to have a high probability of being able to detect an announcer scene that can be assumed to have a high appearance frequency.
  • Fig. 26 shows the outline for explaining the calculation method of the appearance frequency of ID.
  • ID1 which is the same ID in four sections, fl-1 to f2, f3 to f4, f5 to f6, f7 to f8, is shown. Detected. That is, a similar scene appears in this section.
  • a section with the same ID in a given section is counted as one, and the force with several such sections is calculated.
  • the person detection processing system 205 can determine whether a person appears on the screen by dividing the screen area as shown in FIG. 27 and detecting a predetermined specific color in each area.
  • the effective screen is divided into 2 regions of 4 ⁇ 4 regions 1 to 4 and 5 regions near the center of the screen.
  • the probability that an announcer's face appears in area 5 is high. It is possible.
  • the announcer's face may appear in region 1 or region 2. In that case, it can be assumed that a flip or telop appears in Region 2 or Region 1.
  • the screen size is set to 720X480.
  • Detection condition from luminance signal AC coefficient (Contour detection condition of person, face, etc.) Based on the judgment condition shown in the above formulas (37) and (38)! , Detect data in x and y directions.
  • covariance processing is performed from the detected data.
  • the heel portion is a detection point, for example, as follows.
  • the data is larger than the predetermined threshold number Lth.
  • calculation is performed on xl (O) and yl (O).
  • the shape of the person's face is considered, and the aspect ratio is calculated assuming that the face is approximated by a quadrilateral.
  • the object in the region of xl (0) and yl (O) in FIG. 28 has a high probability of a human face.
  • the following (Process 5) It is possible to determine the continuity of detected data.
  • the detection time continuity (stability of detection) of the above (Process 1) to (Process 4) is determined.
  • equation (48) is also used to set the detected value S (N) in picture N.
  • an I picture can be used as a picture to be detected.
  • any one or some of the detection values of (Process 1) to (Process 3) described above are used as detection data for picture N, and N + l, N + 2, N + 3 and so on. Determine if you can Please do it.
  • the detected value at frame N is the detected value at frame N
  • condition determination may be made by calculating an average value of the detected data of N to (N + 2) pictures.
  • the average value of the detected three picture data is AvCol
  • condition determination may be made by calculating an average value of the detected data of N to (N + 2) pictures.
  • the average value of the detected three picture data is Avxh and Avyh
  • condition determination may be made by calculating an average value of the detected data of N to (N + 2) pictures.
  • the average value of the detected three picture data is Avxl and Avyl
  • the data density ⁇ 1, ie the number of data per unit data point ⁇ 1 is
  • the threshold value Mth is the threshold value Mth
  • region (1) and region (2) satisfy the condition from equations (81) and (85), and it is determined that the probability that a person has been detected is high.
  • one xl (0) is detected in the X direction and one yl (0) is detected in the y direction.
  • the average value of yh (y) is yhav and the number of data is m
  • the average value is xhav number of data n
  • FIG. 36 has a larger data variance value.
  • a predetermined threshold value Bth and a threshold value dl, d2 corresponding to the number of detected objects are set for the dispersion value, and the number of detected objects can be detected by determining the following conditions.
  • the threshold can be set and determined.
  • two xl (0) and xl (l) are detected in the X direction, and two yl (0) and yl (l) are detected in the y direction.
  • the number of detected data is the number of detected data
  • ⁇ a is a predetermined value !, which is less than the value, so two people are detected in the region specified by xl (0) and (yl (0) + yl (l)) From the equation (109), it can be determined that one person is detected.
  • the probability that two persons are detected in the region Rc is low. From the expressions (109) and (115) to (117), a person is eventually detected.
  • the number of persons can be detected by the determination process as described above, which is the area specified by xl (O) and yl (O) and the area specified by 1 (1) and 1 (1). It can be carried out.
  • human detection can be performed by sequentially determining whether or not a predetermined threshold condition is satisfied in the X direction (0 to 44) and the y direction (0 to 29).
  • the size and the position of the detected object are simultaneously divided.
  • a person is approximated by a quadrangle, and the size of the quadrangle is sequentially changed to determine whether the data of the quadrangular area satisfies a predetermined condition. This can be used to detect a person.
  • a quadrangular area of (2 X 2), (3 X 3), and (4 X 4) is set. Move the quadrangular regions of different sizes as described above one by one from the smaller quadrangles in order, determine the force that the data in the region satisfies the condition, and when the determination is completed for all regions, The same processing is performed for a quadrangle of size.
  • the telop detection determination processing system 206 detects the average value of the DCT AC coefficient in the screen area as shown in FIG.
  • a telop containing character information of a predetermined size within a screen in a predetermined area has a relatively clear outline, and if a telop image appears in any of the areas in Fig. 25, the specified threshold or more is exceeded.
  • AC coefficient can be detected, and telop detection can be performed.
  • an edge detection method can be used in the baseband domain (time domain signal). For example, the edge is detected by the difference between frames of the luminance data of the image. Try to detect.
  • multi-resolution analysis is performed by wavelet transform, and the average value of the area corresponding to Fig. 25 is calculated using data in a predetermined multi-resolution area including predetermined high-frequency component data.
  • a telop is not limited to a light-colored area for flipping, but is, for example, text information that appears at the bottom of a news video.
  • the appearance area is generally a force depending on the program genre. In the case of right side, etc.
  • the camera feature determination processing system 209 is a feature relating to camera operations such as zooming, panning, and the like.
  • a motion vector ( The motion vector can be used for determination.
  • Japanese Unexamined Patent Publication No. 2002-535894 discloses a technique relating to camera characteristics.
  • summary playback is an important playback section of several strengths within a predetermined section by predetermined signal processing using each feature data of audio system feature data and video system feature data by predetermined signal processing.
  • Keyframe period can be selected (selected), and each period can be skip-played sequentially.
  • skip playback For example, when skipping in the middle of a speaker's voice section, even if there is no sense of incongruity when looking on the screen, some users may experience a sense of incongruity when the voice is interrupted. Since a case is assumed, a section below a predetermined sound level (volume) is set as a silent section, and a predetermined time point in that section is set as a skip time candidate.
  • volume volume
  • a scene change of a video is considered to be a topical break point in broadcast programs, movies, and other video playbacks. Therefore, a scene change point or its vicinity can be used as a skip point candidate.
  • a predetermined playback unit (hereinafter referred to as a playback unit or a play unit Play Unit (or PU)) is set for the sake of convenience. Process.
  • Predetermined image system feature data and predetermined audio system feature data are processed in the playback unit (PU) set in this way, and predetermined summary playback (digest playback) is performed according to the video, audio feature data, and summary playback time.
  • predetermined summary playback digest playback
  • a section is set and skip playback is performed in a predetermined summary playback mode, so that a predetermined summary playback is executed.
  • a chapter or edit point or playback breakpoint
  • the chapter point can be displayed as a thumbnail by predetermined signal processing, and the user can perform operations such as editing while viewing the thumbnail display.
  • a near break is defined as a playback unit break.
  • the scene change detection point closest to 15 seconds is the scene change detection point.
  • the playback unit is separated.
  • the playback unit reaches 20 seconds regardless of the audio segment or scene change. Break at that point.
  • CM commercial
  • the CM detection point is set as the break point of the playback unit.
  • the CM section length of a broadcast program is a predetermined time length (usually 15 seconds, 30 seconds, or 60 seconds), and there is a scene change at the CM breakpoint (start or end point).
  • CM can be detected as shown in FIG.
  • the initial value of the start point of the playback unit is the start time when the program (broadcast program) is recorded.
  • a predetermined playback unit corresponding to a predetermined audio feature and a predetermined video feature can be played back.
  • FIG. 37 shows a block configuration example of the processing system generated by the playback unit described above and the unitized feature data processing system for inserting feature data into the playback unit, which will be described later.
  • Predetermined time setting processes such as summary playback and chapter point setting are set at the start point and end point of the playback unit, so the process is performed in association with the feature data for each playback unit described above.
  • processing is performed to reflect each predetermined feature data, audio feature data, and video feature data extracted for each predetermined section based on the playback unit section.
  • the silence determination information data is input to the time measurement system 301, the predetermined interval (time length) based on the playback unit processing described above is measured, and the processing output is the playback unit. Input to processing system 302.
  • the playback unit processing system 302 also receives scene change judgment information data and CM detection judgment information data, performs signal processing as described in the explanation of each processing method of playback unit processing, and generates a predetermined playback unit. To do.
  • the CM detection system 304 performs silent feature detection information data and scene change feature information data. And channel information for determining whether the channel is a program channel is input, and CM detection processing is performed by a predetermined signal processing method as described with reference to FIG.
  • the playback unit feature data processing system 303 includes voice feature data such as voice attribute information and silence information, scene change feature, color feature, similar image feature, person feature, and telop feature.
  • Each feature data such as a person feature is input, and the feature data is inserted into the playback unit as described later.
  • PU feature data files include audio feature data and video (image) feature data.
  • This feature data processing is data (data file) as a result of performing processing for inserting the audio system and video system feature data extracted into the playback unit described above, and various feature data for each playback unit. Are recorded on a predetermined recording medium.
  • each feature data detected in accordance with a predetermined detection section is recorded on a predetermined recording medium, and then the above-mentioned predetermined section of the playback unit is recorded. Processing is performed on the feature data according to.
  • Feature data is obtained by extracting predetermined characteristic data (characteristic signal) from audio signals (audio data) and image (video) signals (image (video) data), and subjecting the extracted signals (data) to predetermined processing.
  • characteristic signal characteristic data
  • Data characteristic data
  • the video (image) signal is the characteristic data of the MPEG stream, the luminance signal (Y signal) in the I picture, the DC signal of the DCT of the color signal (color difference signal) (Cb, Cr signal), the movement of the B or P picture Vector (motion vector) data and DCT AC coefficients are extracted, and the scene change feature (sen feature), camera operation feature (camera feature) ( cam feature), similar image feature (similar scene feature or scene ID feature) (sid feature), telop feature (tip feature), color feature (color feature) ) (col feature), person feature (Person feature), etc.
  • the average level of audio signals is calculated approximately every 20 ms as characteristic data processing, and the attribute (type) and average power (average level) of the audio signal in a predetermined section are calculated from the calculated data and a predetermined value. ) And other audio features (seg features).
  • speech attributes such as speaker speech, music (musical sound), and cheers in sports programs are assumed.
  • the configuration example 1 of the feature data file shown in Fig. 38 shows the audio system feature data, scene change feature (sen feature), camera feature (cam feature), similar scene feature (sid feature), and telop feature (tip feature).
  • video feature data such as color feature (col feature), person feature (Person feature), etc. are used as separate feature data files.
  • Each feature data file is written in text format data or binary format data.
  • these characteristic data are temporarily stored (recorded) on a predetermined recording medium (such as a semiconductor memory) as normal data, and will be described later. It is also conceivable to read out and use it for predetermined processing such as generation of summary list data and generation of predetermined set points (generation of chapter points). The same applies to FIGS. 39 and 40 described below.
  • Example 2 shown in Fig. 39 all the audio system feature data described above is collected as one file in text format or binary format, and all the video system feature data described above is combined into one file in text format or binary format. It is an example when it summarizes as.
  • Example 3 shown in FIG. 40 is an example in which all the audio system feature data and all the video system feature data described above are collected as one file in text format or binary format.
  • Example 3 shown in FIG. 40 is the same as Example 2 shown in FIG. 39, in which all audio feature data is described in binary format and all video feature data is described in binary format. It will be.
  • the audio feature data processing method in the following description of the feature data file can be applied to the audio feature data shown in FIG.
  • (Description method) can be applied to the video feature data in Example 2 of Fig. 39.
  • Figure 41 shows the hierarchical structure of feature data in units of playback units.
  • predetermined feature data processing in a predetermined processing unit (reproduction unit).
  • the feature data includes feature data header information, program 1 feature data, program 2 feature data, and the like.
  • the characteristic data header information includes predetermined data capabilities such as the total recording time of the entire program such as program 1, program 2, recording start time, recording end time, number of programs (number of programs), and other information. It is composed.
  • program (program) feature data will be described using program 1 feature data as an example.
  • the program 1 feature data includes program 1 information, playback unit 1 information, playback unit 2 information, and the like.
  • the program 1 information is composed of predetermined data such as a program recording time, a program start time, an end time, a program genre (program genre), and other information.
  • the playback unit 1 information is composed of audio feature data and video feature data.
  • the audio system feature data is composed of sequence number information, start / end position information, audio attribute information, feature data, and other information data.
  • video feature data is composed of predetermined feature information data such as scene change features, color features, similar image features, person features, telop features, camera features, and the like.
  • each feature data such as the following scene change feature, color feature, similar image feature, person feature, telop feature, power feature feature, etc.
  • the feature data of each item is recorded (written) in a given recording medium in every given section.
  • predetermined data processing is performed so that the data is recorded (written) on a predetermined recording medium.
  • predetermined data processing is performed only when feature data equal to or greater than a predetermined threshold is detected, the predetermined feature data is not written if it is smaller than the threshold V.
  • a predetermined recording (writing) process is performed, and when knowing what number of feature data is detected at first, it is possible to know the sequence number information power described below.
  • FIG. 43 it includes sequence number information, start / end position information, feature data, and other data.
  • sequence number information is information indicating the order in which scene changes occur from the beginning of 0, 1, 2, 3,... And the program (method number thread).
  • the start / end position information is information data indicating the start / end positions of the above-described scene changes, and information data such as a frame (field) number, PTS, DTS, and time can be used.
  • sequence number information As shown in FIG. 43, there are also powers such as sequence number information, information data for identifying a detection area, start / end position information data, feature data, and other data.
  • sequence number information is 0, 1, 2, 3, ... and the beginning of the program (method number thread). This is information indicating the order of color feature detection.
  • the start / end position information is information data indicating the start / end position where the feature detection of each area was performed in the color feature detection in each of the above order, and information data such as a frame (field) number, PTS, DTS, and time are used. Can do.
  • the feature data includes, for example, data such as RGB, Y, Cb, and Cr.
  • FIG. 43 it consists of sequence number information, frequency information start / end position information, feature data, and other data.
  • sequence number information is information indicating the order of similar image feature detection from the beginning of 0, 1, 2, 3,... And its program (method number thread).
  • the feature data includes the DCT average DC coefficient of each divided area obtained by dividing the effective screen as described above into a predetermined number of areas (for example, divided into 25).
  • sequence number information As shown in FIG. 43, there are also powers such as sequence number information, information data for identifying a detection area, start / end position information data, feature data, and other data.
  • sequence number information is information indicating the order of similar image feature detection from the beginning of 0, 1, 2, 3,... And its program (method number thread).
  • sequence number information As shown in FIG. 43, there are also powers such as sequence number information, information data for identifying a detection area, start / end position information data, feature data, and other data.
  • sequence number information is information indicating the order of telop feature detection from the beginning of 0, 1, 2, 3,... And its program (method number thread).
  • sequence number information As shown in FIG. 43, there are also powers such as sequence number information, information data for identifying a detection area, start / end position information data, feature data, and other data.
  • sequence number information is information indicating the camera feature detection order from the beginning of 0, 1, 2, 3,... And its program (method number thread).
  • the predetermined feature extraction processing is performed for already recorded broadcast programs, other movies, dramas and other image / audio software.
  • a feature data file can also be generated.
  • PU and feature data can be used in the same way as for program 1 described above when recording other programs 2 and 3, etc. .
  • desired summary playback is performed by performing skip playback processing on the above-described predetermined playback section in units of PUs.
  • This file contains predetermined data indicating which of the PUs or PU joints (PU aggregates or PU concatenations) specified according to the above characteristic data is to be selected for playback processing. It is data in which information is described according to a predetermined format.
  • the data may be temporarily stored in a predetermined memory means. Conceivable.
  • FIGS. 44A and 44B An example of a playlist file is shown in FIGS. 44A and 44B.
  • the vertical data series (a) in Example 1 shown in Fig. 44A is the data of the start position information of the playback section, and the PTS (Presentation ⁇ Data) from the frame number, time (time), and stream (compressed video and audio data) Time 'stamp) or predetermined information data such as DTS (decode' time stamp).
  • PTS Presentation ⁇ Data
  • time time
  • stream compressed video and audio data
  • DTS decode' time stamp
  • the vertical data series of (b) in Example 1 shown in FIG. 44A is data of the end position information of the playback section, and corresponds to the data of (a) of Example 1, corresponding to the data of Example (a), frame number, time (time), stream ( Pressure Pre-defined information data such as PTS (Presentation “Time” Stamp) or DTS (Decoding Time “Stamp”).
  • PTS Presentation “Time” Stamp
  • DTS Decoding Time “Stamp”.
  • the vertical data series (c) in Example 1 shown in FIG. 44A indicates the importance of the PU (reproduction unit) or reproduction unit group (PU group).
  • Example 1 shown in FIG. 44A (d) vertical data series is character data having a meaning defined or set by the summary rule.
  • Example 2 shown in Fig. 44B describes semantic characters and evaluation values (importance) for all PU sections, and uses identification data of "1" and "0" to indicate predetermined times such as playback sections and chapter settings. It is an example in the case of providing.
  • Example 2 shown in FIG. 44B the first start point 0 and the end point 229 are continuously connected to the next start point 230.
  • the vertical data series (e) in Example 2 shown in Fig. 44B is flag information data indicating whether or not summary playback is to be performed. When “1”, playback is performed, and when “0” is played, playback is performed. If not.
  • first time point of “1” and the first time point of “0” can be regarded as a predetermined time point setting point (a chapter point).
  • FIG. 45 is an example of an operation flowchart of the present invention, which will be described.
  • step S1 it is first determined in step S1 whether the recording mode or the playback mode.
  • step S2 it is determined in step S2 whether the playback mode is digest playback (digest playback) or normal playback mode. If the playback mode is normal playback mode, the process proceeds to normal playback processing (P).
  • predetermined feature data is recorded on a predetermined recording medium in step S3. Judgment processing is performed to detect whether it has been recorded! / Whether it has been recorded or whether it has been recorded as a predetermined file data in a predetermined recording area of the recording medium.
  • predetermined playlist data (data file) is recorded in a predetermined recording area of a predetermined recording medium in step S4! If it is detected that playlist data (playlist file) is detected, the predetermined playlist data is read out in step S5.
  • step S8 the video / audio data (program, broadcast program) to be summarized and reproduced is read and predetermined feature extraction processing is performed.
  • step S9 it is determined whether the process is completed. If the process is not completed, the process returns to step S8 and continues until the process ends.
  • step S9 If it is determined in step S9 that the predetermined feature extraction process has been completed, the process proceeds to step S6, where a predetermined playlist data generation process is performed.
  • step S4 If it is determined in step S4 that the predetermined playlist data (file) is not detected, the predetermined feature data recorded or stored in the predetermined recording area of the predetermined recording medium in step S6 is read. Then, a predetermined playlist data (file) is generated and sequentially written to a predetermined area of a predetermined recording medium, or data is written after the processing is completed, and whether all the playlist generation processing is completed in step S7. If it is determined and the process is not completed, the process returns to step S6 to repeat the process. If it is determined in S7 that all predetermined playlist data has been generated, the playlist data written in step S5 is read.
  • the sequentially generated playlist data may be sequentially recorded in a predetermined recording area on the same recording medium in which image / audio information data such as the broadcast program is recorded, Alternatively, the information may be written to a recording medium different from the one where the image / audio data is recorded, for example, a predetermined memory means that can be attached and detached. At the same time, the data may be written (stored) sequentially! All the playlist data generated after the predetermined playlist data has been generated and processed. Masato Let's start recording (memory) processing.
  • the playlist data includes a plurality of playlist data corresponding to the recording time so that the user can select a plurality of summary playback times. You can generate list data.
  • the summary playback time is manipulated according to the evaluation value. It is out.
  • step S10 the playback time selection mode is set, and in step S11, the user selects the playback time immediately or the summary playback mode is selected and then the playlist data detection process ends and the user sets the playback time within a predetermined time tmod. It is determined whether the selection process has been performed. If the selection process has not been performed, it is determined in step S12 whether the playback stop has been selected by the user. If the playback stop is selected by the user in step S12, the process ends. If not, the process returns to step S10 and repeats the predetermined process.
  • step S11 when the user selects the playback time immediately, or when the playback time is not selected within the predetermined time tm od, the process proceeds to the digest playback operation processing in step SI 3.
  • the user selects the playback time. If the predetermined time tmod has elapsed without selecting the playback time, the predetermined default playback time (predetermined playback time) tpbO is set.
  • the summary playback time may be arbitrarily selected by the user, or the selection processing can be performed from the preset playback time based on the recorded program recording time and playlist data.
  • the selection processing can be performed from the preset playback time based on the recorded program recording time and playlist data.
  • the default summary playback time is set according to the recording time, for example, as shown in FIG. You can also.
  • the summary playback mode can be set only when the recording time is longer than the predetermined recording time (Trecmin).
  • the predetermined recording time Trecmin if the recording time Tree is less than 10 minutes, the time is short.
  • the summary playback is not set and only normal playback is set. As an example, if the recording time tree is 60 minutes from FIG. 46, the summary playback time that can be selected by the user is 10, 15, 30, 40 minutes, and the default setting time is 30 minutes.
  • the summary by skip playback processing is used. If the total number of sections skipped during playback increases, information will be lost accordingly, and it may be impossible to grasp the playback content.Therefore, the number of selections is reduced so that an appropriate summary time can be selected.
  • the recording time is long, the amount of information is large, so the number of selections is increased so that the user can perform effective and effective operations.
  • Information such as a list of summary playback times that can be selected by the user and default playback times is stored in a predetermined display means in the recording / playback apparatus to which the present invention is applied, or in a predetermined display means connected to the apparatus, or It is conceivable to display on a predetermined display screen such as liquid crystal on the remote control of the device.
  • the chapter setting process can be performed simultaneously with the playlist generation process. As shown in FIG. 44 according to the recording time, a predetermined chapter setting process is automatically performed according to the number of settable chapters. Done.
  • predetermined signal processing is performed so that 5 to 40 chapters are set.
  • step S13 the power at which the summary playback operation is performed.
  • the PU section with the highest evaluation value is sequentially selected with the highest priority, and the section with the smaller evaluation value is sequentially selected compared to the highest priority evaluation value so that it is as close as possible to the selected summary playback time. I will do it.
  • step S14 it is determined whether or not the playback operation is finished. If it is finished, the process is finished. If not finished, it is judged whether or not the predetermined program (program) played is finished in step S15. If the process ends and does not end, go to step S16 and restart. Determine whether to change the lifetime.
  • step S16 If the playback time is changed in step S16, the process returns to step S10, and the above processing is repeated. If not changed, the process returns to step S13 to repeat the summary playback operation.
  • FIG. 1 An example of an operation flowchart in the recording mode is shown in FIG.
  • step S1 of the flowchart shown in FIG. 45 it is determined whether the timer recording mode or the normal recording mode is selected in step R1 of the flowchart shown in FIG. 48.
  • the normal recording operation is performed.
  • step R9 the process proceeds to predetermined recording signal processing, and in step R10, predetermined feature extraction processing is performed from the image / audio data to be subjected to predetermined encoding processing such as MPEG or the encoded image / audio data. Is called.
  • the recording signal processing and the feature extraction signal processing can be performed simultaneously.
  • the image / audio data to be subjected to the predetermined encoding process is to perform a predetermined feature extraction process using the image / audio data being subjected to the predetermined encoding process.
  • a predetermined feature extraction process using the image / audio data being subjected to the predetermined encoding process.
  • the DC coefficient data of the DCT signal processing, AC coefficient data, etc. can be extracted, and by performing predetermined signal processing using the predetermined data, each predetermined characteristic described above, such as scene change characteristic detection (cut point characteristic detection), telop characteristic detection, etc. Perform extraction signal processing.
  • signal processing such as speaker voice and music (musical tone) detection detection can be performed by using data in a predetermined subband band in predetermined subband signal processing in predetermined band compression signal processing. it can.
  • the determination processing can be performed by determining data continuity in a predetermined subband band.
  • baseband image / audio data can be used. For example, using a baseband signal of an image, a scene change detection process by frame (or field) difference signal processing or a telop by edge detection by the difference signal. Other predetermined feature extraction signal processing such as feature signal processing can be performed.
  • each image and the feature data subjected to the audio feature extraction signal processing are recorded in the same predetermined recording medium on which the image / audio data is recorded, or predetermined data storage means (data recording means) such as a predetermined buffer memory.
  • step Rl1 the normal recording mode end force is determined. If not, the process returns to step R9, and the above operation is repeated. If the process is ended, the process proceeds to step R12 to generate playlist data generation processing (or chapter data generation processing). Migrate to
  • step R1 If the timer recording mode is set at step R1, the recording start and recording end times are set at step R2, the predetermined operation time is determined at step R3, and if it is not the predetermined time, the operation waits at step R7, If it is determined at R8 that the user has interrupted the timer operation and the timer operation is continued, return to step R3 and repeat the above operation.
  • step R8 If the timer operation is canceled in step R8, the process returns to step S1 in Fig. 45 to perform the first operation mode selection process.
  • step R3 If it is determined in step R3 that the predetermined recording operation time has come, the recording operation is started, and the same operations as in steps R9 to R11 described above are performed in steps R4 to R6.
  • Image and audio feature extraction signal-processed feature data (feature extraction data) is recorded in the same predetermined recording medium on which image / audio data is recorded, or predetermined data storage means (data recording means) such as a predetermined buffer memory. If it is determined in step R6 that the recording end time is reached, the process proceeds to step R12 to perform playlist data generation processing or chapter data generation processing.
  • step R12 feature data subjected to various predetermined feature extraction processing (predetermined feature data subjected to feature extraction processing is subjected to predetermined processing, predetermined signal processing, and predetermined determination processing is performed using these data. (Including performed data) is read from a predetermined recording medium, and predetermined playlist data (file) generation processing and chapter data generation processing are performed.
  • step R13 The generated playlist data and chapter data are recorded on a predetermined recording medium, subjected to the force determination processing that has been generated in step R13, and if not completed, step R12 Return to and repeat the above processing operations. If it is determined that the processing has been completed in step R13, the operation is terminated.
  • the playlist data and the chapter data are sequentially recorded on a predetermined recording medium simultaneously with the data generation process, and in addition to the predetermined broadcast program, program, or predetermined recording section to be processed. After all the generation processes of the predetermined playlist data and chapter data are completed, they may be recorded together on a predetermined recording medium.
  • playlist data (chapter) processing is performed in parallel (simultaneously) with feature extraction processing
  • predetermined feature extraction is performed simultaneously with recording processing of video / audio information data such as predetermined broadcast programs and programs.
  • FIG. 49 shows an example of an operation flowchart for performing predetermined signal processing from the audio segment detection point and the scene change detection point in the case of the PU signal processing described above.
  • step P1 the audio data and the predetermined number of sample data of the image data are read out from the predetermined recording medium on which the audio / video information data is recorded, and the scene change detection processing described later is performed.
  • the data read in P2 is stored in a data buffer which is a predetermined recording means such as a memory (write processing and recording processing).
  • step P3 If it is determined in step P3 that data of a predetermined number of samples has been recorded in the buffer, the process proceeds to step P4. If it is determined that predetermined sample data has not yet been recorded, the process returns to step P2 and the operation is repeated.
  • the predetermined number of sample data in Step P2 is about 0.1 second to 1 second.
  • the buffer processing corresponding to the number of data corresponding to the predetermined interval is performed. For example, if the sampling frequency is 48KHz, 48000 sample data is recorded in one second, and if it is 0.1 second, 4800 sample data is recorded in the buffer.
  • step P4 the audio data is read from the buffer.
  • step P5 the audio level is calculated in the predetermined section as described above.
  • step P6 the audio level is compared with the predetermined level.
  • a silence detection (silence determination) process is performed by determining whether the level is lower than the level.
  • step P6 If it is determined in step P6 that the section is a silent section, the information is stored (recorded) in a predetermined memory (buffer) in step P7. If it is determined that the section is not silent and there is sound, the process proceeds to step P8. If the voice buffer processing of the buffer data read in step P1 is completed, the force determination processing is completed. If not completed, the processing returns to step P2 and the above processing is repeated. If the processing ends, the processing proceeds to step P9.
  • step P9 the voice segment information data processed in step P8 is read, and in the step P10, the segment processing of the short silent section, the voiced section, the long silent section, and the voiced section described above is performed.
  • step PI 1 DCT processing data of image data of a predetermined number of data samples is recorded in a predetermined buffer memory (predetermined data recording means), and in step P12, it is determined whether recording of the predetermined data amount is completed, If it is not the predetermined amount of data, the process returns to step P11 to repeat the writing process to the buffer memory system, and if it is determined in step P12 that the predetermined amount of data has been written, the process proceeds to step P13. .
  • predetermined buffer memory predetermined data recording means
  • step P13 the predetermined DCT data in which the predetermined buffer memory system power is recorded (written) is read out.
  • step P14 predetermined signal processing such as interframe difference is performed, and predetermined scene change detection processing is performed. .
  • step P15 whether or not a predetermined scene change has occurred is determined. If it is determined that there has been a scene change, in step P16, a predetermined memory means (data recording means, data buffer means, etc.) Store (write) location information data Process), the process proceeds to step PI 7, and if it is determined in step P15 that there is no scene change, the process proceeds to step P17.
  • a predetermined memory means data recording means, data buffer means, etc.
  • step P17 Store (write) location information data Process
  • step P17 the force determination process is completed when the scene change detection process for the predetermined amount of data in the predetermined data buffer is completed. If not, the process returns to step P11 and the signal processing is repeated, and it is determined that the process is completed in step P17. If so, proceed to Step P18.
  • Step P18 the scene change position information recorded (stored) in the predetermined buffer memory means is read, and in Step P19 the scene change detection is detected such that the section that is too short, such as shorter than the predetermined section length, is joined with the front and rear sections. Perform section correction processing.
  • step P20 the audio segment position information data and scene change position information data generated and processed in the predetermined section are read out.
  • step P21 the audio segment position, audio segment section length, scene change position, scene change section length, etc.
  • Predetermined PU information data such as location information and section information for a given PU is generated from the fixed information data.
  • step P22 from the PU information processed in step P21, feature data corresponding to the PU section (or feature extraction data, or a signal obtained by performing predetermined signal processing on the feature data) is stored in a predetermined recording medium, Alternatively, a write process is performed on a predetermined data buffer.
  • these recording media are separated from the predetermined recording area on the same predetermined recording medium on which the image / audio information data of a predetermined section such as a broadcast program and a program to be processed are recorded. Recording (storing and writing processing) on the specified recording medium is not considered.
  • Step P23 the force determination process is completed after a series of signal processing such as the above audio segment processing, scene change processing, and PU processing for a predetermined amount of data. If it is determined that the processing has ended, the processing ends, and it is determined that it has not ended If so, return to Step P1 and repeat the above process.
  • the image / audio data such as the recorded predetermined broadcast program or program is recorded. Audio data segment processing is performed sequentially for each predetermined section of the data, and then the image scene change detection processing is performed.
  • the broadcast program that is the target of the current processing is not the processing of the predetermined section. It is also possible to perform all scene change detection processing after the completion of the audio segment processing for all the predetermined sections of the program, and perform predetermined PU processing after all the scene change detection processing is completed.
  • FIG. 50 shows another example of an operation flowchart for performing predetermined signal processing from the audio segment detection point and the scene change detection point in the case of the PU signal processing described above.
  • the processing is started, first, in the first step T1, predetermined speech segment processing as described in steps P1 to P9 in the flowchart shown in FIG. 49 is performed.
  • the audio data is obtained by sequentially reading a predetermined data sample amount of data into a predetermined buffer memory.
  • step T2 The segment position information data subjected to the audio segment processing in step T2 is recorded in a predetermined memory means (data storage means, data recording means).
  • step T3 the broadcast program or program to be processed is processed.
  • the force is determined to have completed the predetermined segment processing. If it is determined not to end, the process returns to step T1 and the above processing is repeated, and if it is determined to end, the process returns to step T4. Transition.
  • step T4 the predetermined scene change process as described in step P11 to step P18 in the flowchart of FIG. 49 is performed.
  • the DCT data of the image is obtained by sequentially reading a predetermined data sample amount of data into a predetermined buffer memory.
  • step T5 Data of the scene change position information that has undergone the predetermined scene change processing in step T5 is recorded in predetermined memory means (data storage means, data recording means), and in step T6, the broadcast program or program currently being processed is recorded. If the DCT data of all images in the predetermined section is judged as the force at which the predetermined scene change process has been completed, and if it is determined not to be completed, the process returns to step T4 and the above process is repeated. Move on to step T7.
  • step T7 the predetermined memory means power data of predetermined audio segment position information and data of predetermined scene change position information are read out, and in step T8, predetermined PU processing is performed.
  • step T9 it is determined whether or not the predetermined PU processing has been completed over all the predetermined sections of the broadcast program, program, etc. that are currently being processed. If it is determined that the processing has ended, the process ends and does not end. If it is determined, return to ⁇ 7 and repeat the above operation.
  • the editing processing apparatus 500 includes two recording / playback systems 550 and 560 controlled by a system controller system 521.
  • the two recording / playback systems 550 and 560 include a feature extraction processing system 522 and a playlist generation processing system. Share 523.
  • the first recording / playback system 550 is an audio / video encoding system in which audio data and image data are input from an audio AZD conversion processing system 501 that converts an audio signal to AZD and an image that converts A / D from an image signal.
  • a recording processing system 504 for recording the recording data supplied from the video / audio encoding system 503 on a recording medium 505, a reproduction processing system 506 for reproducing data from the recording medium 505, and a reproduction obtained by the reproduction processing system 506
  • Image audio decoding system 507 to which data is supplied audio DZA conversion processing system 508 and image DZA conversion processing system 509 for outputting audio data and image data obtained by the above image audio decoding system 507 after DZA conversion, and the above
  • a medium file control system 510 for driving the recording medium 505 and a feature file / playlist file detection system 524, etc., to which reproduction data obtained by the reproduction processing system 506 are input.
  • the second recording / playback system 560 is an audio / video encoding system in which audio data and image data are input from an audio AZD conversion processing system 511 for converting an audio signal to AZD and an image AZD conversion processing system 512 for A / D conversion of an image signal.
  • System 513 a recording processing system 514 for recording the recording data supplied from the video / audio encoding system 513 on a recording medium 515, a reproduction processing system 516 for reproducing data from the recording medium 515, and a reproduction obtained by the reproduction processing system 516.
  • Image audio decoding system 517 to which data is supplied, audio DZA conversion processing system 518 and audio DZA conversion processing system 519 for outputting audio data and image data obtained by the above image audio decoding system 517 by DZA conversion, and the above A media file control system 520 for driving the recording medium 515, and a feature file / playlist file detection system 525, etc., to which playback data obtained by the playback processing system 516 are input.
  • the image and audio encoding systems 503 and 513 of the first and second recording / reproducing systems 550 and 560 are connected to the feature extraction processing system 522, and the playlist generation processing system 523 connected to the feature extraction processing system 522 is the first.
  • the second recording / reproducing systems 550 and 560 are connected to the recording processing systems 504 and 514, respectively.
  • a user input IZF system 526 and a display system 527 are connected to a system controller system 521 that controls the operations of the first and second recording / reproducing systems 550 and 560.
  • the editing processing device 500 transmits audio data and image data obtained by the image / audio decoding system 517 of the second recording / reproducing system 560 to the image / audio encoding system 503 of the first recording / reproducing system 550 in the editing mode. Entered.
  • audio data and image data obtained by the playback processing system 516 of the second recording / playback system 560 are input to the recording processing system 504 of the first recording / playback system 550.
  • the operation principle of the editing processing apparatus 500 in the editing mode and copy mode will be described.
  • the feature data is the same as the feature data unless otherwise specifically described, the feature data extracted and detected from the predetermined signal itself and the data obtained by extracting and detecting the feature data from the predetermined signal itself with the predetermined calculation processing. To do.
  • the start position and end position of the position information are the frame number, presentation 'time' stamp (PTS), decoding time stamp (DTS), or recorded video file. It is possible to use relative information such as the recording start force and other time information data that can detect the frame position.
  • position information data of predetermined data is described as a start position, an end position, and the like.
  • the image audio data is processed and recorded in accordance with a predetermined MPEG (Motion Picture Coding Experts Group) standard for the sake of simplicity.
  • MPEG Motion Picture Coding Experts Group
  • feature data voice features that indicate the presence or absence of a voice segment, speaker voice, detection of musical sound, etc.
  • telop features that indicate in which area the telop appears, and in which areas a specific color appears
  • the frame rate is assumed to be 30 frames per second, for example, and it is assumed that each feature extraction process is performed every 0.5 seconds, that is, every 15 frames.
  • camera features that show features such as camera pan and zoom based on motion vectors.
  • the average power in a 0.5 second section is used as feature data, and this average power is calculated sequentially.
  • the voice signal is determined to be present.
  • feature data is the fast Fourier transform (FFT) calculation value or continuation length for a predetermined interval.
  • characteristics of variance such as the voice level variance is greater than a predetermined threshold compared to music, etc. Judgment is made between speaker speech and musical sound signal with a certain degree of accuracy from characteristics such as differences in level fluctuations.
  • the voice level variance is used as the feature data.
  • the telop feature has an edge in the telop part and high-frequency components in the edge part, so the area on the screen as shown in Fig. 52 is assumed and the AC coefficient of the discrete cosine transform (DC T) is detected. Then, an AC coefficient equal to or greater than a predetermined threshold value is calculated for each macroblock in a predetermined area, and the identification data (ID) for identifying the calculated value and the detected area is used as feature data.
  • ID identification data
  • the number of macroblocks of a specific color is detected from the DCT DC coefficients of the luminance signal Y and color difference signals Cb, Cr, for example, for each region shown in FIG.
  • the feature number is the number of colors and the identification ID of the detected specific color.
  • 53A and 53B show an example of a feature data file in which each of the above-described feature data is written in a predetermined format to have a predetermined file structure.
  • feature data is detected every 15 frames as described above, and each feature data is written to a file for a frame section in which the voice average level is detected to be equal to or greater than a predetermined threshold.
  • the audio feature, telop feature, and color feature feature data described above are sequentially written in accordance with a predetermined format after the start frame and the end frame.
  • FIG. 53B shows a part of a specific example of the feature data file written according to a predetermined format.
  • a voice section is detected, the start position (frame number etc.) of the section is 100, the end position (frame number etc.) is 130, the voice average level is 70, the voice ID of that section is 01, In the section, it can be seen that the number of detected edges is 200 in the telop detection area 05, and the color ID is 01 in the color feature area 01.
  • the area of the telop feature and the color feature and the area ID for identifying the area are assigned as shown in FIG.
  • the above-mentioned voice ID and color ID can be set according to the voice feature and power error feature as shown in FIGS. 54A and 54B, for example.
  • a summary playback (digest playback) section is determined by a predetermined process.
  • the common section of the speaker voice section by the voice feature, the telop detection section by the telop feature, and the person detection section by the color feature is detected, and the detection section is skipped and played sequentially. In this way, digest playback is performed.
  • Such digest playback can be performed by a predetermined operation if the playback start position and playback end position of each skip playback section are known, as shown in FIG. 55.
  • the playback start position data and playback end position data are It is written in a predetermined file as a playlist file.
  • the playlist file A shown in FIG. 56 is an example of the playlist file described above.
  • the start position is shown as data on the left column and the end position is shown as data on the right column so that it can be easily divided. .
  • the playlist data is generated by a predetermined algorithm (for example, as shown in FIG. 7 above) after each feature data as described above is extracted and detected in all predetermined recording areas. And written to the file in a predetermined format.
  • the playlist file for video file 1 is playlist file A
  • the playlist file for video file 2 is playlist file A as shown in FIG. You can generate (copy) the contents of the file as playlist file B! ,.
  • the copied video file can be immediately digest-reproduced using the feature data.
  • the copied video file B is not automatically created as a playlist file. If there is no playlist file, the corresponding feature data file must also generate a playlist file.
  • each feature data is read and a predetermined process is performed, and a predetermined digest reproduction cannot be immediately performed.
  • FIG. 57 shows that the portion of the original video file 1 from the start position (such as frame number) 1000 to the end position (such as frame number) 9000 is cut out and edited as video file 2.
  • the playlist file As for the playlist file, the video file 2 generated by editing is not the same as the original video file 1. Therefore, the playlist file A has a predetermined number corresponding to the frame number edited in the data of the playlist file A. It is necessary to extract the range data and generate the playlist file B1 corresponding to the edited video file 2.
  • the start position (frame number etc.) of video file B is 100 0, so in the original playlist file A, find the data closest to 1 000 at the start position (frame etc.) 1000 or more. Considering this, the data of the start position (frame number, etc.) 183 0 and end position (frame number, etc.) 2000 is applicable.
  • the start position (This corresponds to the data of 7800 and the end position (frame number, etc.) 8500.
  • the edit position such as the start position or end position of the edited video file does not fall between the start position and end position of the data pair in the playlist data file.
  • the start position of the edited video file is 900 and the end position is 9500, it falls between the data pair of the start position and end position of the playlist data file.
  • the start position 900 of the edited video file 2 is located between the start position 700 and the end position 1000 that are the original playlist file A data pair.
  • playlist file A has a starting position of 700 or more and the closest starting position is 1830.
  • the edited video file B starts at positions 900 to 1000. Included in the digest playback section of list file A, and there may be key frames in the digest playback section, so the playlist should be played back in the 900 to 1000 section of the edited video file 2. Process to become data.
  • the starting position force of the edited video file For example, in the case of 998, the power that can be a digest playback section from 998 to 1000 This section has a short playback time, so it is possible to grasp the playback content of this section Since it is difficult and it may be bothersome for the user because it is a short playback section, a predetermined threshold value th is set, and if the playback section is less than or equal to the threshold th, that section is regarded as playlist data. It is desirable to avoid this process.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

 本発明は、画像音声ファイルを編集、コピーなど所定のファイル処理を行う場合に、その画像音声ファイルに対応する特徴データファイル又はプレイリストファイルを効率良く処理し、要約再生を効率良く実現する情報信号処理方法であり、記録媒体に記録されている第1の情報データを用いて、所定の動作モードの場合に、記録媒体又は他の記録媒体に所定の処理設定に応じた第2の情報データとなるように第1の記録処理を行い、所定の動作モードで、第1の情報データに関連付けられた第3の情報データが記録されていると検出できる場合には、第3の情報データを用いて第4の情報データとなるように第2の記録処理を第1の記録処理に伴って行う。

Description

情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録 媒体
技術分野
[0001] 本発明は、例えば放送番組における映像信号、音声信号などの画像音声データを MPEG (Moving Picture Export Group)など所定の帯域圧縮処理を行い、光磁気デ イスク、ハードディスク(HDD : Hard Disk Drive)、半導体メモリなどの記録媒体に記 録し再生する記録再生装置にお 、て、所定の要約再生 (ダイジェスト再生)処理など の特殊再生動作を行う場合の情報信号処理方法、情報信号処理装置及びコンビュ ータプログラム記録媒体に関する。
本出願は、日本国において 2004年 8月 10日に出願された日本特許出願番号 200 4— 233942を基礎として優先権を主張するものであり、この出願は参照することによ り、本出願に援用される。
背景技術
[0002] 従来、 VTR (Video Tape Recorder)やディスク記録再生装置にお!/、て、長時間記 録した記録内容を時間を短縮して再生してその内容を把握する場合に、音声情報の 理解速度を考慮しておおよそ 1. 5〜2倍速程度で再生処理が行われている。
さらに、時間短縮して再生しその要約再生 (ダイジェスト再生)を行おうとすると、高 速で再生した音声出力では音声の内容が理解できにくいため、無音とし画像出力の みの再生処理を行うようにして ヽる。
行うことが一般的であった。
そこで、記録する放送番組の画像音声データ (画像音声情報信号、画像音声信号 、画像音声情報データ)に現れる特徴などに基づいて、所定の特徴データを抽出し て、その所定の特徴データを用いてキーフレーム(重要フレーム)と思われるキーフレ ーム区間の検出を行い、予め決めた所定の規則に従って、所定のキーフレーム区間 を順次選択して再生することで、元の記録した放送番組の記録時間よりも短!ヽ所定 時間内で要約再生 (ダイジェスト再生)を行うことがある。 また、記録した画像データの所定区間において、一定時間間隔、例えば 3分、 5分 、 10分などの間隔毎に再生位置を示す位置情報データを自動で生成する力、又は 、ユーザが手動で所望の位置に位置情報データを生成する、いわゆるチヤプタデ一 タ生成を行い、その位置情報データ (チヤプタデータ)を利用して、スキップ再生、編 集操作、サムネール画像表示を行う。
発明の開示
発明が解決しょうとする課題
ところで、記録した放送番組における画像音声の所定の特徴データを検出したフレ ーム番号などの位置情報と対応付けたデータファイルを、記録した放送番組のフアイ ルと関係付けて生成されることが提案されている。そして、最近では、ハードディスクド ライブと DVD (Digital Versatile Disc)などの光ディスクドライブの両方を備え、ハード ディスクで記録した放送番組の中で所望の番組を DVDにコピーし記録してライブラリ として残しておく場合や、番組の中で所望の区間を編集して DVDに記録を行うように した装置が用いられている。
このように放送番組を記録した画像音声ファイルを編集やコピーを行う場合に、編 集又はコピーして生成された画像音声ファイルに対しても上述したような特徴データ を用いたダイジェスト再生を行うには、特徴データ、特徴データカゝら生成されるプレイ リストデータが必要であり、編集又はコピーして生成された画像音声ファイル力 改め て特徴抽出やプレイリストデータ生成することもできる力 元々、特徴データ、プレイリ ストデータがあるので効率的な処理法ではない。
上述した特徴データは、画像信号と音声信号毎に複数種類の特徴にっ ヽて特徴 データを抽出することができ、各々の特徴データを例えば、画像音声データの記録 の際に抽出処理を行い、その画像音声データとともに特徴データを記録媒体に記録 する。
これら記録された特徴データを読み出して所定のルール処理により要約再生 (ダイ ジ スト再生)を行う区間を決定する信号処理を行うことになるが、複数存在する特徴 データを各々別々にファイルとして記録媒体に記録したのでは、ファイルの数が多く なり、信号処理の際におけるファイルの取扱いが煩雑になり効率的ではない。 また、編集処理やコピー処理などにおいて、記録時に特徴抽出し関係付けて生成 された特徴データファイル又は特徴データから所定の処理により生成されるプレイリ ストファイルの処理方法にっ 、ては適切な技術の提案はなされて 、な 、。
そこで、本発明の目的は、上述の如き従来の実情に鑑み、特徴データを用いる効 果的な要約再生 (ダイジェスト再生)動作又はチヤプタ処理を行うために、特徴データ を効率良く処理し、効果的な要約再生 (ダイジェスト再生)、チヤプタデータを用いる 種々の動作を効率良く行うための情報信号処理方法、情報信号処理装置及びコン ピュータプログラム記録媒体を提供することにある。
本発明に係る情報信号処理方法は、所定の記録媒体に記録されている所定の第 1 の情報データを用いて、所定動作モードの場合に記録媒体又は別の記録媒体に所 定の処理設定に応じた所定の第 2の情報データとなるように所定の第 1の記録処理 を行い、所定動作モードで、第 1の情報データに関連付けられた所定の第 3の情報 データが記録されていると検出できる場合には、第 3の情報データを用いて第 4の情 報データとなるように所定の第 2の記録処理を第 1の記録処理に伴って行う。
また、本発明に係る情報信号処理装置は、所定の記録媒体に記録されている所定 の第 1の情報データを用いて、所定動作モードの場合に記録媒体又は別の記録媒 体に所定の処理設定に応じた所定の第 2の情報データとなるように所定の第 1の記 録処理を行う第 1の信号処理部と、所定の動作モードで、第 1の情報データに関連付 けられた所定の第 3の情報データが記録されていると検出できる場合には、第 3の情 報データを用いて第 4の情報データとなるように所定の第 2の記録処理を第 1の記録 処理に伴って行う第 2の信号処理部とを備える。
さらに、本発明に係るプログラム記録媒体は、所定の記録媒体に記録されている所 定の第 1の情報データを用いて、所定動作モードの場合に記録媒体又は別の記録 媒体に所定の処理設定に応じた所定の第 2の情報データとなるように所定の第 1の 記録処理を行い、所定動作モードで、第 1の情報データに関連付けられた所定の第 3の情報データが記録されていると検出できる場合には、第 3の情報データを用いて 第 4の情報データとなるように所定の第 2の記録処理を第 1の記録処理に伴って行う 制御プログラムがコンピュータにより読取実行可能に記録されて 、る。 本発明によれば、画像音声ファイルを編集やコピーなどのファイル処理を行う場合 に、そのファイル処理により生成された画像音声ファイルに対応する適切な特徴デー タファイル又はプレイリストファイルを自動的に生成するので、ファイル処理の後、すぐ に特徴データによるダイジェスト再生を行うことができる。
編集、コピーなど所望のファイル処理を行う場合に、編集、コピーの結果、生成され た画像音声ファイルに対応したと特徴データファイル、プレイリストファイルが自動的 に生成されるので、ユーザは煩わ 、操作を行う必要がな 、。
本発明により、ユーザが、本発明のような特徴データを用いたダイジェスト再生の編 集機能など、所定のある機能が搭載されて 、な 、記録再生装置を購入した後でも、 その機能が欲 、と思った場合に購入した装置そのものにその機能を容易に動作可 能な状態とすることができる。
このように基本的な機能だけを装備した記録再生装置を初期段階で販売し、その 後、色々な各ユーザの要望に応じて自分の欲 、機能を購入した装置そのものに容 易に後から装備することができるので、ユーザは効率的にその装置を購入することが できる。
本発明のさらに他の目的、本発明によって得られる具体的な利点は、以下におい て図面を参照して説明される実施の形態から一層明らかにされるであろう。
図面の簡単な説明
[図 1]図 1A〜図 1Gは、本発明を適用した記録再生装置における要約再生、チヤプ タ処理の動作を示す図である。
[図 2]図 2は、チヤプタ処理による表示の一例を示す図である。
[図 3]図 3は、記録再生装置における処理プロセスの一例を示すブロック図である。
[図 4]図 4は、記録再生装置における規則処理を示すブロック図である。
[図 5A]図 5Aは、記録再生装置における意味付け処理と特徴データの関係の一例を 示す図である。
[図 5B]図 5Bは、記録再生装置における意味付け処理と特徴データの関係の一例を 示す図である。
[図 6]図 6A〜図 6Cは、記録再生装置における規則ファイル書式の一例を示す図で ある。
圆 7]図 7は、記録再生装置における評価値の演算処理方法の一例を示す図である
[図 8]図 8A〜図 81は、記録再生装置における時間補正関数の一例を示すグラフで ある。
圆 9]図 9は、記録再生装置における時間補正関数の一般型の一例を示すグラフで ある。
[図 10]図 10は、記録再生装置におけるビデオデータの構造の一例を示す図である。
[図 11]図 11は、記録再生装置における再生ユニット間の接続関係の一例の図である
[図 12]図 12A、図 12Bは、記録再生装置における再生ユニット間の意味付け処理の 一例を示す図である。
[図 13]図 13A、図 13Bは、記録再生装置における規則 2処理の一例を示す図である
[図 14]図 14は、記録再生装置における時間補正関数の一例を示すグラフである。
[図 15]図 15A、図 5Bは、記録再生装置における規則ファイルの構成の一例の説明 図である。
[図 16]図 16A〜図 16Dは、記録再生装置における本発明の処理プロセスの一例を 示す図である。
[図 17]図 17は、本発明を適用した記録再生装置の構成例を示すブロック回路図であ る。
[図 18]図 18は、記録再生装置における各種所定データ記録状態の一例を示す図で ある。
[図 19]図 19は、記録再生装置における表示の一例を示す図である。
[図 20]図 20は、本発明を適用した記録再生装置の他の構成例を示すブロック回路 図である。
圆 21]図 21は、記録再生装置における音声系特徴抽出処理系の構成の一例を示す ブロック回路図である。 [図 22]図 22は、記録再生装置における音声系特徴抽出処理系の構成の他の例を示 すブロック回路図である。
[図 23]図 23は、記録再生装置における映像系特徴抽出処理系の構成の一例を示す ブロック回路図である。
[図 24]図 24は、記録再生装置におけるシーンチェンジ処理を示す図である。
[図 25]図 25は、記録再生装置におけるテロップ、カラー特徴検出領域の一例を示す 図である。
[図 26]図 26は、記録再生装置における類似画像特徴の一例を示す図である。
[図 27]図 27は、記録再生装置における人物特徴検出領域の一例を示す図である。
[図 28]図 28は、記録再生装置における人物検出処理の一例を示す図である。
[図 29]図 29は、記録再生装置における人物検出(人数判定)処理の一例を示す図で ある。
[図 30]図 30は、記録再生装置における人数検出処理の一例を示す図である。
[図 31]図 31は、記録再生装置における人数検出処理の一例を示す図である。
[図 32]図 32は、記録再生装置における人数検出処理の一例を示す図である。
[図 33]図 33は、記録再生装置における人数検出処理の一例を示す図である。
[図 34]図 34A〜図 34Eは、記録再生装置における再生ユニット処理の一例を示す図 である。
[図 35]図 35A、図 35Bは、記録再生装置における再生ユニット処理の一例を示す図 である。
[図 36]図 36は、記録再生装置における CM (コマーシャル)検出処理の一例を示す 図である。
[図 37]図 37は、記録再生装置における再生ユニット処理系の構成例を示すブロック 図である。
[図 38]図 38は、記録再生装置における特徴データファイルの構成の一例を示す図 である。
[図 39]図 39は、記録再生装置における特徴データファイルの構成の一例を示す図 である。 [図 40]図 40は、記録再生装置における特徴データファイルの構成の一例の説明図 である。
[図 41]図 41は、記録再生装置における再生ユニットデータの階層構造の一例を示す 図である。
[図 42]図 42は、記録再生装置における再生ユニットデータの階層構造の一例を示す 図である。
[図 43]図 43は、記録再生装置における再生ユニット映像特徴データの構成の一例を 示す図である。
[図 44]図 44A、図 44Bは、記録再生装置におけるプレイリスト(要約)データの一例を 示す図である。
[図 45]図 45は、記録再生装置の動作の一例を示すフローチャートである。
圆 46]図 46は、記録再生装置における記録時間と選択可能要約再生時間の関係の 一例を示す図である。
圆 47]図 47は、記録再生装置における記録時間と自動設定チヤプタ数一例を示す 図である。
[図 48]図 48は、記録再生装置の記録動作の一例を示すフローチャートである。
[図 49]図 49は、記録再生装置の再生動作の一例を示すフローチャートである。
[図 50]図 50は、記録再生装置の再生動作の他の例を示すフローチャートである。
[図 51]図 51は、本発明を適用した編集処理装置の構成例を示すブロック図である。
[図 52]図 52は、編集処理装置における特徴データの検出領域を示す図である。
[図 53]図 53A、図 53Bは、編集処理装置における特徴データファイルを示す図であ る。
[図 54]図 54A、図 54Bは、編集処理装置における特徴データの識別データ IDの一 例を示す図である。
[図 55]図 55は、編集処理装置におけるプレイリストデータを示す図である。
[図 56]図 56は、編集処理装置におけるコピー処理モードの動作を示す図である。
[図 57]図 57は、編集処理装置における 1ファイル編集処理モードの動作を示す図で ある。 [図 58]図 58は、編集処理装置における 1ファイル編集処理モードの動作を示す図で ある。
[図 59]図 59は、編集処理装置における 1ファイル編集処理モードの動作を示す図で ある。
[図 60]図 60は、編集処理装置における 1ファイル編集処理モードの動作を示す図で ある。
[図 61]図 61A、図 61Bは、編集処理装置における 1ファイル編集処理モード時に特 徴データファイルの編集処理の動作を示す図である。
[図 62]図 62A〜図 62Dは、特徴データファイルの編集処理を示す図である。
[図 63]図 63は、編集処理装置における複数ファイル編集処理モードの動作を示す 図である。
[図 64]図 64A〜図 64Hは、編集処理装置における複数ファイル編集処理モードの 動作を示す図である。
[図 65]図 65は、本発明を適用した編集処理生装置の他の構成例を示すブロック回 路図である。
発明を実施するための最良の形態
以下、本発明の実施の形態について、図面を参照して以下の順序で詳細に説明 する。なお、本発明は、以下の例に限定されるものではなぐ本発明の要旨を逸脱し な!、範囲で、適宜変更可能であることは言うまでもな 、。
(1)本発明を適用したシステムの概要
1. 1 特徴データを用いた要約再生及びチヤプタ点設定処理
ここでは、本発明の動作処理概要について説明する。
下記の動作概要に関係する信号処理については、ここでの項目の他に後の項目 で詳細に説明する。
下記の説明でプレイリストデータ生成に関し、特別に記述する他に、特別に記述し ない場合でもプレイリストデータ生成とチヤプタデータを一緒に生成処理するものとし てもよい。
特徴データを用いた要約再生 (ダイジェスト再生)及びチヤプタ処理の説明図を図 1 の(A)〜(G)に示す。
まず、特徴データを用いた要約再生動作につ!、て説明する。
(特徴データを用いた要約再生 (ダイジェスト再生)処理)
ここで、図 1Aに示すような画像音声データ系列があると想定する。
この画像音声データ系列は、放送番組や映画ソフトその他などがあり、ハードデイス ク (HDD)や光磁気ディスク、大容量半導体メモリなど所定の記録媒体を用いて、 M
PEG (Moving Picture Export Group)など所定の帯域圧縮信号処理を用いて記録及 び再生処理を行うものとする。
画像音声データ系列において、所定の意味を設定し、シーンチェンジ、音声セグメ ントなどに応じて所定のビデオ構造 (意味的ビデオ構造)に区切った所定区間の概 念図を図 1Bに示す。
この所定の意味の設定処理、所定区間の設定処理、ビデオ構造などについては後 述する。
ここで、図 1Cに示すように、意味毎に区切った各々の所定区間毎に、所定時間内 に記録された全区間、所定プログラム区間など、所定の全区間 (所定全区間)におけ る各々の区間の所定の評価値を設定する。この評価値が設定された区間を、それぞ れ所定評価値区間 (評価データ区間)とする。
ここで、「所定時間内に記録された全区間」とは、番組の枠にとらわれず、ある所定 時間分の画像音声データがあった場合に、その画像音声データの全区間を示す。 また、「所定プログラム区間」とはある 1つの番組の画像音声データがあった場合に 、その番組の枠の全区間を示す。
ここで、所定の評価値は所定全区間における所定キーフレーム区間(重要フレーム 区間、重要 (画像音声)区間)となる場合ほど、高い評価値 (評価データ)を設定する と仮定する。
すなわち、評価値が高く設定された区間 (重要評価値区間)を再生すれば、その区 間にはキーフレーム区間が含まれるので、全区間を再生しなくても概要を把握するこ とがでさること〖こなる。
図 1Cは、所定評価値区間の概要を示すもので、図 1 Aに示す画像音声データ系列 で、 fl〜f2、 f4〜f5、 f7〜f8の各区間が評価値において設定したしきい値 Th以上 の区間で、図 1Dに示すように Al、 A2、 A3の各区間を所定の要約再生モード時に スキップ再生することで所定の要約再生 (ダイジェスト再生)行うことになる。
(特徴データを用いた自動チヤプタ処理)
図 1Eは、チヤプタ点を設定する場合の概念図であり、先に説明したような、所定キ 一フレーム区間(重要フレーム区間)の先頭又はその近傍、及び、そのキーフレーム の区間の最後に続く(最後に接続する)キーフレーム区間ではない区間の先頭又は その近傍にチヤプタ点を設定する。
ここで、例えば、従来用いられている DVD (Digital Versatile Disc)記録再生装置で 自動チヤプタ機能と言われる所定区間の区切り点を設定することで、その時点を編集 操作の目安にしたり、早送りフォワード再生 (FF再生)、早送り逆再生 (リワインド再生 、 REW再生)などの場合に利用できることができる。
従来、上述した自動チヤプタ機能として、例えば、 5分等間隔、 10分等間隔、 15分 等間隔などのように時間間隔を等間隔とした処理が知られており、このようなチヤプタ 処理では図 1Gに示すように、キーフレームと思われる時点の開始点にはチヤプタ点 を設定できない場合がある。
また、従来、手動チヤプタ処理という、ユーザ自身が、所望するに任意の時点にチ ャプタ点を設定できる機能が知られているが、この機能は、ユーザ自身が記録した、 あるいは記録する番組 (プログラム)を実際に見て設定処理を行うことになるので、ュ 一ザにとっては面倒な操作であり、効率的ではな!/、。
これに対し、本発明の特徴データを用いたチヤプタ点設定処理 (所定時点設定処 理、所定位置設定処理)では、図 1Eに示すように、適切にキーフレーム区間の先頭 又はその近傍と、そのキーフレーム区間の最後に接続され、又は最後に続くキーフレ ーム区間ではない区間の先頭又はその近傍にチヤプタ点を自動的に設定処理する ことができるので、従来のチヤプタ処理よりも、より効果的なチヤプタ点設定を行うこと ができる、このチヤプタ処理を用いた効果的な編集操作 (編集処理)や、 FF再生、 R EW再生を行うことができる。
ここで、図 1Fに示す自動設定したチヤプタ点を所定の大きさのサムネール画像とし て所定の画像モニタに表示させる場合の概念図を図 2に示す。
図 1Fに示すように、 fl、 f4、 f7が各々、所定キーフレーム区間 Al、 A2、 A3の先頭 又はその近傍で、 f3、 f6、 f9が各々 Al、 A2、 A3の区間の後のキーフレーム区間で はない区間 Bl、 B2、 B3の先頭又はその近傍であり、ユーザは図 2に示すような表示 画面を見ることで、例えば、記録再生装置の記録媒体であるハードディスクに記録さ れた放送番組の編集操作において、図 1Dに示すキーフレーム区間 Al、 A2、 A3を 切り出し、 DVD (Digital Versatile Disc)などのディスク記録媒体に記録することなど の処理や、 fl、 f4、 f 7の時点にスキップ再生するなどの操作を想定する。
図 1Gに示す従来の所定時点設定点 (チヤプタ点、所定位置設定点)の一例を示す ように、所定の一定間隔、例えば、 5分間隔、 10分間隔などの一定間隔又は略一定 間隔で設定点 (チヤプタ点)が設定処理されるが、図 1C、図 1G力も分力るように、必 ずしもキーフレーム(重要フレーム)に設定されるとは限らな!/、。
このように本発明における特徴データを用いて自動的に所定のチヤプタ点 (所定設 定点、又は所定区切り点)又はセグメント処理を行うことで、より効果的な編集操作や スキップ再生を行うことができる。
1. 2 本発明の処理プロセスの一例
次に、本発明における処理プロセスの一例を図 3に示す。
図 3に示す処理プロセスでは、 MPEG画像音声ストリームデータから、画像系及び 音声系の各特徴データを抽出する特徴抽出処理(2)を含んでいる。
ここでは、簡単のため MPEGストリーム(1) (MPEGデータ)は、所定記録媒体に記 録する、又は、所定記録媒体に記録されているデータを想定している力 例えば、所 定の伝送系(有線系又は無線系)において伝送される画像音声データにおいても同 様に本発明を適用することができる。
特徴抽出処理 (2)は、記録処理と同時に行うことができるが、所定の記録媒体に既 に画像音声データが記録されて 、る場合には、その記録媒体から再生して所定の特 徴抽出処理を行うこともできる。
ここで、規則処理 (ルール処理)について説明する。
この規則処理は、ルールが所定の様式で記述されたルールファイル、又はルール データを用いて所定の処理が行われる。
ルールファイルは、例えば、番組ジャンルに応じた、特徴データに基づくルールが 記述されており、このルールファイルと所定区間の各特徴データが記述された PU特 徴データファイル (再生ユニット特徴データファイル)との演算により、所定プレイリスト ファイルが生成されることになる。
ここで、説明を分力りやすくするため、便宜上、所定番組ジャンル nに対するルール ファイルを Rf (n)、 PU特徴データファイルを Pu、プレイリストファイルを Dfとし、所望 の要約時間を tとすると、以下の(1)式のような演算で表現できる。
Df=Pu ( * )Rf (n) ( * ) t · · · (1)
ここで、( * )は所定ファイルのデータを用いた所定の演算子と仮定する。
ルールファイル Rf (n)は、以下で説明するように、例えば、所定の書式で記述され、 所定の時間補正関数、意味、意味の重み付け係数 (評価値、重要度)などの所定パ ラメータのデータなどにより構成されている。
(再生ユニット処理)
特徴抽出処理(2)の後は、本発明の特徴の 1つである PU処理(3) (再生ユニット処 理)を行う。
PU処理(3)にお 、て、各特徴データは、 PU (再生ユニット) t 、う区切り(4)で所定 のデータ (PU特徴データファイル)として所定の記録媒体又はバッファメモリに記録( 記憶)される。
(規則 1処理)
PU特徴データファイルは、所定の規則 1処理(5)により PUの意味付け処理が行わ れる。後で説明するが、規則 1処理 (5)の概要は次の通りである。
(処理 1) 各特徴データの取出し
(処理 2) 特徴データの組合せ力 第 1ルールで表現されている意味の中で最も条 件を満たすものを選択
(処理 3) 選択された意味をその PUの意味として採用
この規則 1処理(5)では、 EPG (電子番組ガイド)その他により、番組ジャンル、又は 、過去にユーザが視聴した番組ジャンル、時間帯、再生回数、再生時刻、再生日時 、その他などのパラメータ、サイド情報などが利用できる場合には、これらパラメータを 考慮して所定の処理を行うようにしてもょ 、。
この処理に関連して行われる時間補正関数の処理については後述する。
(規則 2処理)
意味付けされた PU (6)は、所定の規則 2処理 (7)で所定の評価値処理が行われる 規則 2処理(7)では、次の(処理 1)及び (処理 2)の重要度につ 、ての評価値処理 を行う。
(処理 1) 意味の重要度
(処理 2) 意味の出現パターンによる重要度
所定の評価値処理が行われた PU (8)では、 PU単体、又は、 PUが幾つ力連結さ れた PU群で所定の評価値が付けられて 、る。
ここで、規則 1処理(5)、規則 2処理(7)では、図 4に示すように、ルール切替処理 系 900により、複数の番組ジャンルに応じたルール処理データとして、ジャンル A規 則データ、ジャンル B規則データ、ジャンル C規則データ、 · · ·と幾つかの規則処理 用データ (ルール処理データ)を備え、システムコントローラ系 20に入力した番組ジャ ンル情報データに応じて、規則 1処理(5)、規則 2処理(7)、又は、何れか一方のル ール処理を切り替える。
また、図 4に示すように、個人別にルール処理用データを幾つ力設けて切り替える。 この場合は、所定動作モードにおいて、システムコントローラに入力された所定のュ 一ザによる設定処理により、個人 1用規則処理データ、個人 2用規則処理データ、個 人 3用規則処理データ、 · · ·の何れかが、システムコントローラ系 20を介して選択処 理され、その選択された規則処理データに基づ!、て所定のルール処理が行われる。 図 4に示すような個人別の規則処理データを設けることで、例えば個人別に、通常 再生又は特殊再生などの所定再生動作を行い、その再生状態、再生位置などの動 作情報、動作位置情報などを所定の個人別規則処理に反映できるように所定メモリ 手段に記憶して、それら情報データを所定の学習処理により、個人別規則処理デー タとして、随時、所定のタイミングでデータを更新処理するなどの動作を行うことにより 個人別学習処理には有効な信号処理方法となる。
図 4に示すように、ルール切替処理系 901により各個人別ルール処理 (規則処理) を切り替える場合も、規則 1処理 (5)、規則 2処理 (7)、又は、どちらか一方のルール 処理を切り替える。
(規則処理の書式)
(規則 1処理の場合)
ここで、意味付け処理された PUは、例えば、ある放送番組を想定した場合に、以下 のような英文字と意味を設定して、所定の画像音声特徴データと関連させて記述す る。
文字に対する意味付けは、その放送番組においてキーフレーム (重要フレーム、重 要シーン)と想定されるであろうシーン、又は要約再生、チヤプタ設定などに有効と想 定される所定の記録、再生区間を選択して記述する。
また、ユーザが所望するシーンを記述する。この場合は、所定の調整モードなどで 、ユーザが所望するルールを記述できるようにする。
ここで、図 5A、図 5Bの上段に示すように、ニュース番組、相撲番組の場合の一例 につ 、て示すと次の表 1のようになる。
表 1:ニュース (報道)番組の場合の一例
Figure imgf000016_0001
ここで、図 5Aに示す例では、 aでアナウンサーのシーンを抜き出すルールを記述し ているが、 1つの規則処理では、全ての想定される aのシーン(アナウンサーの出現シ ーン)を抽出することはできないと思われるため、幾つかの複数の規則に分けて記述 するよう〖こする。
図 5A中の b, c, d, eなど他の場合についても同様に複数の規則に分ける。 相撲番組の場合では、次の表 2のようになる。
表 2:相撲番組の場合の一例
Figure imgf000017_0001
図 5Bに示す例においても、 aの取組み紹介シーンにおいて、全ての想定される aの シーン、例えば、対戦に関連する力士、行司、審判員等の全員を抽出することができ ないものと想定されるので、幾つかの複数の規則に分けて記述するようにする。例え ば、各文字に対して複数の規則を設定する。また、場合に応じて、抽出したいシーン (キーフレーム)の想定される規則を分けて記述を行う。
放送番組では、一義的に意味付けできないシーンも想定できる。例えば、定義文 字を @とし、次の表 3のように設定することもできる。
表 3
Figure imgf000017_0002
上述のように設定した定義文字 (設定文字、意味文字)に対する規則 1処理につい て、ニュース番組の場合を例に具体的に説明する。
図 18に示すように、各所定の特徴データが検出される場合に、上述した-ユース番 組の場合の定義文字 a, b, c, d, eに対する各シーンが対応すると仮定する。
ここで、図 5A、図 5B中〇の場合は論理積、△の場合は論理和の所定処理と仮定 し、例えば、定義文字 a のアナウンサーのシーンでは、音声特徴の属性が話者音声 、色特徴の検出領域 2又は検出領域 3で所定の色が検出され、類似画像情報の頻 度 1位又は 2位が検出され、人物特徴の検出領域 1又は検出領域 2又は検出領域 5 で検出され、カメラ特徴は静止の場合と想定できる。
他の b, c, d, eなども図 5A、図 5Bの各〇、△印に応じて、上述の aの場合と同様に 、各所定の特徴データと関係付けて、定義文字と特徴データとを関係付けることがで きる。
上述したように各定義文字と各特徴データは、所定の処理すなわち規則 1処理、規 則 2処理を行うため、所定の書式に従って記述する。
図 6Aは、その一例で、ベクトル成分のように想定して記述するものである。
すなわち、図 5A、図 5Bに示した各特徴データを、例えば、音声特徴の属性とし、 属性が話者音声であるときは Al、属性が音楽であるときは A2、属性がその他の場 合は A3とする。
映像特徴の色特徴で、領域 1は Bl、領域 2は B2などとする。
以下、同様に、各特徴に対して、 B1〜: B4、 C1〜C2、 D1〜D5、 E1〜E4、 F1〜F
4、 Glなどが設定できる。
図 6Aにおいて、例えば、定義文字 aの場合は、次の(2)式のように記述できる。 a=l.0(A1)100* (1.0(B2) 100+1.0(B3)100) * (1.0 (CI) 100+1.0(
C2) 100) * (1.0(D1) 100+1.0(D2) 100+1.0(D5)100) *1.0(F1)100
••••(2)
他の定義文字に対しても、図 6Aに示すように記述できる。
なお、ここで、「*」は論理積 (AND)、「 +」は論理和(OR)と同様の所定演算を表 現するものとする。
ここで、例えば、 1.0(A1) 100の記述について説明する。
上述したように、(A1)は、音声特徴で属性が話者音声の場合を表現している。
(重み付け係数)
1.0(A1) 100の 1.0は、(A1)に対する重み付け係数で、ここでは、便宜上、 0〜 1.0の範囲を想定している。
重み付け係数は、所定演算を行うための、便宜的な係数なので、重み付け係数は 、 0〜100、又は 0〜 10の範囲で設定 (記述)する。
(検出割合係数)
1.0(A1)100の 100は、(A1)に対する検出割合係数で、その再生ユニット区間 で、 100%検出される場合に、 1.0(A1)100は、その条件を満たすものとする。 例えば、 1. 0 (A1) 50の場合は、その再生ユニット区間で、 50%検出される場合に
、 1. 0 (A1) 100は、その条件を満たすものとする。
この検出割合については、下記の(3)式で説明する。
ここで、検出割合係数は、便宜上、 0〜: LOOの範囲を想定している。
検出割合係数は、所定演算を行うための、便宜的な係数なので、 0〜1の範囲で設 定することや、 0〜: LOの範囲で設定 (記述)する。
ここで、この検出割合係数は、その特性がその再生ユニット区間で検出できた割合 とすることができる。
例えば、上述の 1. 0 (A1) 100では、話者音声が 100%検出しなければ、(A1)の 特性を検出したと判定しないとすることができる。
例えば、 1. 0 (A1) 50では、 50%検出したらその特性を検出したと判定する。すな わち、その所定区間において、所定の特性が検出された割合を係数で表現できる。 (特徴データの検出割合)
そこで、特性の検出の割合について説明する。
処理方法については、図 34〜図 35を参照して後述するが、本発明では、音声セグ メント特徴とシーンチェンジ特徴に応じて設定処理される再生ユニット(又はプレイュ ニット) (PU)という所定の区間を設定する処理概念を導入している。
そこで、例えば、その PU区間全体に対する所定の特徴データが検出された割合で 、上述した各所定の特性の割合を演算する。
例えば、図 7において、ある再生ユニットの区間長(フレーム長、時間長など)を faと し、ある特徴データ Pの検出区間を fO, flと仮定すると、この場合の特徴データ Pの 検出割合 Fは、次の(3)式にて演算処理することができる。
F=∑fi/fa
= (f0+fl) /fa · ' · (3)
この(3)式による演算値は、後で説明する評価値処理において用いることになる。 (評価値の演算方法の例)(例 1)
評価値 (重要度)の演算方法の一例を示す。
各特徴データにっ 、て、理想値と検出結果を以下のように処理する。 例えば、 p=m (M) nとして次の(処理 1)〜(処理 5)を行う。
(処理 1) (3)式を用いて、各所定特徴データの検出割合 sを演算する。
(処理 2) 上記検出割合係数 nと比較して、
s< nの場合、 p=m X s · · · (4)
s≥nの場合、 p=m X 100 · · · (5)
とする。
(処理 3) 上記処理で、各特徴 Mにおいて、 Ml, Μ2 · · 'など同じ属性の特徴の場 合で論理和( + )処理の場合は平均処理を行う。
論理積(* )処理の場合は、便宜上、論理積係数 rというような処理概念を導入し、 その平均処理の結果に掛けた値とする。
(処理 4) 上述の処理を各特徴データ M毎に行い、各演算値の加算処理を行って その処理結果をその評価値とする。
(処理 5) 演算した評価値を比較して評価値が最も大き!/、場合の意味をその再生 ユニット aの意味とする。
上述の評価値処理は、処理方法の一例で、検出された特徴データ、又はその再生 ユニット区間において検出された割合などと、設定した「意味」との対応が所定の妥 当性を持った処理方法であれば、上記以外の処理方法でもよ 、。
例えば、上述の(処理 3)の処理で論理積処理の場合は、平均化処理や論理積係 数を掛けないで、同じ属性の特徴データを加算する処理だけにするなどすることが想 定される。
(処理 3)の処理の場合で、同じ特徴データで論理積処理の場合は、検出条件が論 理和処理の場合と比較して厳しくなるので、検出値を論理和処理の場合よりも大きく 取るように処理を行うことができる。
ここで、上述の(2)式の場合について説明する。
例えば、各特徴の検出割合を以下の表 4のようにし、検出割合係数、重み係数を一 緒に示す。
表 4 特徴 検出割合 検出割合係数 重み係数 P
A 1 1 0 0 1 0 0 1 . 0 1 0 0
B 2 8 0 1 0 0 1 . 0 8 0
B 3 8 0 1 0 0 1 . 0 8 0
C 1 1 0 0 1 0 0 1 . 0 1 0 0
C 2 1 0 0 1 0 0 1 . 0 1 0 0
D 1 8 0 1 0 0 1 . 0 8 0
D 2 8 0 1 0 0 1 . 0 8 0
D 5 8 0 1 0 0 1 . 0 8 0
F 1 8 0 1 0 0 1 . 0 8 0 ここで、 B2、 B3や、 Cl、 C2などのように同じ特徴の種類で、検出属性が異なる場 合や、あるいは検出領域が異なる場合などで、論理和処理(+ )の場合は、便宜上、 平均処理を求め、(2)式から、評価値 hは、次の(6)式にて示される。
h=100+ (80 + 80) /2+ (100+100) /2+ (80 + 80 + 80) /3 + 80
= 100 + 80+100 + 80 + 80
=440 ··· (6)
又は、特徴データの種類で平均化した値を評価値とすることができ、その場合は、 特徴データは、 A〜Fの 5種類なので、次の(7)式に示すような評価値とすることもで きる。
h=440/5
=88 ··· (7)
(属性が同じ特徴データ間の関係が論理積処理の場合)
ここで、(2)式の処理で、同じ属性の特徴データ、例えば、 B2、 B3が論理積処理の 場合、すなわち、(1.0(B2)100*1.0(B3) 100)のような場合について検討する。 上述の評価値処理の(処理 3)から論理積処理係数 rと ヽぅ概念を導入し、 r (80 + 8 0) Z2のような処理を想定する。
例えば、 r=l.5とすると、
h=100+l.5X (80 + 80) /2+ (100+100) /2+ (80 + 80 + 80) /3 + 80 = 100+120+100 + 80 + 80 =480 ··· (8)
また、特徴データの種類 5で平均化処理して
h=480/5
=96 ··· (9)
という、評価値とすることができる。
これは、論理積処理の場合が論理和処理に比較して条件が厳しいので、検出した 「意味」の評価値を大きく設定した方がよ!、とする場合である。
また、場合によっては、 r=0.8として、
h=100 + 0.8X (80 + 80) /2+ (100+100) /2+ (80 + 80 + 80) /3 + 80 = 100 + 64+100 + 80 + 80
=424 ··· (10)
また、特徴データの種類 5で平均化処理して
h=424/5
= 84.5 …(11)
t 、う評価値とすることもできる。
これは、上述の場合とは逆に、論理積処理の場合が論理和処理に比較して条件が 厳 、ので、評価値を小さく設定した方がょ 、とする場合である。
(属性の異なる特徴データ間の関係が倫理和処理の場合)
ここで、例えば、(2)式で示したように、属性の異なる特徴データは、論理積演算子 ( * )で表現して 、るが、論理和演算子( + )の場合もある。
簡単のため、(2)式で第 1項目 Al、第 2項目 B2だけを求め、
a=l.0(A1) 100+1.0(B2)100 (12)式
上述の評価値演算方法 (3)で説明したような、便宜上、論理和係数 wというような概 念に基づいて処理を行う。
この場合、( 12)式から、評価値 hは、
h=(100 + 80)w ··· (13)
となる。ここで、
w=丄 の場合は、論理積処理の場合で、
a=l.0(A1) 100*1.0(B2) 100 ··· (14)
h=100 + 80
= 180 ··· (15)
となる。
例えば、(8)式の論理和処理の場合には、
w=l.5 ··· (16)
として、
h= (100 + 80) XI.5
= 270 ··· (17)
と、論理積処理の場合よりも高い評価値となるような処理を行う。
また、
w=0.8 ··· (18)
として、
h= (100 + 80) X0.8
= 144 ··· (19)
のように、論理積処理よりも小さ!、評価値となるような処理を行う。
評価値処理は、設定した意味と各特徴データ、各種の係数などを結びつけた式の 値の評価のために便宜上、導入した概念なので、上記評価式の各係数の範囲、値 などは、上述の説明で述べた場合に限らず、小さぐ又は大きく設定することもできる 以下のような評価値の演算により、ルールファイルにより、ルールに記述された再生 ユニットの各区間の評価値が決められ、例えば、要約再生モードの場合は、要約再 生時間に応じて、評価値の大きい PU区間が選択され、要約時間にできるだけ近くな るように、段々と評価値の小さい PU区間を選択していく。
そして、選択した各 PU区間を再生することで、所定の要約再生が実現できる。 (評価値処理の他の処理方法)
上記で述べた各特徴データ nの一項と、所定演算子 *とから w(M) *kとし、各所 定特徴データの検出割合 det重み係数 w、検出割合係数 kとして、評価式の各項の 特徴データ nの重み係数を w(n)として、演算関数 Pと演算子 *とする。
P(*k(n), det(n))とし、
d(n)=P(*k(n), det(n)) · · · (20)
とする。
ここで、演算子 *以下の何れかに該当するものとして、
d(n)は、
(1) * = ( | | >)の場合、すなわち P(( | I >)k(n), det(n))で、
if(k(n)≤det(n)) then d(n)=0 ··· (21)
else d(n)=100 · · · (22)
(2) * = (| I <)の場合、すなわち P(( | I <)k(n), det(n))で、
if(k(n) >det(n)) then d(n)=0 · · · (23)
else d(n)=100 · · · (24)
となる。
上記(1)、(2)のような処理の場合は、検出 det (n)と設定検出割合 k(n)に応じて、 途中処理値 d (n)を 100又は 0に処理するので、下記の(3)又は (4)で説明する途中 処理値が差分値になる場合に比較して、特徴データを顕著に特徴付けた!/ヽ場合に は有効である。
また、さらに、
(3) * = ( I >)の場合、すなわち P(( I »k(n), det(n))で、
if(k(n)<det(n)) then d(n)=0 · · · (25)
else d(n)= | k(n)— det(n) | . · · (26)
(4) * = ( I <)の場合、すなわち P(( I <)k(n), det(n))で、
if(k(n) >det(n)) then d(n)=0 · · · (27)
else d(n)= | k(n)— det(n) | · · · (28)
であるから、評価値は次の(29)式のようになる。
[数 1] w(n)x (lO(-d(n) ' w(n)
•••(29)
上述の演算子の導入により、例えば、 Al、 B2の特徴データがあった場合に以下の ように記述することができる。
a=l.0(A1) ( I Iく) 100+1.0(B2) ( | <) 100
•••(30)
この場合、例えば、 Al特徴の検出割合 (実際の検出値)を 100、 B2特徴の検出割 合 (実際の検出値)を 80と仮定すると、上記(1)、(4)から、評価値 hは、
h= (1. OX (100-0) +1.0(100— 80))Z(1.0+1.0) = (100 + 20) /2 =60 ··· (31)
t 、う評価値とすることができる。
上述のように、評価値処理の方法には、幾つかの方法がある力 ここで説明した方 法に限らなくともよい。
ここで、図 6Aに示す規則 1の記述においては、記述するデータの出現パターン (意 味)の表現方法の一例で、意味として、 a, b, c- · 'などとした力 その否定として A, B , C, ···、また、ワイルドカードとして、 *などを用いることができる。
(規則 2処理の場合)
規則 2処理では、上記規則 1処理で意味付けされた所定区間である再生ユニット同 士の意味の接続を考慮して処理を行うようにする。
また、時間補正関数を用いて時間的な補正、すなわち時間的な重み付け処理を行 例えば、上記規則 1処理において、意味 aの評価値を 70、意味 bの評価値を 80と仮 定すると、(ab)の評価値 gは、
g = 70 + 80
= 150
又は、意味数の平均を求め、ここでは、 abの 2つなので、 g = 510/2
= 75
又は、それぞれの評価値の積を求め、
g = 70 X 80
= 5600
例えば、便宜上、最大値を 100と仮定して最大値で正規ィ匕すると、
g = 5600/100
= 56
とすることができる。
時間補正関数の重み付けは、例えば、上述の(ab)が、ある時点 tで検出でき、その 評価値が gで、 tでの時間補正係数 (重み付け係数)を wとすると、 gtを最終的な評価 値とする。
時間補正関数は、ルールファイルにおいて規則 2の所定記述場所に、所定記述規 則に従って、その変化点 (変化点座標系の情報データ)を記述する。
規則 2処理の一例を図 6Bに示す。
(時間補正関数)
まず、時間補正関数について説明する。
この時間補正関数は、ルールファイルにおける所定番組ジャンルにおける要約時 間補正を行うために利用することができる。
これは、ユーザによっては、所定の放送番組によっては、放送時間の前半や後半を 重点的に再生した 、と 、う場合も想定できる。
そこで、記録する番組のジャンル、放送時間、その他などの、その放送番組に応じ た種々のパラメータを考慮して、要約再生 (ダイジェスト再生)を行う所定の再生区間 に対して時間(場合によっては時刻)の重み付けを行うようにすることができる。
すなわち、この重み付けを行う区間は、時間的にそれ以外の重み付けを行わない 区間に比較して、要約再生 (ダイジェスト再生)を行う場合の再生の重要度を大きく処 理すること〖こなる。
図 8A〜図 81は、上述した時間の重み付けを行うための時間補正関数の一例を示 すものである。
図 8Aは、フラットな特性で、所定の要約再生区間に対して時間の重み付けを行わ ない場合である。
図 8Bは、所定の区間内において、前半部の方を後半部に比較して、要約再生に おける重要度としての再生の重みを大きくする重み付けを行っている場合である。 図 8Cは、所定の区間内において、後半部の方を前半部に比較して、要約再生に おける重要度としての再生の重みを大きくする重み付けを行っている場合である。 図 8Dは、所定の区間内において、前半部と後半部を中間部に比較して、要約再 生における重要度としての再生の重みを大きくする重み付けを行っている場合である 図 8Eは、所定の区間内において、中間部を前半部及び後半部に比較して、要約 再生における重要度としての再生の重みを大きくする重み付けを行っている場合で ある。
図 8Fは、図 8Dに示す違った形の補正関数を 2つ接続したようなもので前半部、前 半と中央部の間、中央部、中央部と後半部の間、後半部にそれぞれ重みを付けて、 さらに各重み付けを異なつたものにして 、る。
図 8Gは、図 8Eに示す違った形の補正関数を 2つ接続したようなもので前半部、前 半と中央部の間、中央部、中央部と後半部の間、後半部にそれぞれ重みを付けて、 さらに各重み付けを異なつたものにして 、る。
図 8Hは、図 8C及び図 8Dに示す組合せ関数で、図 81は、図 8Dと図 8Bの組合せ 関数を示している。
図 9は、一般的な時間補正関数の様子を示したもので、開始点、変化点、終点の座 標をそれぞれ、 PO (ts, s3) , Pl (tl, s3) , · · · , Pe (te, sO)としている。
ここで、座標の y成分は、重み付けを表しているので、ここでは、便宜上最大値を 10 0最小値を 0とし、 0〜: L00の間の値をとるものとし、 X座標は、位置情報で、後述する 図 41〜図 43に示す「開始終了位置情報」のデータと同じディメンジョンの値、又は開 始終了点間の区間に基づく開始点からの割合で、 0〜: L00の間で設定して位置を示 している。 (再生ユ ットの意味と接続関係、判定処理)
上記で説明したが、所定の特徴抽出処理による特徴データからその再生ユニット ( PU)における意味設定することができる。
ここで、図 10に示すようなビデオデータの構造について説明する。
ある 1つのプログラム(番組) kを想定すると、幾つかのシーン m、 m+ l、 · · ·に分類 することができ、シーンは幾つかのショットに分類することができる。
そして、セグメント(ショット)を構成するのは、一つ一つのフレームとなる。
シーンの切れ目(区切り)は、シーンチェンジになる。
セグメント(又はショット、又は画像セグメント。以下同様)は、シーン毎に、そのシー ンに応じた類似画像のまとまり、又は、類似した画像 (映像)特性のまとまりともするこ とがでさる。
セグメントやシーンなどは、そのプログラム(番糸且)の中において、固有な意味の概 念を持っている。
そして、各々の意味を持ったセグメント、シーンは、幾つかまとまってその番組を構 成して 、るビデオ構造と捉えることができる。
例えば、野球の番組を想定した場合に、打者の画面が続いていたとすると、打者の 類似画像が検出され、その類似特性セグメントに分類できる。そのセグメントは、「打 者の画像」 t 、う意味 (意味の概念)を有することになる。
また、投手の投球する画面が続いていたら、投手の類似画面が検出され、その類 似特性に応じてセグメントに分類できる。そのセグメントは、「投手の画像」という意味( 意味の概念)を持つことになる。
ここで、投手が投球して、打者が打撃し、その打者が走塁するような場合を想定した 場合に、「投手の画像シーン」、「打者の画像シーン」、「打者の走塁の画像シーン」と いう、各々意味を持った画像シーンのつながりを捉えることができる。
所定プログラム (番組)において、上述した PU毎に、画像特徴データ、音声特徴デ ータが処理され、それら特徴データに応じてその PUの意味を設定することを想定す る。例えば、ニュース番組を想定した場合に、キャスター(アナウンサー)が最初に- ユースの項目を読み上げるシーン (ニュース番組のヘッドライン)の場合に、そのシー ン (画像)の特徴として、人物特徴が 1人〜 2人、テロップ (Tip特徴)、音声特徴の属 性が話者音声、さらに、ニュース番組としたときに、その-ユース番組の中で、ニュー スを読み上げるシーンは幾つか存在するので、その-ユース読上シーンと類似する シーンは幾つか存在することになり、類似画像特徴すなわち、特定のシーン IDは出 現頻度が高くなる。
このように、規則 1処理でも説明したように人物特徴、音声特徴、テロップ特徴、類 似画像特徴、その他所定の特徴データに応じて、その PUの意味を設定することがで きる。
例えば、上述した野球の番組の例のように、所定の意味を持つ PUの接続関係が 想定される。すなわち、所定の特徴データ又は特性データを持つ PU間の所定の接 続とすることができる。
上述した所定の意味を持つ、すなわち所定の意味が設定された PUの接続関係を 図 11に示す。
図 11にお 、て、あるプログラム (番糸且)で所定の意味 a〜意味 dが設定されており、 ぁる区間131;(11)〜131;(11+ 2)で、接続関係は、 PU (n)の意味 a、 PU (n+ l)の意味 b、 PU (n+ 2)の意味 cが最も自然なつながりとなることを示して 、る。
すなわち、この図 11に示した例は相撲の場合を想定しており、意味 a「取組み紹介 シーン」の後は意味 b「立会いシーン」が続くことが一番妥当性であり合理的であり、 意味 b「立会 、シーン」の後は意味 c「取組みシーン」が続くことが一番妥当性であり 合理的である。
そして、接続関係として、 abcという意味を定義した文字系列とすることができ、この a beの系列がキーフレームとすれば、あるプログラム(番組)の中で abcを探して、探し た所定区間の最初と最後、又は、その近傍などを所定設定点として設定処理を行うこ とがでさる。
他の例として、例えば、番糸且ジャンルが野球の場合は、ある区間で再生ユニットが、 各々、「投球」、「打った」、「意味なし」、「得点」という場合に、「意味なし」を除いて、 3 つの意味、「投球」、「打った」、「得点」を持つと判定された PUを 1つにまとめて、「投 球、打った、得点」という所定 PUのかたまりを想定することができる。 ここで、「意味なし」の PUは、意味がないと判定されたことにより含めても問題なぐ 上記 4つの PUを 1つにまとめて「投球、打った、意味なし、得点」という所定 PUのまと まりとすることができる。
ここで、「意味なし」を例に挙げたのは、上述の規則 1の処理で所定の特徴データか ら所定の評価処理で、設定した幾つかの意味の中から、所定の意味付け処理を行う 、すなわち、複数の意味力 所定の信号処理に基づいて確からしい意味付けが行え な 、場合も想定できるからである。
「意味なし」の代わりに、「どのような意味でも良い」とすることができる。これは、上記 した @と同様の処理である。
ある-ユース番組の場合で、 aabbという接続、すなわち、「アナウンサーシーン」、「 アナウンサーシーン」、「現場シーン」、「現場シーン」という接続力 妥当で合理的で ある場合を図 12Aに示す。
先に説明した相撲番組の場合を図 12Bに示す。
図 13A、図 13Bは、上述の番組ジャンルが-ユース番組の場合で、図 13Aに示す ように、参照パターン (参照文字系列)を上記で説明した「aabb」として、図 13Bに示 すように、例に挙げる所定の番組記録区間の中で「aabb」の区間を探していき、区間 Al、区間 A2が「aabb」に一致して、検索できたことを示している。
そして、図 13Bに示すように、例えば、探すことができた「aabb」区間の最初の位置 pl、 p3、最後の位置 p2、 p4を所定設定位置として設定し、後で説明するプレイリスト のチヤプタデータ (位置情報データ)として所定の処理を行う。例えば、要約再生モ ードの場合には、上記設定位置 pl〜p2、 p3〜p4を再生するように再生制御処理を 行う。
チヤプタ設定など、所定時点設定 (所定位置設定)処理の場合には、 pl、 p2、 p3、 p4の各時点、又は、それら各点の所定の近傍の位置をその設定位置として所定の 処理を行う。
このように、所定の特徴データ力 所定の PUの意味を持つと判定し、その所定の 意味を持つとその PUに設定し、それら意味が判定して設定された PU力 意味の接 続関係を想定して、所定の意味に応じた所定数の PUの接続や所定数の PUの集合 を想定して処理を行うことができる。
図 6Bに示した規則 2処理の記述方法の一例では、キーフレーム(重要フレーム)と 想定し、検索したい文字系列を (aabb)のようにし、その後に、重み付け係数として 10 0を設定している。その後の Ps (ts, s4) , Pl (tl, s4) , Pe (te, s3)は、先に説明した 時間補正関数であって、この例の場合は、図 14に示すように、番組の後半部で徐々 に重要度が減少するような関数となっている。この図 14に示すような時間補正関数の 場合には、番組の前半部を重点的に視聴した 、ような場合に適して 、る。
ここで、図 6Bに示した規則 2処理の記述においては、記述するデータの出現パタ ーン (意味)の表現方法の一例で、意味として、 a, b, c - - 'などとした力 その否定と して A, B, C, · · ·、また、ワイルドカードとして、 *などを用いることもできる。この図 6 Bに示した規貝 IJ2処理の記述において、ニュース番組のジャンルの場合の一として、 例えば、(Abb)とした場合、には、 Aは、「アナウンサーのシーン」以外、 bは、「現場 のシーン」 t\、うことになり、「アナウンサーのシーン」以外に「現場のシーン」が 2つ続 く場合を検出することになる。
ここで、評価値の演算方法の一例として、以下のような処理である。例えば、再生ュ ニット群を (abc)として、上記(1)式により、 a b cの各検出割合 (value)と重み付け 係数が以下の表 5に示すような場合がある。
表 5
意味 v l u e み 備考
a 1 . 0 1 0 0 1 . 0 > 1 0 0 1 0 0
b 0 . S s 0 0 . s > 8 0 6 4
c 0 . 8 8 8 > ; 8 6 4 評価値 = 100 X ( 100 + 64 + 64) Z (重みの総和)
= 100 X 228/ (100 + 80 + 80)
= 100 X 228/260
= 88
ここで、 100を掛けたのは、便宜上、割合(%)を考慮したためである力 上述したよ うに、評価値のスケールは、所定の評価処理が行えて、かつ所定の演算処理上問題 なければよいので、オーバフローなど処理上問題なければ、割合を考慮しなくてもよ い。
(規則 2処理における再生ユニット群の他の例)
ここで、規則処理 2における、ある「意味」の再生ユニットが複数接続した再生ュ-ッ ト群を 1つの意味群ユニットとし、意味群ユニットが複数接続する場合を説明する。 上記規則 1処理では、 1つの再生ユニットのみの例を挙げて説明した。それは、特 徴データから、検出する「意味」に最も確からしいであろう再生ユニットを見つけるた めであった。
これをさらに発展させて、再生ユニット群、すなわち、この規則 2処理で行った意味 のつながりの再生ユニットを 1つのかたまりとして、そのかたまり同士を接続した区間を 検出するようにすることができる。
例えば、上記(aabb)を Galとし、(GalGal)のような接続とすることができる。この 場合に、 Galの評価値について規則 1と類似した処理を行う。この場合の評価値の 演算方法として、例えば、各意味の再生ユニットの評価値の和の平均や、各意味の 再生ユニットの評価値の積の平均などを求めることができる。
例えば、 aの評価値を 80、 bの評価値を 60とした場合に、 Galの評価値は、加算の 場合は、
(80 + 80 + 60 + 60) /4 = 70
で、 70を評価値とすることができる。
規則 3処理の場合 通常は、図 15Aに示すように、規則 2処理まででよいが、複数 の番組対して特徴データを設けた場合に、例えば、番組毎に時間的重み付け処理 を行う場合には、さらに規則処理として、図 15の(B)に示すように、規則 3処理を設け る。
その一例として、ニュース番組 (news)とスポーツ番組 (sports)に対して重み付け と、時間補正を行う場合の例を図 6Cに示す。
図 6Cに示す例では、ニュース番組は、 100%の重み付けを行い、時間補正関数と して開始点 Ps (ts, s4)、変化点 Pl (tl, s4)、終点 Pe (te, s3)とする補正を行い、ス ポーッ番組に対しては、 70%の重み付けを行い、時間補正関数として開始点 Ps (ts , s4)、変化点 Pl (tl, s4)、終点 Pe (te, s3)とする補正を行う。
図 3で説明した処理内容を図 16を参照して更に説明する。
図 16Aに示すような、規則 1処理により、各種所定の特徴データに基づいて、各シ ーンは幾つかの意味付け処理が行われる。
ここで、規則 2によって意味付けされた各シーンには、図 16Bに示すように評価値 が所定の処理により設定される。
例えば、要約再生モードの場合では、ユーザの所望する時間 tlで再生する場合に 、上記評価値の一番高いシーン (画像)から選択していき、できるだけ tlに近くなるよ うに評価値の高いシーン力も選択して、その選択した区間を再生するように、その位 置情報を設定する。
設定した位置情報は所定のデータメモリに記憶し、再生制御を行う際に、位置情報 を読み出して、所定区間の再生を行っていく。
そして、各区間を順次再生する (スキップ再生)することで、所定の要約再生 (ダイジ ェスト再生)を行う。
図 16Cに示す例では、全記録時間を例えば 60分とし、要約再生を 15分で行いた いと仮定して、評価値が 70以上の PUを選択して、 15分にやや満たない場合に、評 価値 60の PUn+8 の区間を選択して、所望の再生時間 15分にできるだけ近くなる ように処理を行っている。
このように評価値の大き 、所定 PU区間を選択して 、き、所定の再生時間にできる だけ近くなるように、 PU区間を選択していく。
所望の再生時間 Tmに対して所定の許容範囲 tc内に再生時間 Tがあるように、
Tm— tc^T< fm+tc
となるように、評価値に基づいて所定の PU区間を選択する。
また、図 16Dに示すように、例えば、意味付けされた評価値の高い区間の最初 (又 はその近傍)、評価値の高い区間の最後(又はその近傍)に所定位置 (チヤプタ)を 設定することで、その区間の編集処理をしたり、スキップ再生の一時停止処理、繰り 返し再生処理など、所定の操作を行うことに利用できる。
(2)ブロック構成例 ここでは、簡単のため、記録する画像音声データは、放送番組のデータとし、 MPE G (Moving Picture Export Group)による所定の帯域圧縮処理が行われるものとする 。なお、その他の帯域圧縮信号処理としてウェーブレット変換、フラクタル解析信号処 理その他などを用いるようにしてもよい。例えば、下記の説明で画像データの DCT係 数は、ウェーブレット変換の場合には多重解像度解析における力解析係数などに相 当し同様の信号処理を行うことができる。
2. 1 ブロック構成例 1
本発明を適用した記録再生装置 30の全体ブロック構成例を図 17に示す。
ここでは、簡単のためテレビ放送を受信して、受信した放送番組を記録する例を挙 げて説明する。
2. 1. 1 記録信号処理系
この記録再生装置 30では、受信アンテナ系 1と受信系 2により所定の放送番組が 受信され、音声信号は音声 AZD変換処理系 3で所定のサンプリング周波数、所定 の量子化ビット数で所定の AZD変換信号処理が行われ、その後音声エンコーダ処 理系 4に入力される。
音声エンコーダ処理系 4では、例えば MPEGオーディオや AC 3オーディオ(ドルビ 一 AC3、又は Audio Code number 3)などの所定の帯域圧縮方式で信号処理が行わ れる。
同様に、映像信号は映像 AZD変換処理系 8で所定のサンプリング周波数、所定 の量子化ビット数で所定の AZD変換信号処理が行われ、その後、画像エンコーダ 処理系 9に入力される。
画像エンコーダ処理系 9は、 MPEGビデオやウェーブレット変換などの所定の帯域 圧縮方式で信号処理が行われる。
音声エンコーダ処理系 4及び画像エンコーダ処理系 9で処理された音声データ及 び画像データは、多重化処理系 5を介して記録処理系 6に入力される。
音声信号の特徴抽出を行うため、音声エンコーダ処理系 4に入力する信号の一部 又は上記所定エンコーダ信号処理における信号処理過程の途中の信号の一部は特 徴抽出処理系 10に入力される。 図 17に示す記録再生装置 30では、音声エンコーダ処理系 4に入力される信号の 一部として、音声エンコーダ処理系 4から特徴抽出処理系 10に信号が入力されてい る力 音声ェンコーダ処理系 4に入力されるとともに特徴抽出処理系 10に入力するよ うにしてもよい。
同様に映像 (画像)信号の特徴抽出を行うため、映像エンコーダ処理系 9に入力さ れる信号の一部又は上記所定エンコーダ信号処理における信号処理過程の途中の 信号の一部が特徴抽出処理系 10に入力される。
この図 17に示した記録再生装置 30では、映像エンコーダ処理系 9に入力される信 号の一部として、映像エンコーダ処理系 9から特徴抽出処理系 10に信号が入力され ているが、映像ェンコーダ処理系 9に入力されるとともに特徴抽出処理系 10に入力さ れるようにしてもよい。
記録モードにおいて所定区間毎に逐次特徴データは検出され、所定のエンコーダ 処理がなされた画像音声データとともに所定の記録媒体 7の所定の記録領域に記録 される。
上記特徴データから所定の要約再生 (ダイジェスト再生)を行うためのプレイリストデ ータの生成を行うプレイリスト処理(9)又はチヤプタデータの生成を行うダイジェスト再 生チヤプタ処理(11)をプレイリスト ·チヤプタ生成処理系 19で所定の信号処理を行う ここで、プレイリストデータ、チヤプタデータの生成は、以下のような信号処理プロセ ス(処理 a又は処理 b)で行うことができる。
(処理 a) 特徴データを所定メモリ系又はシステムコントローラ系の所定メモリ領域 に所定データ量蓄積した後、所定のプレイリストデータの生成処理、所定のチヤプタ データの生成処理を行う。
(処理 b) 画像音声データを記録する記録媒体 7に所定の特徴抽出処理を行う毎 に逐次特徴データを記録し、所定データ量記録した後、そのデータを再生して、所 定プレイリストデータ、所定チヤプタデータの生成を行う。
(処理 a)の場合、例えば、所定時間長 tの放送番組を記録すると、その時間長 tの 記録が終了したら、その放送番組における全ての所定特徴データが集積されるので 、この時点で、時間長 tの中で所定の要約再生時間 tdに対応するキーフレームがどこ になるかを決めるプレイリストデータ生成処理を行うことができる。すなわち、この時間 長 tに処理される特徴データをメモリ系、又はシステムコントローラ系の所定メモリ領域 に蓄積 (記憶又は記録)しておくことになる。
(処理 b)の場合は、上記 (処理 a)の場合と同様で所定時間長 t記録した後、所定時 間 t記録終了したことを検出 (検知)して、所定の特徴データを再生して所定要約再 生時間 tdに応じたプレイリストデータ生成処理を開始することになる。
プレイリストデータ生成処理が終了したら、所定の要約再生の動作を行う準備がで きたことになり、このプレイリストデータを用いて所定の要約再生 (ダイジェスト再生)が 行える。
上記所定の特徴データは、プレイリストデータが既に生成されているので、もうプレ イリストデータを生成しな 、とう 、う場合には消去するように信号処理を行うことがある が、プレイリストデータを修正するなど、データの生成を再度行う場合には、特徴デー タはそのまま記録して残してもよ!、。
上記特徴データは、システムコントローラ系 20を介して、所定区間の特徴データの 蓄積の後、プレイリスト ·チヤプタ生成処理系 19で所定の要約再生 (ダイジェスト再生 )用プレイリストデータを生成する。
上記生成されたプレイリストデータは、記録処理系 6において所定の記録処理がな された後、記録媒体 7の所定の記録領域に記録される。
ここで、プレイリストデータは、所定の記録された区間をスキップ再生するための、所 定再生区間毎の再生開始点情報と再生終了点情報の対となるデータ力 構成され、 例えば、所定区間毎の再生開始フレーム番号と再生終了フレーム番号のデータ対な どからなる。
プレイリストデータは、その記録したプログラムにおける、所定の必要な区間をスキッ プ再生することで要約再生 (ダイジェスト再生)を行う処理のために使用するので、上 記のようにフレームデータの他に、タイムコードデータや MPEGにおける PTS (Prese ntation Time Stamp)、 DTS (Decode Time Stamp)などのタイムスタンプデータでもよ い。 プレイリストデータは、上記のように放送番組のような画像音声情報データを記録す る記録モード時で所定プログラム記録終了後に所定の生成処理を行う他に、後で説 明する再生モードにぉ 、て、特徴データを用いて所定の処理を行うようにしてもょ ヽ 図 17において、例えば、既に MPEGなど所定のエンコード処理がなされた画像、 音声データを記録する場合には、音声エンコーダ処理系 4、画像エンコード処理系 9 でエンコード処理を行う必要はなぐ直接、多重化処理系 5に入力し、記録処理系 6 で記録処理を行い記録媒体に記録することできる。
ここで、直接デジタル画像、音声データが入力して記録される力、受信系 2によりァ ナログ信号が入力し所定のエンコード処理の後に記録されるかは、システムコント口 ーラ系 20で検出することができ、このように入力系統違いに応じて、上記所定の画像 、音声特徴データ抽出処理を記録モードのときに自動的に行うか、記録終了後に行 うかを決めるようにする、又はデジタル画像、音声データが入力する場合には、所定 のエンコード処理系をデータが通らないことから所定のデータ構造解析処理を行う必 要がな!、ので、記録終了後に行うようにすることができる。
記録モードにおいて、上記アナログ入力系かデジタル入力系は、ユーザ入力 IZF 系 21を介してユーザの所定操作によって設定することもできる。
また、図 17で、音声エンコーダ処理系 4又は音声 AZD変換処理系 3、映像ェンコ ーダ処理系 9又は画像 AZD変換処理系 8からの信号と、所定エンコード処理された デジタル画像、音声データを直接システムコントローラ系 20で検出することで自動的 に検出することちでさる。
所定エンコードされたデジタルデータが検出され、音声エンコーダ処理系 4又は音 声 AZD変換処理系 3、映像エンコーダ処理系 9又は画像 AZD変換処理系 8でデ ータが検出されない場合は、所定エンコード処理されたデジタル画像、音声データ が入力していると判定できる。
所定のエンコードされたデジタルデータが検出さないで、音声エンコーダ処理系 4 又は音声 AZD変換処理系 3、映像エンコーダ処理系 9又は画像 AZD変換処理系 8からのデータがシステムコントローラ系 20で検出される場合は、アナログ入力と判定 できる。
アナログ入力とエンコード処理されたデジタルデータが両方検出される場合は、例 えば、受信系 2からのアナログ入力信号を初期設定 (デフォルト設定)として所定の記 録処理を行うようにしてもょ ヽ。
上述の特徴抽出処理は、例えば画像の DCTデータなどを用いるので、所定のェン コード処理がなされる場合には、通常の記録処理のために行う DCT処理を特徴抽出 処理として兼用することができる。音声の場合には、所定エンコード処理におけるサ ブバンド処理データを用いることを考えると、所定のエンコード処理がなされる場合に は、通常の記録処理のために行うサブバンド処理を特徴抽出処理として兼用すること ができる。
上述のように、エンコード処理されたデジタルデータが直接入力する場合は、ェン コード処理を行う必要がな 、ので、このデータを解析して DCTなどデータを取り出す ことが必要になり、処理の負荷が生じることになる。
そこで、必要に応じて記録終了後に特徴抽出処理を行うようにする。その他、記録 終了後に、特徴抽出処理を行う場合として、上記アナログ入力の場合でも、信号処 理系の負荷の具合に応じて、所定の記録が終了したら自動的に行うようにしてもよい 例えば、図 20に示すように、特徴抽出処理はソフトウェア処理で行うこともできるの で、システムコントローラ系の性能によっては記録モードの各所定信号処理と同時に 行うことができないので、所定の記録処理が終了して力 行うようにする。また、システ ムコントローラ系 20は CPU、 DSP (デジタルシグナルプロセッサ)、その他各種プロセ ッサなどで構成することができるが、性能が高いほど高価なので上述のように処理能 力に応じて、特徴抽出処理を記録処理と同時に行うか、終了後に行うかを決めるよう にしてもよい。
上述の特徴抽出処理を行う所定記録モード終了後としては、例えば、所定のタイマ 記録動作終了後や、通常、ユーザがその装置を動作させていないと想定できる夜中 に、所定の特徴抽出処理を行うことがある。このような場合に、例えば、装置が動作し ている時刻をシステムコントローラ系 20内の所定メモリ手段により記憶して、所定の学 習処理により、適宜、特徴抽出処理する時刻を自動設定したりすればよい。
また、記録再生など通常の動作させて ヽな 、時間がシステムコントローラ系 20で検 出される場合には、その動作させていない間に上記所定の特徴抽出処理を行うこと ができる。その場合に所定のデータ全てが処理されない場合も想定されるが、処理 途中の場所をシステムコントローラ系 20内の所定メモリ手段に記憶しておき、装置が 記録再生など通常動作していないことを検出して、処理できる時間があると判定され たら、途中の続きから所定の信号処理を行うようにすればょ 、。
2. 1. 2 再生側処理
(通常再生モード動作)
次に、図 17に示した記録再生装置 30における再生信号処理について説明する。 まず、通常再生モードの動作について説明する。
ユーザ入力 IZF系 21により、通常再生モードになると、記録媒体 7から所定の画像 音声データ、特徴データなどが記録されて 、る所定のデータが再生され再生処理系 12にお 、て所定の再生処理が行われる。
再生された所定のデータは、再生データ分離処理系 13にお 、て所定のデータに 分離処理され、音声データは音声デコード処理系 14に入力され、記録時に帯域圧 縮信号処理された信号処理方式に対応する所定のデコード処理がなされ、その後、 音声 DZA処理系 15に入力されて DZA変換処理された後、音声信号として出力さ れる。
また、所定の分類処理された画像(映像)データは、映像デコード処理系 16におい て記録時に帯域圧縮信号処理された信号処理方式に対応する所定のデコード処理 がなされた後、映像 DZA処理系 17に入力されて DZA変換処理が行われ、映像信 号として出力される。
(要約再生 (ダイジェスト再生)モード)
要約再生モードを考える場合に、画像音声データとともに特徴データ、プレイリスト データが記録媒体に記録されているかどうかで信号処理方法が異なる。
特徴データとプレイリストデータが記録媒体に記録されているか否かは図 18のよう に整理することができる。 まず、図 18A、図 18Bの場合に相当するプレイリストデータ(プレイリストデータファ ィル)、チヤプタデータが再生できる場合、すなわち、プレイリストデータ、チヤプタデ ータが所定の記録媒体 (データ記録媒体)に記録されており、要約再生モード時に再 生、又は、チヤプタ表示モード時に所定チヤプタ画像がサムネール表示できる場合 について説明する。
すなわち、ユーザが要約再生モード又は所定チヤプタモードを選択した場合につ いて説明する。
ユーザの入力操作によりユーザ入力 I/F系 21を介して、システムコントローラ系 20 に所定の要約再生 (ダイジェスト再生)モードの動作を行うコマンドが入力された場合 に、再生データ分離処理系 13で所定データ分離し特徴データ、また、パラメータデ ータゃプレイリストデータ、チヤプタデータなどが記録されている場合には、それぞれ 分離された所定の特徴データ、所定のパラメータデータ、所定のプレイリストデータ、 チヤプタデータなどがシステムコントローラ系 20に入力される。
再生データ分離処理系 13で特徴データ、ノ ラメータデータ、プレイリストデータ、チ ャプタデータが分離できな 、場合には、上記のそれぞれのデータはシステムコント口 ーラ系 20に入力されな 、ので、再生データ分類処理系 13とシステムコントローラ系 2 0とにより特徴データ、プレイリストデータ、所定チヤプタデータ、パラメータデータなど が所定記録媒体 7に記録されている力否かの判定処理を行う。
プレイリストデータは、所定の要約再生を行うために、所定の幾つかの再生区間の 再生開始情報データと再生終了情報データから構成されている。
チヤプタデータは所定特徴区間の先頭又はその近傍、又はその所定特徴区間の 最後又はその近傍、その特徴区間に接続された特徴区間以外の区間の先頭又はそ の近傍、又はその特徴区間以外の区間の最後又はその近傍の位置情報力 構成さ れる。
システムコントローラ系 20では、再生検出されたプレイリストデータのスキップ再生 開始データ情報、スキップ再生終了データ情報に応じてスキップ再生を行うことで要 約再生 (ダイジェスト再生)を行う。
また、所定チヤプタデータによりチヤプタ点又はその近傍における画像を所定サム ネール画像として所定表示処理を表示処理系 27で行 ヽ、所定の画像表示を行う。 次に、図 18C、図 18Dに示す場合に相当するプレイリストデータ(プレイリストデータ ファイル)、チヤプタデータが再生できない場合、すなわち、プレイリストデータ、チヤ プタデータが記録媒体又は記憶媒体に記録 (記憶)されておらず、要約再生モード 時に再生できな 、場合、所定チヤプタモード時にサムネール時点を所定サムネール 表示、チヤプタ再生など一連のチヤプタ関連処理できな 、場合にっ 、て説明する。 上述した放送番組などを受信した画像音声データでなぐ例えば、記録媒体 25を DVDソフトとし記録媒体処理系 26、再生処理系 12により再生する場合など他の記 録媒体からの画像音声データを再生する場合や、特徴抽出して!/ヽな!ヽ画像音声デ ータを再生する場合などは、ここで説明する処理に該当する。
プレイリストデータ又はチヤプタデータが生成されておらず再生検出できない場合 や、再生検出されたプレイリストデータ、チヤプタデータを生成し直したい場合は、再 生検出された所定の特徴データとパラメータデータとから要約再生用プレイリストデ ータ、及び所定チヤプタ関連モード用チヤプタデータを生成することができる。
図 26Cに示す場合、すなわち、記録時に特徴抽出処理が行われており、特徴デー タが再生できる場合には、図 17に示した記録再生装置 30における再生処理系 12又 は再生データ分離処理系 13からプレイリストデータ又は上記所定の特徴データがプ レイリスト ·チヤプタ生成処理系 19に入力され、所定のプレイリストデータ又は所定の チヤプタデータが生成される。
ここで説明する動作の場合に、ユーザが要約再生モードのコマンドを行った場合に 、図 19に示すようなプレイリストデータがな ヽことを示す所定の表示を表示処理系 27 で行うようにしてもよい。
生成されたプレイリストデータは、システムコントローラ系 20に入力される。システム コントローラ系 20は、ユーザ入力による所定の要約再生時間に応じて、プレイリストデ ータに基づ 、た所定の再生区間を順次再生 (スキップ再生)するように再生制御系 1 8をコントロールしその制御により記録媒体 7を再生制御する。
また、生成されたチヤプタデータはシステムコントローラ系 20に入力される。システ ムコントローラ系 20は、ユーザ入力による所定のチヤプタ関連動作モードに応じて、 上記チヤプタデータに基づ 、た所定のチヤプタ時点の画像サムネール表示、チヤプ タ点のカットや接続などの編集処理、ユーザ選択したチヤプタ点のスキップ再生など 、所定チヤプタ関連動作が行えるように再生制御系 18をコントロールし、その制御に より記録媒体 7の再生制御を行ったり、システムコントローラ系 20を介した表示処理 系 27の制御などを行う。
上述したように、例えば、 DVDなど外部記録媒体を記録媒体 25として要約再生す る場合にも、上述の場合と同様の信号処理により行うことができ、再生制御系 18によ り記録媒体処理系 26を制御し、上述したような所定の要約再生処理を行う。
また、チヤプタデータを用いた編集処理 (編集操作)、所定のチヤプタ点間(又はそ の近傍)のスキップ再生、チヤプタ点(又はその近傍)のサムネール画像表示など、一 連の所定チヤプタ関連動作を上記と同様の信号処理により行うことができ、再生制御 系 18により記録媒体処理系 26を制御し、上記したような所定信号処理を行う。
さらに、図 16Dに示す特徴データが再生できない場合について説明する。
上述の例では特徴データ力もプレイリストデータ、チヤプタデータを生成する場合に ついて説明したが、例えば、他のユーザが記録した外部記録媒体 25を記録媒体 A2 6にコピーしたような場合には、特徴データが再生できない場合がある。
記録媒体 7に放送番組などの画像音声データは記録されて ヽるが、特徴データが 記録されておらず、再生できな 、場合にっ ヽて説明する。
ここで説明する動作の場合に、ユーザが要約再生モード又は上記所定チヤプタ関 連動作モードのコマンドを行った場合に、図 19に示すような特徴データがないことを 示す所定の表示を表示処理系 27で行うようにしてもょ ヽ。
この場合の要約再生モードで記録媒体 A7から画像音声データを再生する場合は 、再生処理系 12で再生されたデータは再生データ分離処理系 13に入力され、分離 された記録時に所定の帯域圧縮方式で処理されている画像データと音声データは 特徴抽出処理系 10に入力され、画像特性データである DCT DC係数、 AC係数、 動きベクトル (モーションベクトル)など、音声特性データである音声パワー検出その 他など各種所定の特性データ検出処理などが行われる。
特徴抽出処理系 10では、さら〖こ、上述の各種画像音声特性データと所定のパラメ ータデータとにより、所定のテロップ特徴データ (テロップ区間判定データ)、人物特 徴データその他の画像特徴データ (画像特徴区間判定データ)、及び話者音声特徴 データ (話者音声判定データ)、拍手歓声特徴データ (拍手歓声判定データ)その他 の音声特徴データ (音声特徴区間判定データ)の各種特徴抽出処理が行われる。 上記各種の画像特徴データ及び音声特徴データは、システムコントローラ系 20に 入力され、所定番組あるいは、所定の画像音声区間の全てについて所定の特徴抽 出処理が終了したら特徴抽出処理が終了したと判定される。
ここで、特徴抽出処理が終了した場合には、システムコントローラ系 20から所定の 信号処理が終了したことを示す信号が表示処理系 27に入力され、例えば図 19に示 すような所定の表示を行うようにしてもょ 、。
次に、特徴データ力も所定のプレイリストデータ、チヤプタデータを生成する処理に ついて説明する。
上述の特徴データは、所定の特徴抽出区間毎にメモリ系 11に蓄えられ、上記全て の所定特徴データの処理が終了したらプレイリスト ·チヤプタ生成処理系 19に入力さ れ、所定のプレイリストデータ又はチヤプタデータが生成される。
ここで、特徴抽出処理系 10から直接プレイリスト'チヤプタ生成処理系 19に、所定 区間の特徴抽出処理データを逐次入力するようにしてもよぐ上述したように所定の 全ての区間や所定放送番組の特徴抽出処理が終了したら、システムコントローラ系 2 0からの所定の信号により、プレイリスト ·チヤプタ生成処理系 19で上述の如き所定の プレイリストデータ又はチヤプタデータ生成処理を行うようにしてもよ 、。
また、特徴抽出処理系からの上記処理された特徴データは、システムコントローラ 系 20を介してプレイリスト'チヤプタ生成処理系 19に入力するように信号処理を行うよ うにしてもよい。
プレイリスト'チヤプタ生成処理系 19で、所定のプレイリストデータ又はチヤプタデ一 タが生成されると、所定の処理が終了したことを示す信号がシステムコントローラ系 2 0に入力され、所望の要約時間に応じた要約再生又は所定のチヤプタデータを用い た所定チヤプタ関連動作を行うことができる。
この場合に、図 19に示すように、プレイリストデータ又はチヤプタデータが生成でき たことを示す所定の表示を行い、あるいは、要約再生モード、チヤプタ関連の所定動 作モードであることなどの表示を表示処理系 27に行うようにする。
ユーザが要約再生を行う場合に、例えば記録した放送番組が 1時間であったとし、 それを 30分で再生したいの力、 20分で再生したいのかなど、ユーザの所望する要約 再生時間は分力ゝらな ヽので、記録した放送番組など画像音声データの特徴抽出した 全区間の全時間長に応じて、予め幾つかの要約時間に対応するプレイリストデータ を生成することを考えることができる。
例えば、特徴抽出する放送番組の記録時間が 1時間であったら、 40分、 30分、 20 分の要約再生を行う、それぞれのプレイリストデータを生成する。このようにプレイリス トデータを生成することで、リモコン 22などのユーザ入力で要約時間が選択された場 合に、すぐに所定の要約時間に対応した要約再生動作を行うことができる。
記録媒体 25を再生する場合については、上記記録媒体 A7を再生する場合と同様 で、記録媒体処理系 26により記録媒体 25を検出し、再生処理系 12により再生信号 処理し、再生データ分離処理系 13において所定の画像音声データを分離する。そ の後の信号処理は上記の記録媒体 7の場合と同様なので省略する。
ここで、上述した一連の処理を実行する制御プログラムは、専用のハードウェアに 組み込まれて 、るコンピュータ又は各種のプログラムをインストールすることで、各種 の機能を実行させることが可能な、例えば汎用のパーソナルコンピュータなどに記録 媒体からインストールされる。
この記録媒体は、制御プログラムが記録されているハードディスクだけではなぐコ ンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが 記録されている磁気ディスク、光ディスク、光磁気ディスク若しくは半導体メモリなどよ りなるパッケージメディアにより構成される。
2. 2 ブロック構成例 2
ここで、図 17に示した記録再生装置 30の他の例として図 20に示す例を挙げて説 明する。
放送番組を記録再生処理する信号処理の過程は、図 17に示した記録再生装置 3 0と同様なので、信号処理の異なる部分について説明する。 2. 2. 1 記録側信号処理
この図 20に示す記録再生装置 30Aにおいて上述の記録再生装置 30と異なるのは 、記録モードにおいて特徴抽出処理を行う一連の信号処理をシステムコントローラ系 20においてソフトウェア的に行うことである。
この記録再生装置 30Aでは、ネットワーク系 24により、所定のソフトウェアをダウン口 ードして、説明するようなソフトウェア処理による、特徴抽出処理、プレイリスト処理 (チ ャプタ生成処理 (再生区間、再生時点位置情報生成処理) )などが行われる。
ソフトウェアによるダウンロードでは、例えば、本発明の処理が搭載されていない装 置が、最初力もあった場合に、時間をおいて後力もソフト的に本発明を適用できる利 点があり、例えば、製造販売などの時間的に間に合わない場合には、設計、製造側 においては、本発明を適用しない簡単な構成のシステムと、後述する本発明を適用 したシステムの両方のシステムをユーザに提供できる。
ユーザ側では、本発明を適用しない簡単な構成のシステムを購入した後で、ソフト 的な処理で、本発明を適用できるので、後から機能を追加できるなどの利点がある。 また、処理系を修正、改良するなどの場合にもソフトをダウンロードしてアップグレー ドすることで、対応できる利点がある。
本発明をソフトウェアのダウンロードで装備する場合は、ユーザは所定の操作系(リ モコン 22など)で、所定のインターネットサイトにネットワーク系 24を介して接続し、所 定の操作系による操作で本発明のソフトウェアをダウンロードする。
ダウンロードされた本発明のソフトウェアは、システムコントローラ系 20で、所定の解 凍処理、インストール処理などが行われ、後で説明する、特徴抽出処理、プレイリスト 処理、チヤプタ処理ほか、本発明の所定の処理機能が装備される。
システムコントローラ系 20として、所定性能を備えたマイクロプロセッサ(MPU、又 は CPU)を用 Vヽることで上述した所定の特徴抽出処理を所定の記録処理と同時に行 うことができる。
上述したメモリ系 11も、このシステムコントローラ系 20内に備えられた所定のデータ 記憶メモリを用いることができる。
ここで、上述したように所定の記録処理として、所定の画像音声の帯域圧縮を行う 場合に、上述のような所定の性能を備えた MPU又は CPU、又は DSP (デジタル 'シ グナルプロセッサ)を用いることができ、この帯域圧縮処理を行っている同じ MPU又 は CPU、又は DSPで上記所定の特徴抽出処理、プレイリスト生成処理などを行うこと ができる。
2. 2. 2 再生側信号処理
この図 20に示す記録再生装置 30Aにおいて上述の記録再生装置 30と異なるのは 、再生モードにおいて、特徴データが検出できず特徴抽出処理を行う場合に、一連 の信号処理をシステムコントローラ系 20においてソフトウェア的に行うことである。 システムコントローラ系 20として、所定性能を備えたマイクロプロセッサ(MPU、又 は CPU)を用 Vヽることで上述した所定の特徴抽出処理を所定の記録処理と同時に行 うことができる。
上述したメモリ系 11も、このシステムコントローラ系 20内に備えられた所定のデータ 記憶メモリを用いることができる。
(3)特徴抽出処理
次に、音声系特徴抽出処理及び映像 (画像)系特徴抽出処理の各信号処理につ いて説明する。
3. 1 音声系特徴抽出処理
音声系特徴抽出処理系では、図 21に示すように、 MPEGの画像音声ストリームデ 一タカストリーム分離系 100に入力され、分離された音声データは音声データデコー ド系 101に入力され所定のデコード処理が行われる。
デコードされた音声データ(音声信号)はレベル処理系 102、データカウンタ系 103 、データバッファ系 104に各々入力され、レベル処理系 102では、音声データの所定 区間の平均パワー(又は平均レベル) Pavを演算するため、データの絶対値化処理 を行い、データカウンタ系 103で所定サンプルデータ数まで計測されるまで、音声デ ータ積算処理系 105で積算処理を行う。
ここで、平均パワー Pavは、音声データの値(レベル)を Ad (n)として以下の(32)式 の演算により求めることができる。
[数 2]
Figure imgf000047_0001
•••(32)
平均レベルを演算する所定区間として、例えば、約 0. Olsec (10msec)〜lsecが 考えられ、例えば、サンプリング周波数 Fsを Fs=48KHzとすると、 480〜48000サ ンプルの積算演算行!、、サンプル数 Smで平均処理を行って平均レベル(平均パヮ 一) Pav 永める。
音声データ積算処理系 105から出力されたデータ Pavは、判定処理系 106に入力 され、 L ヽ値設定系 107で設定された所定しき ヽ値 Athと比較処理され無音判定 処理が行われる。
ここで、しきい値設定系 107における所定しきい値 Athの設定において、 Athは固 定値 AthOとして設定することが考えられる力 固定値 AthOの他に、所定音声区間 の平均レベルに応じた変動しきい値 Athmを設定することも考えられる。
変動しきい値 Athmとして、例えば、いま処理を考えている区間を nとし、それより前 の区間(n— k)の平均レベル Pav (n— k)を考え、次の(33)式のようにすることが考え られる。
[数 3]
Athm Pav(n-k)/m {t≤m )
•••(33)
例えば、 t= 2として、
Athm= (Pav(n- l) + Pav(n- 2) ) /m · · · (34)
例えば、 mは、おおよそ 2〜20くらいの範囲に設定する。
(その他の音声特徴抽出処理)
データバッファ系 104に蓄積された所定音声データは、周波数解析処理系 108に 入力され、所定の周波数解析処理が行われる。 ここで、周波数解析処理として FFT (高速フーリエ変換)などが考えられ、データバ ッファ系 104からのデータの所定解析サンプルデータ数は、例えば、 512、 1024、 2 048、その他、など 2述べき乗の所定サンプル数で所定の解析処理を行う。
周波数解析処理系 108からの信号 (データ)は、判定処理系 109に入力され、所定 の判定処理が行われる。
音楽 (楽音)の判別処理は、所定周波数帯域のスペクトルピークの継続性力 行うこ とがでさる。
例えば、特開 2002— 116784号公報などにはそれらの技術が開示されている。 話者音声の判定では、人の会話音声波形で息継ぎの区間があるので、波形に所 定の急峻な対上がり、又は立下り区間が見られ、その所定立ち上がり、又は立下り区 間を検出することで所定の信号処理を行うことができる。
この場合に、上記音楽 (楽音)信号波形の場合は話者音声の場合に比べて、一般 的に波形の立ち上がり、又は立下り区間が現れる確率は小さいと考えられるので、こ の楽音 (音楽)波形の特性 (特徴)も考慮して、総合的に音声信号の属性判定を行う ようにする。
上述のような、話者音声信号の波形特徴 (波形特性)、音楽 (楽音)信号の波形特 徴 (波形特性)の相違力も音声信号の属性判定を行う場合に、波形における時間的 な物理特性を検出することになるので、上述したような周波数解析を行って力も所定 の判定信号処理を行う方法 (周波数領域での信号解析、判定処理)の他に、ベース バンド領域で所定の判定処理を行う方法 (時間領域での信号解析、判定処理)を用 いることがでさる。
ここで、音声信号 (音声データ)をデコード処理しないで、圧縮帯域のままで信号の 属性解析を行う場合の音声系特徴抽出処理系の構成例を図 22に示す。
図 22に示す音声系特徴抽出処理系では、所定の帯域圧縮信号処理が施された データストリーム、例えば、 MPEGなどの画像音声データがストリーム分離系 100に 入力されて画像データと音声データに分離され、音声データはストリームデータ解析 系 110に入力され、所定のサンプリング周波数、量子化ビット数その他などの信号解 析処理が行われ、所定の音声データはサブバンド解析処理系 111に入力される。 サブバンド解析処理系 111で所定のサブバンド解析処理が行われ所定サブバンド 帯域のデータは上記(32)式〜(34)式で説明したのと同様の所定信号処理が行わ れる。
すなわち、音声データ積算処理系 105に入力され、データカウント系 103で所定の サンプリングデータ数が検出されるまで所定の積算処理が行われ、その後、しきい値 設定系 107で設定される所定しき 、値に基づ 、て判定処理系 106で所定の無音判 定処理が行われる。
この無音判定処理では、音声データのスペクトルを考慮して、エネルギが多く集ま つている帯域で、サブバンド帯域としては大よそ 3KHz以下の所定データ帯域を用い ることがでさる。
また、周波数解析により楽音 (音楽)、話者音声の判定処理が行えることを述べたが 、サブバンド解析処理系 111の処理により、この信号処理系で所定の周波数解析が 行われることと同様であるので、上述したような所定スペクトルピークの継続性判定処 理を行うことで属性判定の信号処理を行うことができる。
この場合、スペクトルピークは、各所定サブバンド帯域の中の最大データ帯域であ るので、 FFT解析処理の場合と同様の信号処理を行うことができる。
3. 2 画像系特徴
次に映像 (画像)系の特徴抽出処理について説明する。
映像系特徴抽出処理系では、図 23に示すように、ストリーム分離系で所定の分離 処理が行われた画像データは、ストリームデータ解析系 200に入力され、レート検出 、画素数検出その他など所定のデータ解析が行われ、 DCT係数処理系 201で DCT の DC係数検出、 AC係数検出など所定の DCT演算処理 (逆 DCT演算処理)が行わ れ、この DCT係数処理系 201の出力に基づいて、シーンチェンジ検出処理系 202、 色特徴検出処理系 203、類似画像検出処理系 204、人物検出処理系 205及びテロ ップ検出判定処理系 206における各種処理が行われ、動きベクトル処理系 208では 、所定の動きベクトル検出処理が行われる。
3. 2. 1 シーンチェンジ特徴
シーンチェンジ検出処理系 202では、例えば、所定画面領域に分割しその領域毎 に DCTの DC係数データの Y (輝度データ)、 Cb、 Cr (色差データ)の平均値を演算 してフレーム間差分演算又は、フィールド間差分演算をその領域毎に行い、所定しき い値と比較して、所定のシーンチェンジ検出を行う。
シーンチェンジがない場合は、各領域のフレーム間(又はフィールド)差分データは 所定しきい値より小さぐシーンチェンジがあるとしきい値より差分データが大きくなる 場合が検出できる。
ここで、画面分割の領域は、例えば、図 24に示すように有効画面を 16分割するよう な領域とする。
演算する画面分割の方法は図 24の場合に限らず、分割数を多くすることも、少なく することもできるが、少なすぎるとシーンチェンジの検出精度が鈍感になり、分割数が 多いと精度が鋭すぎることが考えられるので、およそ 256 (16 X 16)以下の範囲の間 で適当な所定の分割数を設定する。
3. 2. 2 色 (カラー)特徴
色特徴検出処理系 203では、 DCTの DC係数の、所定領域における Y、 Cb、 Crデ ータの平均値力も色特徴を検出することができる。
所定領域としては、例えば、図 25に示すような領域とすることができる。この図 25で は、有効画面を横方向に 4分割し検出領域 1〜検出領域 4、縦方向に 4分割して検 出領域 5〜検出領域 8を設けている。各検出領域には領域 IDが付され、各検出領域 のデータは領域 IDによって識別される。
ここで、場合に応じて横方向だけの検出領域 1〜4、又は縦方向だけの検出領域 5 〜8を設けるようにする。
また、図 25のような領域分割以外にも、 5 X 5や、 6 X 6といった碁盤状の分割方法 とすることちでさる。
例えば、放送番組で番組ジャンルとして「相撲」の場合を想定した場合に、図 25の 検出領域 3領域で茶色が検出できる場合は「土俵のシーン」の確率が高 、と想定で きる。
この色特徴と例えば、音声の属性特徴と組み合わせると、「土俵のシーン」 +「音声 属性その他 (又は話者音声)」から「取組みが開始するシーン」の確率が高 、想定で きるので、このようなシーン区間がキーフレーム区間と設定できる。
この場合には、取組み開始シーンでは観客の歓声などで音声レベルが大きくなつ たり、通常の状態とは異なる音声周波数帯域のデータが検出されることになるので、 音声レベルや、所定の周波数領域データも特徴データとすることができる。
3. 2. 3 類似シーン (類似画像)特徴
類似画像検出処理系 204では、類似シーン (類似画像、類似映像)毎に、所定の I D (識別番号、又は識別記号)をその画像 (シーン)に付与 (付加)(又は、割り当て) する処理で、類似画像 (シーン)には同一 IDが付与 (割り当て)処理される。例えば、 特開 2002— 344872号公報にその技術が開示されている。
この付加 (付与)する処理はその画像 (シーン)又は画像 (シーン)の位置情報 (フレ ーム番号、 PTS、記録時刻など)と一対一に対応するメモリにその IDを記録するもの で、その画像を表示又はその画像カゝら再生するなどの動作を行う場合に、その画像( シーン)の位置情報と IDは一対一に対応しており、画像 (シーン)自体とその位置情 報も言うまでもなく一対一に対応しているので、例えば、同一 IDの画像を表示するな ど類似画像分類や同一 IDの画像シーンの時点をスキップ再生するなど、 IDを利用 する色々な所定動作を行うことができる。
この特徴データとしては、上述のシーン IDについて説明したように、検出頻度の 1 位、 2位などの検出出現順位とすることができる。
また、図 7に示すような、その PU区間長に対するその出現順位 1位、 2位など、検出 した IDの検出長の割合とすることもできる。
この特徴抽出処理は、例えば、画面を複数分割(例えば、 25分割)して、その各分 割した画面領域に対応する領域の DCTの平均 DC係数を演算して、その演算した平 均 DC係数をベクトル成分として、所定ベクトル距離が所定しき!、値より小さ!/、所に対 応する画像 (シーン)を類似画像 (類似シーン)とし、類似画像 (類似シーン)には、同 一の所定 ID (シーン ID)を割り当てる処理である。
例えば、 IDとして、初期値を 1とし、上記所定しきい値より小さい画像 (シーン)が検 出されない場合は、 IDの最大値に 1を加算したものを新たな IDとして、その画像 (シ ーン)に割り当てる。 本発明における、この特徴データの利用方法として、図 5を参照して説明したように 、所定区間での IDの出現頻度を演算して、頻度 1位〜 2位の検出を行うなどの処理 方法がある。
これは、例えば-ユース番組を想定した場合に、アナウンサーシーンが頻繁に出現 する場合や、相撲、野球など、類似シーンの出現が多く見込めるような番組ジャンル では、有効な処理に用いることができる。すなわち、ニュース番組で出現頻度 1位や 2 位では、出現頻度の高いと想定できるアナウンサーシーンが検出できる確率が高い と考えられる。
図 26は、 IDの出現頻度の演算方法を説明するための概要を示すもので、例えば、 区間 fl〜f2、 f3〜f4、 f5〜f6、 f7〜f8の 4区間で同一 IDである ID1が検出されてい る。すなわち、この区間では、類似したシーンが出現している。
図 26に示すように、所定区間同じ IDが連続している区間を 1つとして数え、そのよう な区間が幾つある力を演算する。
類似シーンが出現しなくなると同一 IDではなくなるので、 IDの連続性、不連続性の 数を演算することで所定の頻度を算出することも考えられる。
3. 2. 4 人物特徴
人物検出処理系 205では、図 27に示すように画面の領域を分割し、各領域におけ る所定の特定色を検出することで、人物が画面に現れているかを判定することができ る。
図 27に示した例では、有効画面を 2 X 2に分割した領域 1〜4の 4つの領域と、画 面中央付近の領域 5の 5つの領域としている。
例えば、ニュース番組では、領域 5にアナウンサーの顔が出現する場合の確率が高 い。ことが考えられる。
また、フリップ又はテロップとアナウンサーシーンが出現する場合を想定すると、領 域 1又は領域 2にアナウンサーの顔が出現する場合がある。その場合に領域 2又は 領域 1にフリップ又はテロップが出現すると想定できる。
例えば、特定色として白人の肌色を想定すると、以下の条件式により特定色を検出 することが実験力 分力つて 、る。 0.6<Cb/Cr<0.9〜0.97 ··· (35)
(0≤Cb≤255, 0≤Cr≤255) · · · (36)
以下に説明するように、図 27に示した領域における特定色の検出による方法と別 の方法を用いることができる。
ここでは、簡単のため画面サイズを 720X480とする。
(処理 1)
色信号 (Cb, Cr)からの検出条件(白人系肌色条件) DCT係数 Cb、 Crの DC成分 においてマクロブロックは 16X16で、 X方向は 720Z16=45で、(0〜44)、y方向 は 480Z16 = 30で、(0〜29)毎に以下の(3.2.3)式に示す判定条件でデータポ イントを検出する。場合によっては、 x、 y方向各々 1Z2に圧縮して X方向 0〜22、 y 方向 0〜14として処理する。ここで、 0≤Cb≤255、 0≤Cr≤255である。
0.6く CbZCrく 0.9〜0.97 …(37)
ここで、例えば、 8ビットシフト(128倍)して以下の(38)式のような判定条件とするこ とちでさる。
77< (Cb<<8/Cr)<115~124 · · · (38)
(処理 2)
輝度信号 AC係数からの検出条件 (人物、顔などの輪郭部検出条件)上述の (37) 式や(38)式にして示される判定条件にお!、て、所定しき!、値 Athより大き 、データ を x、 y方向毎に検出する。
xh(x) >Ath ··· (39)
yh(y)>Ath - - - (40)
場合によっては検出データから共分散処理を行う。
例えば、図 28に示すように、參の部分が検出点で例えば以下のようになる。
xh(0)= 0 yh(0)=0
xh(l)= 2 yh(l)=0
xh(2)= 2 yh(2)=3 (処理 3)
検出物の大きさの正当性の検出条件を考え、 xh(x)、 yh(y)の検出で、所定しきい 値 Hthより大き ヽ検出データ点
xh(x) >Hth ··· (41)
yh(y)>Hth - - - (42)
で、 X方向、 y方向毎に所定しきい値数 Lthより大きいデータ
xl(n) >Lth - - - (43)
yl(m) >Lth …(44)
の継続長を検出する。
例えば図 28に示す場合では、 Hth=2で
xh(x) >2
y (y)>2
の検出点が継続している部分の継続長は、
xl(0)=6
xl(l)=l
yl(0)=7
Figure imgf000054_0001
と検出され、例えば、 Lth=3とすると、 xl(0)、 yl(O)がここの処理での検出データと なる。
(処理 4)
人物の顔として、形状の正当性の検出条件を見る。検出された、 xl(n)、 yl(m)の 各々についてその、差分又は比が所定範囲(0〜Dth又は ethl〜eth2)のデータを 検出する。
I xl (n) -yl (m) | < Dth ... (45)
又は
ethl < xl (n) /yl (m) < eth2 · · · (46)
図 28の例では、 xl(O)、 yl(O)について演算を行う。 ここで、人物の顔の形状を考え、顔を 4角形で近似すると仮定し、縦横比を演算す る。
例えば、
0.8<xl(n)/yl(m)<l.5 …(47)
を検出条件と仮定すると、
yl(0)/xl(0)=l.2 - - - (48)
で、図 28の xl(0)、 yl(O)の領域の物体は人物の顔の確率が高いと判定できる。 ここで、(3.2.4)の人物特徴を抽出するようなビットシフト処理を用いることができる 上述の(処理 1)〜(処理 4)の検出条件の他、以下の(処理 5)のような検出データ の継続性判定を行うことができる。
(処理 5)
検出形状の時間 «続性の条件を与える。
(継続性判定 方法 5.1)
場合によっては、上述の(処理 1)〜(処理 4)の検出の時間継続性 (検出の安定性) を判定するようにする。
例えば、(48)式カもピクチャ Nでの検出値 S (N)を
S(N)=yl(0)/xl(0) - - - (49)
とし、 S(N+1)、 S(N + 2)などを検出して継続性の判定を行うようにする。
例えば、
0.8<S(N) <1.5 …(50)
0.8<S(N+1)<1.5 …(51)
0.8<S(N + 2)<1.5 ··· (52)
と 3ピクチャ継続した場合に検出したと判定する。
ここで、検出処理を行うピクチャは、 Iピクチャを用いることができる。
(継続性判定 方法 5.2)
その他の方法として、上述の(処理 1)〜(処理 3)の検出値の何れか、又は幾つか をピクチャ Nでの検出データとして、 N+l、 N + 2、 N + 3と «続検出できるかを判定 するようにしてちょい。
例えば、フレーム Nでの検出値を
Col(N) = (Cb<<8)/Cr · · · (53)
とし、
77<Col(N) <115 - - - (54)
77<Col(N+l)<115 …(55)
77<Col(N+2)<115 · · · (56)
のように、 3つの Iピクチャを継続して検出できたかを判定し、次の検出処理に移行す るようにする。
また、検出された N〜(N + 2)ピクチャのデータの平均値を演算し、条件判定するよ うにしてもよい。
すなわち、検出された 3ピクチャデータの平均値を AvColとし、
AvCol= (Col(N) +Col(N+l) +Col(N + 2))/3
•••(57)
77<AvCol<115 · · · (58)
を判定処理することができる。
(継続性判定 方法 5.3)
上記(39)式、(40)式により、それらをピクチャ Nでの検出値 xh(N) (x)、 yh(N) ( y)として、 N+l、 N + 2などのピクチャでの検出判定の継続性を見ることができる。 すなわち、
xh(N) (x) >Ath ··· (59)
xh(N+l) (x) >Ath - - - (60)
xh(N + 2) (x) >Ath ··· (61)
y (N) (y) >Ath …(62)
yh(N+l) (y)>Ath …(63)
yh(N+2) (y) >Ath …(64)
のように、 3つの Iピクチャが継続して検出できたかを判定し、次の検出処理に移行す るようにする。 また、検出された N〜(N + 2)ピクチャのデータの平均値を演算し、条件判定するよ うにしてもよい。
すなわち、検出された 3ピクチャデータの平均値を Avxh及び Avyhとし、
Avxh=(xh(N) (x)+xh(N+l) (x)+xh(N + 2) (x))/3
•••(65)
Avyh= (yh(N) (y) +yh(N+l) (y) +yh(N + 2) (y))/3
··· (66)式
Avxh>Ath ··· (67)
Avyh>Ath …(68)
を判定処理するようにしてもょ ヽ。
(継続性判定 方法 5.4)
上記 (43)式、(44)式により、それらをピクチャ Nでの検出値 xl(N) (x)、 yl(N) (y) として、 N+l、 N + 2などのピクチャでの検出判定の «続性を見るようにしてもよい。 すなわち、
xl(N)(x) >Lth ··· (69)
xl(N+l) (x) >Lth - - - (70)
xl(N + 2) (x) >Lth ··· (71)
yl(N) (y) >Lth ·'·(72)
yl(N+l) (y)>Lth · · · (73)
yl(N+2) (y)>Lth · · · (74)
のように、 31ピクチャ継続して検出できたかを判定し、次の検出処理に移行するように してちよい。
また、検出された N〜(N + 2)ピクチャのデータの平均値を演算し、条件判定するよ うにしてもよい。
すなわち、検出された 3ピクチャデータの平均値を Avxl及び Avylとし、
Avxl=(xl(N) (x)+xl(N+l) (x)+xl(N + 2) (x))/3
•••(75)
Avyl= (yl(N) (y) +yl(N+l) (y) +yl(N + 2) (y))/3 •••(76)
Avxl>Lth ··· (77)
Avyl>Lth ··· (78)
を判定処理するようにしてもょ ヽ。
(人物数検出の基本的な処理方法の概要)
ここで、人物数の検出判定を説明する。
(人数判定 方法 5.1B)
例えば、図 29の場合、 X方向の所定しきい値以上のデータ xl(0)、 xl(l)の 2個が 検出され、 y方向は yl(O)の 1個が検出されていると仮定する。
ここで、 xl(O)と yl(O)とで特定される領域 1と、 xl(l)と yl(O)とで特定される領域 2 のデータ密度を説明する。
領域 1について、領域の全データポイント S1は、
Sl=xl(0) Xyl(O)
=20 ··· (79)
所定しき 、値より大き 、データ数は、
∑xh(x)=17 - - - (80)
データ密度 Δ 1、すなわち単位データポイント当たりのデータ数 Δ 1は、
Δ1 = 0.85 …(81)
ここで、領域 1が全てしきい値より大きいデータが検出された場合はデータ密度は Δ 1 = 1になる。そこで、所定しき!、値 Mthを設定し、
Al>Mth ··· (82)
を判定する。
同様に領域 2について、領域の全データポイント S2は、
S2=xl(l) Xyl(O)
=25 ··· (83)
となる。所定しきい値より大きいデータ数は、
∑xh(x)=21 - - - (84)
となる。データ密度 Δ 2は、 Δ2 = 0. 84 …(85)
となる。
ここで、例えばしきい値 Mthを
Mth=0. 80 ··· (86)
と仮定すると、(81)式、(85)式から領域 1及び領域 2は条件を満たし、人物が検出さ れたとする確率が高 、と判定される。
ここで、 X方向について、 xl(O) +X1(1)と yl(O)で特定される領域 Stは、全データ ポイント数が、
(xl(0)+xl(D) Xyl(0)=45 · · · (87)
となる。検出データ数は
∑xh(x) =17 + 21
=38 ··· (88)
となる。データ密度は Δは
Δ=8. 4 ··· (89)
となる。
ここで、領域 Stについても
Δ >Mth ··· (90)
であるので、領域 1と領域 2は、同じ y方向の位置に人物が検出されると判定される。 (その他の人数検出例 1 (領域が重なっている場合))
図 30に示す例にぉ 、ては、 X方向に xl (0)の 1個が検出され、 y方向に yl (0)の 1個 が検出されている。
xl (0)と yl (0)で特定される領域 Rにつ!/、て全データポイント Srは
Sr=xl(0) Xhl(O)
=90 ··· (91)
となる。検出データ数は、
∑xh(x)=44 ··· (92)
データ密度 Δι:は、
ΔΓ=0.49 …(93) となる。
ここで、
Ar<Mth
なので、領域 Rには、 1つの人物は検出されるとは判定できない。
データ密度の逆数は、
Figure imgf000060_0001
であり、物体が 2つある可能性がある力 図 31のようにデータがまばらな状態に存在 する場合にもデータ密度は同じになる場合がある。
図 30について、 y方向の分散 σをみる。
yh(y)の平均値を yhav、データ数 mとして
m =yl(0) - - - (94)
σ y= (∑、yh、y)— yhav) 2) z m
= 2. 32 ··· (95)
となる。 x方向については、平均値を xhavデータ数 nとして
n =xl(0) ··· (96)
σχ= (∑ (xh(x)-xhav)"2) /n
= 1.04 ··· (97)
となる。
次に、図 37について、同様に y方向、 X方向の分散は、
σγ=0. 99 …(98)
σχ=0. 64 …(99)
となる。
上述の結果から、図 36の方がデータの分散値が大き 、ことが分かる。
そこで、分散値に対して所定しきい値 Bth、検出物数に応じたしきい値 dl, d2を設 定し、以下のような条件を判定し、検出物数を検出することができる。
ay>Bth …(100)
ax>Bth ··· (101)
dl<l/A<d2 ··· (102) 例えば、図 36の例では、
Bth=2.0 ··· (103)
dl =1.8 ··· (104)
d2 =2.3 …(105)
のように、しき 、値を設定して判定することができる。
(その他の検出例 2 (領域が対角的に離れている場合))
図 32の例では、 X方向に xl(0)、xl(l)の 2個が検出され、 y方向に yl(0)、yl(l)の 2個が検出されている。
xl (0)と yl (0)で特定される領域 ROOにつ!/、て全データポイント S00は
S00=xl(0) Xhl(O)
=20 ··· (106)
検出データ数は、
∑xh(x)=17 ··· (107)
データ密度 Δι:は、
Δ00 = 0.85 ··· (108)
ここで、上記(3.2.52)から
Mth=0.80
としたので、
Δ00> Mth ··· (109)
であり、領域 R00には、 1つの人物が検出される確率は高いと判定される。
次に、 xl(0)と (yl(0) +yl(l))で特定される領域 Raについて全データポイント Sa は
Sa = xl(0) X (yl(0)+yl(l))
=40 ··· (110)
となる。全検出データ数は、(107)式から
∑xh(x)=17 ··· (111)
であり、データ密度 Δ aは、
Aa= 17/40 = 0.43 ··· (112)
となる。これは、しきい値条件を満たしていない。
すなわち、今、 xl(O)と (yl(O) +yl(l))を考えているので、仮に、 Δ aが所定しきい 値より大き 、とすると、 2つの人物が検出される確率は高 、と判定される。
しかし、(112)式から Δ aは、所定しき!、値以下なので、 xl (0)と (yl (0) +yl(l) )で 特定される領域には、 2つの人物は検出されるとは判定できず、(109)式とから、 1つ の人物が検出されると判定することができる。
すなわち、 xl(O)と yl(l)と特定される領域には人物が検出される確立は低いと判 定される。
同様に、 xl(l)と (yl(O) +yl(l))とで特定される領域 Rbについて、全データ数は ∑xh(x)=17 ··· (113)
となる。全データポイント数 Sbは、
Sb=xl(l)(yl(0)+yl(l))
= 40 ··· (114)
となる。データ密度 Abは、
Ab = 17/40
= 0.43 ··· (115)
となる。
この(115)式力 領域 Rbには 2つの人物が検出される確率は低いことになる。 ここで、 xl(l)と yl(O)で特定される領域のデータ密度 Δ 10は、検出データ数が ∑xh(x)=17
であり、全データポイント数が
xl(l) Xyl(0)=20
なので、
Δ 10= 17/20
= 0.85 ··· (116)
xl(l)と yl (1)とで特定される領域のデータ密度 Δ 11につ ヽても同様に
Δ11 = 0.85 ··· (117) となる。
上記(115)式〜(117)式から、領域 10か領域 11の何れかは人物が検出される確 率は低いことになる。
次に、 (xl(O) +xl(l))と yl(O)で特定される領域 Rcのデータ密度について考える 。検出データ数は、
∑yh(y)=17
全データポイント数は
(xl(0)+xl(l)) Xyl(0)=40
よって、データ密度 Acは、
Ac = 17/40
= 0.43 ··· (118)
これは、上述の所定しきい値 Mth以下なので、領域 Rcは 2つの人物が検出される 確率は低ぐ(109)式及び(115)式〜(117)式などから、結局、人物が検出される のは、 xl(O)と yl(O)で特定される領域、 1(1)と 1(1)で特定される領域の2っとなる 以上のような判定処理により、人物数検出を行うことができる。
(その他の人検出処理方法 (方式 2))
その他の方法として、 X方向(0〜44)及び y方向(0〜29)に対して順次、所定しき い値条件を満たすかを判定して人検出を行うことができる。
データ系列を d(x) (y)として、上記(37)式、(41)式及び (42)式の条件を満たす データ系列を検出していき、例えば、
d(xl) (yl), d(x2) (yl)
d(xl) (y2), d(x2) (y2)
このように、 x方向と y方向で連続して検出されたとすれば、検出物の大きさと、位置も 同時に分力ることになる。
この方法では全データを 1つずつ検出し、系列データの連続性の判定を行うなどの ため、演算時間が上述の(方式 1)に比較して多くかかる。
この手法を行う場合には、例えば、 X方向及び、 y方向にデータを 1Z2に圧縮して データ処理数を減らして力 行うようにする。
(その他の人検出処理方法 (方式 3) )
上述の (方式 2)と類似の他の手法として、人物を 4角形で近似し、 4角形の大きさを 順次変えて、その 4角形の領域のデータが所定の条件を満たすかを判定することに より人物の検出を行うようにするとことができる。
例えば、図 33のように(2 X 2)、(3 X 3)、(4 X 4)の 4角形の領域を設定する。 上述のような大きさの異なる 4角形の領域を順次小さい 4角形から 1データずつ移 動させ、その領域内のデータが条件を満たす力判定していき、全ての領域で判定が 終了したら、次の大きさの 4角形についても同様に処理を行う。
全ての大きさの 4角形について、処理が終了した時点で、検出領域と、検出個数が 分かるが、上述の (方式 2)同様処理時間を要することになる。
3. 2. 5 テロップ特徴
テロップ検出判定処理系 206では、図 25に示すような画面の領域における DCTの AC係数の平均値を検出する。
所定領域における画面内で、所定の大きさの文字情報を含むテロップは比較的、 輪郭がはっきりしており、図 25の何れかの領域にテロップ画像が現れた場合に、所 定しきい値以上の AC係数が検出でき、これによりテロップ検出を行うことができる。 上述のように DCTの AC係数を検出する方法の他に、ベースバンド領域(時間領域 の信号)でエッジ検出する方法を用いることができ、例えば、画像の輝度データのフ レーム間差分によりエッジを検出するようにする。
また、ウェーブレット変換により、多重解像度解析を行い、所定の高周波成分デー タを含む所定の多重解析度領域におけるデータを用いて、図 25に対応する領域の 平均値を演算するようにして DCTの AC係数を用いる場合と同様の信号を行う。 テロップは、フリップの用に淡色領域とは限らず、例えば、ニュース映像の下部に出 現する文字情報であり、出現領域は、おおむね、番組ジャンルにもよる力 画面の下 部、上部、又は左側際、右側際などの場合の可能性が大きい。
テロップ特徴と、フリップ特徴をまとめて、文字特徴とすることも考えられる。
3. 2. 6 カメラ特徴 カメラ特徴判定処理系 209では、ズーム、パンその他などのカメラ動作に関する特 徴で、例えば、特開 2003— 298981号公報に開示されているように、 MPEGの場合 には、 Pピクチャのモーションベクトル(動きベクトル)を用いて判定することができる。 その他に例えば、特表 2002— 535894号公報にカメラ特徴に関する技術が開示 されている。
(4)再生ユニット(プレイユニット)処理
ここで、要約再生 (ダイジェスト再生)は、所定の信号処理による音声系特徴データ 、映像系特徴データの各特徴データを用いて所定の信号処理により、所定区間内に おいて幾つ力の重要再生区間 (キーフレーム区間)を選定 (選択)して、その各区間 を逐次、スキップ再生するようにすることができる。
スキップ再生を行う場合に、例えば、話者音声区間の途中で、スキップすると、画面 上は見ていてあまり違和感がない場合でも、音声の途中で途切れる場合にユーザに よっては聴感上で違和感を生じる場合が想定されるので、所定音声レベル (音量)以 下の区間を無音区間と設定し、その区間内の所定の時点をスキップ時点の候補とす る。
また、映像のシーンチェンジは、放送番組、映画その他の映像再生では、話題の区 切りの時点とみられるので、シーンチェンジ点、又はその近傍をスキップ時点の候補 とすることちでさる。
上述のことから、所定音声信号における所定無音区間と所定映像信号のシーンチ ェンジ時点又はその近傍の所定時点に応じてスキップ再生時点、スキップ再生区間 を捉えることができる。
ここでは、上述のような観点から、((スキップ再生時点間(又はその区間)))を、便 宜上、所定の再生単位(以下再生ユニット又はプレイユニット Play Unit (又は PU) ) を設定して処理を行う。
このように設定された再生ユニット (PU)における所定の画像系特徴データ、所定 の音声系特徴データが所定処理され、それら映像、音声特徴データと要約再生時間 に応じて所定の要約再生 (ダイジェスト再生)区間が設定され、所定の要約再生モー ドでスキップ再生を行うことで所定の要約再生が実行される。 また、上述のような要約再生を行うだけでなぐ所定の信号処理により設定された P Uの最初 (又はその近傍)又は最後(又はその近傍)の時点にチヤプタ (又は編集点 、又は再生区切り点)を設定することもできる。
すなわち、上述したようなチヤプタを設定することで、そのチヤプタ点を所定の信号 処理によりサムネール表示を行うことや、ユーザがそのサムネール表示を見て編集を 行うなどの操作を行うことができる。
次に、再生ユニット(プレイユニット)(PU)の処理の一例について、図 34〜図 35を 参照して説明する。
(有音区間の場合 (音声信号が所定レベル以上の場合))
図 34Aに示す処理法 1のように、所定平均レベル以上の有音区間で、その音声区 間が 10秒〜 20秒の範囲の場合には、シーンチェンジによらず音声セグメントが 15秒 に最も近い切れ目(所定の無音検出時点)を再生ユニットの区切りとする。
図 34Bに示す処理法 2のように、音声区間が連続して 20秒より長ぐシーンチェン ジ区間が 20秒以下の場合には、シーンチェンジの切れ目が 15秒に最も近いシーン チェンジ検出点を再生ユニットの区切りとする。
図 34Cに示す処理法 3のように、音声連続して 20秒より長ぐシーンチェンジ区間 が 20秒より長い場合には、音声セグメント、シーンチェンジによらず、再生ユニットが 2 0秒になったらその時点で区切りとする。
図 34Dに示す処理法 4のように、音声特徴の属性が 10秒〜 20秒の範囲で変化す る場合には、その属性変化点を再生ユ ットの区切り点とする。
図 34Eに示す処理法 5のように、 CM (コマーシャル)検出した場合には、 CM検出 点を再生ユニットの区切り点とする。
ここで、 CM検出の方法について図 35を参照して説明する。
一般的に放送番組の CMの区間長は所定時間長(通常一般的には、 15秒又は 30 秒又は 60秒)であり、 CMの区切り点(開始、終了時点)ではシーンチェンジがあるの で、上記所定時間長の検出とシーンチェンジ検出をすることで、図 36に示すように C Mを検出することが可能である。
(無音区間の場合 (音声の平均レベルが所定以下の場合)) 図 35Aに示す処理法 6のように、無音区間(音声平均レベルが所定以下の区間)が 20秒より長ぐシーンチェンジ検出区間長が 20秒以下の場合には、 15秒に最も近い シーンチェンジ検出点を再生ユニットの区切り点とする。
図 35Bに示す処理法 7のように、無音区間が 20秒より長ぐシーンチェンジ検出区 間が 20秒より長い場合には、シーンチェンジ検出点によらず、再生ユニットの開始点 から 20秒の時点で区切り点とする。
上述の何れの再生ユニット処理の説明で、再生ユニットの開始点の初期値は、その プログラム (放送番組)を記録した開始時点とする。
上述のような再生ユニット処理により、所定の音声特徴、所定の映像特徴 (シーンチ ェンジ特徴)に応じた所定の再生単位を再生することができる。
(再生ユニット生成処理系ブロック構成例)
上記で説明した再生ユニットの生成する処理系と、後で説明する、この再生ユニット に特徴データを入れ込むユニット化特徴データ処理系のブロック構成例を図 37に示 す。
要約再生、チヤプタ点設定などの所定時点設定処理は、再生ユニットの開始点、終 点に設定するので、上記で説明した再生ユニット毎に特徴データを対応付けて処理 を行う。
すなわち、所定区間毎に特徴抽出した所定の各特徴データ、音声系特徴データ、 映像系特徴データを再生ユニットの区間に基づいて反映させる処理を行う。
ここで、図 37に示すユニットィ匕特徴データ処理系のブロック構成例について説明す る。
図 37に示すブロック構成例では、無音判定情報データが時間計測系 301に入力さ れ、上記で説明した再生ユニット処理に基づく所定の間隔 (時間長)が計測され、そ の処理出力が再生ユニット処理系 302に入力される。
再生ユニット処理系 302は、シーンチェンジ判定情報データと CM検出判定情報デ ータも入力され、再生ユニット処理の各処理方法の説明で行ったような信号処理を行 V、所定の再生ユニットを生成する。
ここで、 CM検出系 304は、無音特徴検出情報データとシーンチェンジ特徴情報デ ータ、それに CMが放送されて!、る番組のチャンネルかを判定するチャンネル情報が 入力され、図 36を参照して説明したような所定の信号処理方法により、 CM検出処理 を行う。
再生ユニット特徴データ処理系 303は、音声属性情報、無音情報などの音声系特 徴データと、シーンチェンジ特徴、色特徴、類似画像特徴、人物特徴、テロップ特徴
、人物特徴などの各特徴データが入力され、後で説明するように再生ユニットに各特 徴データを入れ込む処理を行って 、る。
(5) PU特徴データ処理
次に、 PU特徴データファイル処理について説明する。
PU特徴データファイルには、音声系特徴データ及び映像系(画像系)特徴データ がある。
この特徴データ処理は、上述した再生ユニットに特徴抽出した各音声系、映像系特 徴データを入れ込む処理を行った結果のデータ(データファイル)であり、再生ュ-ッ ト毎に各種特徴データが所定の記録媒体に記録される。
ここで、再生ユニット毎に特徴データを記録する場合には、各特徴データを所定の 検出区間通りに検出した各特徴データを所定記録媒体に記録して、その後、上述し た再生ユニットの所定区間に応じた特徴データに処理を行う。
特徴データは、音声信号 (音声データ)、画像 (映像)信号 (画像 (映像)データ)か ら、所定の特性データ (特性信号)を取り出して、その取り出した信号 (データ)を所定 の処理を行うことで、音声、画像の特徴を示す特徴データとすることができるが、ここ では、特別な注意書きをする場合を除き、特性データ (特性信号)から所定の処理を 行って特徴を示す信号 (データ)も特徴データ (特徴信号)と記述するものとする。 映像 (画像)信号は、 MPEGストリームカゝら特性データとして Iピクチャにおける輝度 信号 (Y信号)、色信号 (色差信号)(Cb、 Cr信号)の DCTの DC係数、 B又は Pピクチ ャの動きベクトル(モーションベクトル)データ、また、 DCTの AC係数をそれぞれ取り 出し、取り出した画面位置情報、所定しきい値、相関演算などから、シーンチェンジ 特徴 (sen特徴)、カメラ動作特徴 (カメラ特徴)(cam特徴)、類似画像特徴 (類似シー ン特徴又はシーン ID特徴)(sid特徴)、テロップ特徴 (tip特徴)、色特徴 (カラー特徴 ) (col特徴)、人物特徴 (Person特徴)などがある。
音声信号は、特性データ処理として、例えば、約 20ms毎に平均レベルが演算処 理されこの演算データと所定しき 、値とから、所定区間における音声信号の属性 (種 別)、平均パワー(平均レベル)などの音声特徴 (seg特徴)である。
ここでは、音声属性として、話者音声、音楽 (楽音)、スポーツ番組などにおける歓 声などの音声が想定される。
5. 1 特徴データファイルの構成
図 38に示す特徴データファイルの構成例 1は、上述した音声系特徴データ、シー ンチェンジ特徴 (sen特徴)、カメラ特徴 (cam特徴)、類似シーン特徴 (sid特徴)、テ ロップ特徴 (tip特徴)、色特徴 (col特徴)、人物特徴 (Person特徴)などの映像系特 徴データを各々別々の特徴データファイルとする例である。
各々の特徴データファイルはテキスト形式のデータ又は、バイナリー形式のデータ で書き込まれている。
なお、これらの特徴データは、所定の記録媒体に記録するファイルデータとしての 他に、通常のデータとして所定の記録媒体(半導体メモリなど)に一時的に記憶 (記 録)して、後で説明する要約リストデータ生成や所定設定時点生成 (チヤプタ点の生 成)などの所定の処理のために読み出して用いることも考えられる。以下に説明する 図 39、図 40の場合も同様である。
図 39に示す例 2は、上述した全ての音声系特徴データをテキスト形式又は、バイナ リー形式の 1つのファイルとしてまとめ、上述した全ての映像系特徴データをテキスト 形式又は、バイナリー形式の 1つのファイルとしてまとめた場合の例である。
図 40に示す例 3は、上記した全ての音声系特徴データ及び、上記した全ての映像 系特徴データをテキスト形式又は、バイナリー形式の 1つのファイルとしてまとめた場 合の例である。
このように、 1つのファイルとしてまとめることにより、図 38の例 1の場合と比較してフ アイル数が 1つだけなので、ファイルとしての扱いが簡単になり、さらにバイナリー形式 とすると、データサイズ (ファイルサイズ、ファイル容量)が小さくなり効率的になる。 ここでは、特徴データファイルを図 40の例 3に示すような場合で特徴データをバイ ナリー形式で書き込む場合について説明する。
また、図 40に示す例 3は、図 39に示す例 2において、全ての音声系特徴データを バイナリー形式で記述したデータと、全ての映像系特徴データをバイナリー形式で記 述したデータを一緒にしたものなる。
上述のことから、特徴データファイルにおける以下の説明における音声系特徴デー タの処理方法 (記述方法)は、図 39に示すにおける音声系特徴データについて適用 することができ、映像系特徴データの処理方法 (記述方法)は、図 39の例 2における 映像系特徴データについて適用することができる。
5. 2 特徴データの階層構造
再生ユニットを単位とする特徴データの階層構造を図 41に示す。
以下に示す例は、所定の処理単位 (再生ユニット)における所定の特徴データ処理 である。
特徴データは、図 41に示すように、特徴データヘッダ情報、プログラム 1特徴デー タ、プログラム 2特徴データなどで構成される。
特徴データヘッダ情報は、図 42に示すように、プログラム 1、プログラム 2、などプロ グラム全体の総記録時間、記録開始、記録終了時刻、プログラム数 (番組数)、その 他情報などの所定データ力 構成されて 、る。
次に、プログラム 1特徴データを例に、プログラム (番組)の特徴データについて説 明する。
図 41に示すように、プログラム 1特徴データは、プログラム 1情報、再生ユニット 1情 報、再生ユニット 2情報などで構成されている。
図 42に示すように、プログラム 1情報は、プログラム記録時間、プログラム開始、終 了時刻、プログラムジャンル (番組ジャンル)、その他情報などの所定データで構成さ れている。
次に、再生ユニット 1情報を例に、再生ユニットのデータ構造について説明する。 図 41に示すように再生ユニット 1情報は、音声特徴データ、映像特徴データで構成 されている。
(音声系特徴データの構成) 図 41に示すように、音声系特徴データは、系列番号情報、開始終了位置情報、音 声属性情報、特徴データ、その他情報データなどで構成されている。
(映像系特徴データの構成)
図 41に示すように、映像系特徴データは、シーンチェンジ特徴、色特徴、類似画像 特徴、人物特徴、テロップ特徴、カメラ特徴などの各所定の特徴情報データカゝら構成 されている。
以下のシーンチェンジ特徴、色特徴、類似画像特徴、人物特徴、テロップ特徴、力 メラ特徴など各特徴データの説明で、全ての所定区間でその各項目の特徴データを 所定記録媒体に記録 (書込処理)する処理の他に、例えば、所定しきい値以上の特 徴データが検出された場合のみ、そのデータとして所定の記録媒体に記録 (書込処 理)するように所定データ処理を行う。
このように、所定しきい値以上の特徴データが検出された場合のみ、所定のデータ 処理を行う場合には、しきい値より小さい場合には所定の特徴データが書き込まれな V、ので、しき 、値以上の特徴データが検出されて所定の記録 (書込み)処理が行わ れ、最初力 何番目の特徴データ検出かを知る場合には、下記で説明する系列番 号情報力 知ることができる。
(シーンチェンジ特徴)
図 43に示すように、系列番号情報、開始終了位置情報、特徴データ、その他デー タカらなる。
ここで、系列番号情報は、 0、 1、 2、 3、 · · ·とそのプログラム (方法番糸且)の始めから のシーンチェンジが起きた順番を示す情報である。
開始終了位置情報は、上記各順番のシーンチ ンジの開始終了の位置を示す情 報データで、フレーム(フィールド)番号、 PTS、 DTS、時間などの情報データを用い ることがでさる。
(色特徴)
図 43に示すように、系列番号情報、検出領域を識別する情報データ、開始終了位 置情報データ、特徴データ、その他データなど力もなる。
ここで、系列番号情報は、 0、 1、 2、 3、 · · ·とそのプログラム (方法番糸且)の始めから の色特徴検出の順番を示す情報である。
開始終了位置情報は、上記各順番における色特徴検出で、各領域の特徴検出し た開始終了の位置を示す情報データで、フレーム(フィールド)番号、 PTS、 DTS、 時間などの情報データを用いることができる。
特徴データは、例えば、 RGB、 Y、 Cb、 Crなどのデータがある。
(類似画像特徴)
図 43に示すように、系列番号情報、頻度情報開始終了位置情報、特徴データ、そ の他データなどからなる。
ここで、系列番号情報は、 0、 1、 2、 3、 · · ·とそのプログラム (方法番糸且)の始めから の類似画像特徴検出の順番を示す情報である。
特徴データとしては、上述したような有効画面を所定数の領域に分割(例えば 25分 割)した各分割領域の DCTの平均 DC係数などがある。
(人物特徴)
図 43に示すように、系列番号情報、検出領域を識別する情報データ、開始終了位 置情報データ、特徴データ、その他データなど力もなる。
ここで、系列番号情報は、 0、 1、 2、 3、 · · ·とそのプログラム (方法番糸且)の始めから の類似画像特徴検出の順番を示す情報である。
(テロップ特徴)
図 43に示すように、系列番号情報、検出領域を識別する情報データ、開始終了位 置情報データ、特徴データ、その他データなど力もなる。
ここで、系列番号情報は、 0、 1、 2、 3、 · · ·とそのプログラム (方法番糸且)の始めから のテロップ特徴検出の順番を示す情報である。
(カメラ特徴)
図 43に示すように、系列番号情報、検出領域を識別する情報データ、開始終了位 置情報データ、特徴データ、その他データなど力もなる。
ここで、系列番号情報は、 0、 1、 2、 3、 · · ·とそのプログラム (方法番糸且)の始めから のカメラ特徴検出の順番を示す情報である。
ここで、放送番組を記録する場合に、放送番組の所定の記録処理と同時に、ここで 説明する特徴抽出処理、特徴データの書込処理 (記録処理)を行うことができるが、 既に、記録済みの放送番組や、その他映画、ドラマその他画像音声ソフトについて、 所定の特徴抽出処理を行 ヽ、特徴データファイルを生成することもできる。
プログラム 1について、上述のように PUと特徴データを用いるとき、そのほかのプロ グラム 2、プログラム 3などを記録する場合にも、上述したプログラム 1の場合と同様に PUと特徴データを用いることができる。
(6)プレイリスト処理 (要約再生リスト生成処理)
次に、上記した特徴抽出処理が生成した PUファイル (PU特徴データファイル)から 、要約再生 (ダイジェスト再生)を行うための要約データ処理に関する説明を行う。 6. 1 要約ルール処理
本願で述べる特徴データを用いる要約再生 (ダイジェスト再生)では、上述した PU を単位とする所定再生区間をスキップ再生処理することで所望の要約再生 (ダイジ スト再生)を行う。
6. 2 所定時点設定処理 (プレイリストファイル)処理
次にプレイリストファイルについて説明する。
このファイルは、上記した特徴データに応じて意味付けされた PU、又は PUの接合 体 (PUの集合体、又は PUの連結体)の内どれを選択して再生処理を行うかの所定 データの情報が所定の書式に応じて記述されているデータである。
ここで、このデータは特徴抽出の基となった画像音声データが記録された所定の記 録媒体に記録する(書込処理)場合の他に、所定のメモリ手段に一時的に記憶する 場合も考えられる。
プレイリストファイルの一例を図 44A、図 44Bに示す。
図 44Aに示す例 1における(a)の縦のデータ系列は、再生区間の開始位置情報の データで、フレーム番号、時間(時刻)、ストリーム (圧縮された画像音声データ)から の PTS (プレゼンテーション ·タイム 'スタンプ)、あるいは DTS (デコード 'タイム ·スタ ンプ)などの所定の情報データなどである。
図 44Aに示す例 1における(b)の縦のデータ系列は、再生区間の終了位置情報の データで、例 1の(a)のデータと対応して、フレーム番号、時間(時刻)、ストリーム(圧 縮された画像音声データ)力もの PTS (プレゼンテーション'タイム'スタンプ)、あるい は DTS (デコード ·タイム'スタンプ)などの所定の情報データなどである。
図 44Aに示す例 1における(c)の縦のデータ系列は、その PU (再生ユニット)又は 再生ユニット群 (PU群)の重要度である。
図 44Aに示す例 1における(d)縦のデータ系列は、要約ルールで規定された、又 は設定された意味の文字データである。
図 44Bに示す例 2は、全ての PU区間について意味文字と評価値 (重要度)を記述 し、再生区間、チヤプタ設定などの所定時点を示すために「1」、「0」の識別データを 設けた場合の例である。
図 44Bに示す例 2の(a) (b)で示される開始点、終了点は、次の段のデータと連続 的になっているのが分かる。
例えば、図 44Bに示す例 2において、最初の開始点 0終了点 229で、次の開始点 2 30に連続的につながつている。
図 44Bに示す例 2における(e)の縦のデータ系列は、要約再生を行うかどうかのフ ラグ情報データで、「1」の場合は再生を行う場合で、「0」の場合は再生を行わない場 合である。
また、「1」の最初の時点、「0」の最初の時点を所定時点設定点(チヤプタ点)と見る ことができる。
(7)動作フローチャート
図 45は、本発明の動作フローチャートの一例であり、これについて説明する。 処理を開始すると、まず、最初のステップ S1で記録モードか再生モードか判定され
、記録モードの場合は記録処理 (R)に、また、再生モードの場合はステップ S2の処 理に移行する。
7. 1 再生処理関係動作フローチャート
(再生処理動作フローチャートの一例)
再生モードの場合は、ステップ S2で要約再生 (ダイジェスト再生)モードか通常再生 モードか判定され、通常再生モードの場合は通常再生処理 (P)に移行する。
要約再生モードの場合は、ステップ S3で所定の特徴データが所定記録媒体に記 録されて!/ヽるかの検出処理、又は所定ファイルデータとして記録媒体の所定記録領 域に記録されて ヽるかの検出処理が判定処理される。
ステップ S3で所定の特徴データが検出される場合には、ステップ S4で所定のプレ イリストデータ(データファイル)が所定記録媒体の所定記録領域に記録されて!ヽるか が検出され、プレイリストデータ (プレイリストファイル)が検出される場合は、ステップ S 5で所定プレイリストデータを読出処理する。
ステップ S3で所定の特徴データが検出されないと判定される場合には、ステップ S 8で 、ま要約再生しょうとする画像音声データ (プログラム、放送番組)を読み込んで 所定の特徴抽出処理を行い、ステップ S9で処理が終了したかが判定され終了しな い場合はステップ S8に戻り終了するまで処理を行う。
ステップ S9で所定の特徴抽出処理が終了したと判定された場合には、ステップ S6 に移行して所定のプレイリストデータ生成処理が行われる。
ステップ S4で所定のプレイリストデータ(ファイル)が検出されないと判定される場合 は、ステップ S6において所定の記録媒体の所定記録領域に記録され、又は記憶さ れて 、る所定の特徴データを読込処理して所定のプレイリストデータ (ファイル)を生 成処理して所定の記録媒体の所定領域に逐次、あるいは、処理が終了後データを 書き込み、ステップ S7で全てのプレイリスト生成処理が終了したかが判定され、終了 しない場合はステップ S6に戻り処理を繰り返し、 S7で所定のプレイリストデータが全 て生成されたと判定された場合は、ステップ S5で書き込んだプレイリストデータを読 込処理する。
ここで、ステップ S6において、逐次生成されたプレイリストデータは上記放送番組な どの画像音声情報データが記録されている同じ記録媒体上の所定記録領域に、逐 次記録するようにしてもよいし、又は画像音声データが記録されたのとは別の記録媒 体、例えば、装着、着脱可能な所定メモリ手段などに情報を書き込むようにしてもよい この場合にも、所定プレイリストデータが逐次生成処理されるとともに、逐次データ を書き込む (記憶処理する)ようにしてもよ!、し、所定プレイリストデータが全て生成処 理され、プレイリスト処理が終了してから、生成された全てのプレイリストデータをまと めて記録 (記憶)処理するようにしてもょ 、。
また、プレイリストデータは、図 46、図 47を参照して説明するように、記録時間に応 じて、ユーザが複数の要約再生時間を選択できるように、記録時間に応じて、複数の プレイリストデータを生成するようにしてもよ 、。
ここでは、上述したように、所定 PU区間、又は複数の PU区間の接合された所定区 間毎に、所定評価値も設定処理されるので、評価値に応じて要約再生時間を操作す ることがでさる。
ステップ S10で再生時間選択モードになり、ステップ S11で、ユーザがすぐ再生時 間を選択した力 又は要約再生モード選択した後プレイリストデータの検出処理終了 後から所定時間 tmod内にユーザが再生時間を選択処理したかが判定され、選択さ れない場合は、 S 12でユーザにより再生ストップが選択されたかが判定処理される。 ステップ S12でユーザにより再生ストップが選択された場合は処理を終了し、再生 ストップでない場合はステップ S 10に戻り上記所定の処理を繰り返す。
ステップ S11で、ユーザが再生時間をすぐ選択した場合、又は上記所定時間の tm od内で再生時間を選択しない場合はステップ SI 3で要約再生動作処理に移行する ここで、ユーザが再生時間を選択した場合はその要約再生時間で、再生時間を選 択しないで上記所定時間 tmod経過した場合は、所定のデフォルト設定再生時間( 所期設定再生時間) tpbOが設定される。
ここで、ユーザにより要約再生時間を任意に選択できるようにしてもよいし、記録し たプログラム記録時間とプレイリストデータに基づ 、た、予め設定された再生時間か ら選択処理できるようにしてもょ 、。
この場合、例えば、 5分、 10分、 15分、 20分、 30分などの時間とした場合に、デフ オルトの要約再生時間は、記録時間に応じて、例えば、図 46のように設定することも できる。
図 46に示す例では、所定記録時間以上 (Trecmin)の場合にのみ要約再生モード が設定できるようにして、この所定記録時間 Trecminとして、記録時間 Treeが 10分 未満の場合は、時間が短いので、要約再生は設定されず通常再生のみとしている。 一例として、図 46から記録時間 Treeが 60分の場合は、ユーザによる選択可能な 要約再生時間は、 10分、 15分、 30分、 40分となり、デフォルトの設定時間は、 30分 となる。
図 46に示す例では、記録時間 Treeが長くなるほど、ユーザによる選択可能な要約 再生時間の選択数が多くなつているが、上記したように、記録時間が短い場合は、ス キップ再生処理による要約再生でスキップ処理される総区間が多くなると、それだけ 情報が欠落することになり、再生内容が把握できなくなることが考えられるので選択 数を少なくし、適切な要約時間の選択が行えるようにし、それに比較して記録時間が 長い場合は、情報量が多いので選択数を多くしてユーザによる効果的、有効な動作 が行えるようにしている。
このようなユーザによる選択可能な要約再生時間の一覧、デフォルトの再生時間な どの情報は、本発明を適用した記録再生装置における所定表示手段又は、その装 置に接続された所定の表示手段、又は装置のリモコン上における液晶などの所定表 示画面などに表示することが考えられる。
ここで、プレイリスト生成処理と同時に、チヤプタ設定処理を行うこともでき、記録時 間に応じて図 44に示すように、設定可能なチヤプタ数に応じて自動的に所定のチヤ プタ設定処理が行われる。
例えば、図 44から記録時間が 1時間の場合は、 5〜40個のチヤプタが設定されるよ うに所定の信号処理が行われる。
ステップ S13では要約再生動作が行われる力 上記したように、所定 PU区間又は 複数の PU区間の接合区間毎に所定評価値が設定されているので、設定時間と評 価値に応じてスキップ再生処理が行われ、それにより要約再生が行われる。
すなわち、評価値が高い PU区間から最優先して順次選択され、選択した要約再 生時間にできるだけ近くなるように、順次、上記最優先評価値に比較して評価値の小 さい区間を選択処理していく。
ステップ S14では再生動作を終了する力判定され、終了の場合は処理を終了し、 終了しな 、場合はステップ S 15で再生して 、る所定プログラム(番組)が終了したか 判定され、終了の場合は処理を終了し終了しない場合は、ステップ S 16に移行し再 生時間を変更するか判定する。
ステップ S16で再生時間を変更する場合はステップ S10に戻り、上記処理を繰り返 し、変更しない場合はステップ S 13に戻り、要約再生動作を繰り返す。
7. 2 記録処理関係動作フローチャート
(記録処理動作フローチャートの一例)
記録モードの場合における動作フローチャートの例を図 48に示す。
図 45に示したフローチャートのステップ S1で記録モードが選択された場合は、図 4 8に示すフローチャートのステップ R1でタイマ記録モードか通常記録モードかが判定 され、通常記録モードの場合は、ステップ R9に移行し通常記録動作を行う。
ステップ R9の通常記録動作で所定の記録信号処理に移行して、ステップ R10にお いて MPEGなどの所定エンコード処理される画像音声データ、又はエンコード処理 された画像音声データから所定の特徴抽出処理が行われる。
ここで、記録信号処理と特徴抽出信号処理は、同時に行うことができる。
所定エンコード処理される画像音声データについては、所定エンコード処理される 途中の画像音声データを用いて所定の特徴抽出処理を行うもので、例えば、画像の DCT処理系から DCT信号処理の DC係数データ、 AC係数データなどを取り出すこ とができ、それら所定のデータを用いて所定信号処理を行うことでシーンチェンジ特 徴の検出(カット点特徴の検出)、テロップ特徴の検出など上述した各所定の特徴抽 出信号処理を行う。
音声データは、所定の帯域圧縮信号処理における所定サブバンド信号処理にお いて、所定サブバンド帯域におけるデータを用いることで、話者音声、音楽 (楽音)判 定検出などの信号処理を行うことができる。
楽音判定信号処理については、例えば、所定サブバンド帯域におけるデータの継 続性を判定することで判定処理を行うことができる。
また、ベースバンド帯域の画像音声データを用いることもでき、例えば、画像のベー スバンド信号を用いて、フレーム(又はフィールド)間差分信号処理によりシーンチェ ンジ検出処理や、その差分信号によるエッジ検出によりテロップ特徴信号処理など、 その他所定の特徴抽出信号処理を行うことができる。 ここで、各画像、音声特徴抽出信号処理された特徴データは、画像音声データが 記録される同じ所定記録媒体、又は所定のバッファメモリなどの所定データ記憶手段 (データ記録手段)に記録する。
ステップ Rl 1で通常記録モード終了力判定され、終了ではな 、場合はステップ R9 に戻り、上記動作を繰り返し、終了の場合は、ステップ R12に移行しプレイリストデー タ生成処理 (又はチヤプタデータ生成処理)に移行する。
ステップ R1でタイマ記録モードの場合は、ステップ R2で記録開始、記録終了時刻 設定を行い、ステップ R3で所定の動作時刻カゝ判定され、所定時刻ではない場合は、 ステップ R7で動作待機し、ステップ R8でユーザによりタイマ動作解除の割り込み処 理が行われた力判定され、タイマ動作を継続する場合は、ステップ R3に戻り上記動 作を繰り返す。
ステップ R8でタイマ動作が解除された場合は、図 45のステップ S1に戻り、最初の 動作モード選択処理を行う。
ステップ R3で所定の記録動作時刻になったと判定されたら、記録動作を開始し、 上述したステップ R9〜ステップ R11と同様の動作をステップ R4〜ステップ R6で行う 特徴データは、上述したように、各画像、音声特徴抽出信号処理された特徴データ (特徴抽出データ)は画像音声データが記録される同じ所定記録媒体、又は所定の バッファメモリなどの所定データ記憶手段 (データ記録手段)に記録する。ステップ R6 で記録終了時刻と判定された場合は、ステップ R12に移行してプレイリストデータ生 成処理又はチヤプタデータ生成処理を行う。
ステップ R12では、各種の所定特徴抽出処理された特徴データ (特徴抽出処理さ れた所定特徴データを所定の加工処理、所定の信号処理を施したデータ、それらデ ータを用いて所定判定処理を行ったデータなども含む)を所定記録媒体から読出処 理を行い、所定のプレイリストデータ(ファイル)生成処理、チヤプタデータ生成処理を 行う。
生成されたプレイリストデータ、チヤプタデータは、所定記録媒体に記録され、ステ ップ R13で生成処理が終了した力判定処理され、終了しない場合は、ステップ R12 に戻り上記処理動作を繰り返し、ステップ R13で終了したと判定された場合は動作を 終了する。
ここで、プレイリストデータ、チヤプタデータは、逐次、データの生成処理と同時に所 定記録媒体に記録する場合の他に、上記、処理対象にしている所定の放送番組、プ ログラム、又は所定記録区間に対する所定プレイリストデータ、チヤプタデータの全て の生成処理が終了した後に、まとめて所定記録媒体に記録するようにしてもよい。 (特徴抽出処理と平行して(同時に)プレイリストデータ (チヤプタ)処理を行う場合) ここで、上述の説明では、所定の放送番組、プログラムなど画像音声情報データの 記録処理と同時に所定の特徴抽出処理を行!ヽ、特徴抽出処理した各種の特徴デー タ(特徴抽出データ、又は特徴データを用いて所定の加工、所定の信号処理を施し た信号を含む)を所定の記録媒体に記録して、上記所定の放送番組、プログラムが 終了した後、記録した特徴データを読み出して、プレイリストデータ (ファイル)、チヤ プタデータなどを生成処理する場合を述べたが、特徴抽出処理と同時に、又は特徴 抽出処理と平行してプレイリストデータ(ファイル)、チヤプタデータ生成処理を行うよう にしてもよい。
7. 3 再生ユニット処理関係動作フローチャート
(PU処理で所定データ区間毎に音声セグメント処理とシーンチェンジ処理を行う場 合の動作フローチャート)
上述した PU信号処理の場合で、音声セグメント検出点とシーンチェンジ検出点か ら所定信号処理を行う動作フローチャートの一例を図 49に示す。
処理を開始するとステップ P1で画像音声情報データが記録されている所定記録媒 体から音声データ、及び後で説明するシーンチェンジ検出処理のために画像データ の所定サンプルデータ数を読出処理して、ステップ P2で読み出したデータをメモリな ど所定の記録手段であるデータバッファに記憶処理 (書込処理、記録処理)を行って いく。
ステップ P3で所定サンプル数のデータがバッファに記録されたと判定された場合は ステップ P4に移行し、まだ所定サンプルデータが記録されな 、と判定された場合は ステップ P2に戻り動作を繰り返す。 ここで、ステップ P2〜ステップ P7では PU処理のために、所定、音声信号の有音、 無音判定処理を考えるので、ステップ P2の所定サンプルデータ数としては、大よそ 0 . 1秒くらい〜 1秒くらいの所定区間の間に相当するデータ数のバッファ処理を行う。 例えば、サンプリング周波数 48KHzの場合は、 1秒間で 48000サンプルデータな ので、 0. 1秒の場合は 4800サンプルのデータをバッファに記録する。
ステップ P4でバッファから音声データを読出処理し、ステップステップ P5で、上述し たような所定区間の音声レベルの演算処理を行 、、ステップ P6で所定レベルと比較 処理を行い、所定レベル以上か所定レベル以下かの判定処理を行って、無音検出( 無音判定)処理が行われる。
ステップ P6でその区間が無音区間と判定された場合は、ステップ P7でその情報を 所定メモリ(バッファ)に記憶 (記録)し、無音でなく有音と判定された場合はステップ P 8に移行し、ステップ P1で読み込んだバッファのデータの音声バッファ処理が終了し た力判定処理され、終了しない場合はステップ P2に戻り上記の処理を繰り返し、終 了した場合はステップ P9に移行する。
ステップ P9では、ステップ P8で処理された音声セグメント情報データを読み出し、 ステップ P10で上記した短い無音区間、有音区間、長い無音区間、有音区間のセグ メント処理を行う。
ステップ PI 1では、所定データサンプル数の画像データの DCT処理データを所定 のバッファメモリ(所定データ記録手段)に記録処理を行い、ステップ P12で所定デー タ量の記録が終了したかが判定され、所定データ量ではない場合は、ステップ P11 に戻り上記バッファメモリ系への書込処理を繰り返し、ステップ P 12で所定データ量 の書込処理が終了したと判定された場合は、ステップ P13に移行する。
ステップ P13では上記所定のバッファメモリ系力も記録した (書込処理した)所定の DCTデータを読出処理し、ステップ P14において、フレーム間差分などの所定信号 処理を行い、所定のシーンチェンジ検出処理を行う。
ステップ P15で所定のシーンチェンジがあつたか判定処理され、シーンチェンジが あつたと判定される場合は、ステップ P16で所定のメモリ手段 (データ記録手段、デー タバッファ手段など)にシーンチェンジがあった時点の位置情報データを記憶(書込 処理)してステップ PI 7に移行し、ステップ P15でシーンチェンジがないと判定された 場合はステップ P 17に移行する。
ステップ P17では、所定データバッファ内の所定データ量の上記シーンチェンジ検 出処理が終了した力判定処理され、終了しない場合はステップ P11に戻り上記信号 処理を繰り返し、ステップ P17で終了したと判定される場合は、ステップ P18に移行 する。
ステップ P 18では所定バッファメモリ手段に記録された (記憶された)シーンチェンジ 位置情報を読み出し、ステップ P19で所定区間長より短いなど、短過ぎる区間は前 後区間と接合するなどの、シーンチェンジ検出区間の補正処理を行う。
ステップ P20では上記、所定区間における生成処理された音声セグメント位置情報 データ及びシーンチェンジ位置情報データを読み出し、ステップ P21で音声セグメン ト位置、音声セグメント区間長、シーンチェンジ位置、シーンチェンジ区間長などの所 定情報データから、所定の PUの位置情報、区間情報など所定 PU情報データを生 成処理する。
ステップ P22では、ステップ P21で処理された PU情報から、その PU区間に対応す る特徴データ (又は特徴抽出データ、又は特徴データを所定の信号処理を行った信 号など)を所定の記録媒体、又は所定のデータバッファに書込処理を行う。
上記したように、これら記録媒体は、いま処理の対象としている放送番組、プロダラ ムなど所定区間の画像音声情報データが記録されているのと同じ所定記録媒体上 における所定記録領域の他に、別の所定記録媒体上に記録 (記憶、書込処理)を行 うことち考免られる。
ステップ P23では所定データ量の上記音声セグメント処理、シーンチェンジ処理、 P U処理など一連の信号処理が終了した力判定処理され、終了したと判定される場合 は処理を終了し、終了していないと判定された場合はステップ P1に戻り、上述した処 理を繰り返す。
(PU処理で全ての音声セグメント処理を行った後にシーンチェンジ処理を行う場合 の動作フローチャート)
ここで、上述の例では、記録した所定放送番組、プログラムなどの、画像音声デー タの所定区間毎に、逐次、音声データのセグメント処理を行い、その後、画像のシー ンチェンジ検出処理を行ったが、上述したように所定区間毎の処理ではなぐ今処理 の対象として 、る放送番組、プログラムの所定区間全ての音声セグメント処理が終了 した後、全てのシーンチェンジ検出処理を行い、全てのシーンチェンジ検出処理が 終了した後、所定の PU処理を行うようにすることもできる。
上述した PU信号処理の場合で、音声セグメント検出点とシーンチェンジ検出点か ら所定信号処理を行う動作フローチャートの他の一例を図 50に示す。
処理を開始すると、まず最初のステップ T1において図 49に示すフローチャートに おけるステップ P1〜ステップ P9で説明したような所定音声セグメント処理を行う。 ここで、音声データは所定バッファメモリに逐次所定データサンプル量のデータを 読み込んで行う。
ステップ T2で音声セグメント処理を行ったセグメント位置情報のデータを所定メモリ 手段 (データ記憶手段、データ記録手段)に記録していき、ステップ T3において、い ま処理対象となって 、る放送番組、プログラムなどの所定区間全ての音声データに ついて所定セグメント処理が終了した力判定され、終了しないと判定された場合はス テツプ T1に戻り上記の処理を繰り返し、終了したと判定された場合はステップ T4に 移行する。
ステップ T4において上記図 49のフローチャートにおけるステップ P11〜ステップ P 18で説明したような所定シーンチェンジ処理を行う。ここで、画像の DCTデータは所 定バッファメモリに逐次所定データサンプル量のデータを読み込んで行う。
ステップ T5で所定シーンチェンジ処理を行ったシーンチェンジ位置情報のデータ を所定メモリ手段 (データ記憶手段、データ記録手段)に記録していき、ステップ T6 において、いま処理対象となっている放送番組、プログラムなどの所定区間全ての画 像の DCTデータについて所定シーンチェンジ処理が終了した力判定され、終了しな いと判定された場合はステップ T4に戻り上述の処理を繰り返し、終了したと判定され た場合はステップ T7に移行する。
ステップ T7では上記所定メモリ手段力 所定音声セグメント位置情報のデータと、 所定シーンチェンジ位置情報のデータを読み出し、ステップ T8で所定 PU処理を行 い、ステップ T9で、いま処理対象となっている放送番組、プログラムなどの所定区間 全ての区間にわたり所定 PU処理が終了した力判定され、終了したと判定された場合 は処理を終了し、終了しないと判定された場合は Τ7に戻り上記動作を繰り返す。 次に、本発明を適用した編集処理装置 500の実施の形態を図 51を山椒 UIして説 明する。
この編集処理装置 500は、システムコントローラ系 521により制御される 2系統の記 録再生系 550, 560を備え、 2系統の記録再生系 550, 560により特徴抽出処理系 5 22及びプレイリスト生成処理系 523を共有している。
第 1の記録再生系 550は、音声信号を AZD変換する音声 AZD変換処理系 501 と画像信号を A,D変換する画像 AZD変換処理系 502から音声データと画像デー タが入力される画像音声エンコード系 503、この画像音声エンコード系 503から供給 される記録データを記録媒体 505に記録する記録処理系 504、上記記録媒体 505 からデータを再生する再生処理系 506、上記再生処理系 506により得られる再生デ ータが供給される画像音声デコード系 507、上記画像音声デコード系 507により得ら れる音声データと画像データを DZA変換して出力する音声 DZA変換処理系 508 及び画像 DZA変換処理系 509、上記記録媒体 505を駆動する媒体駆動制御系 51 0、再生処理系 506により得られる再生データが入力される特徴ファイル ·プレイリスト ファイル検出系 524等力 なる。
第 2の記録再生系 560は、音声信号を AZD変換する音声 AZD変換処理系 511 と画像信号を A,D変換する画像 AZD変換処理系 512から音声データと画像デー タが入力される画像音声エンコード系 513、この画像音声エンコード系 513から供給 される記録データを記録媒体 515に記録する記録処理系 514、上記記録媒体 515 からデータを再生する再生処理系 516、上記再生処理系 516により得られる再生デ ータが供給される画像音声デコード系 517、上記画像音声デコード系 517により得ら れる音声データと画像データを DZA変換して出力する音声 DZA変換処理系 518 及び画像 DZA変換処理系 519、上記記録媒体 515を駆動する媒体駆動制御系 52 0、再生処理系 516により得られる再生データが入力される特徴ファイル ·プレイリスト ファイル検出系 525等力 なる。 第 1及び第 2の記録再生系 550, 560の各画像音声エンコード系 503, 513が特徴 抽出処理系 522に接続され、この特徴抽出処理系 522に接続されたプレイリスト生成 処理系 523が第 1及び第 2の記録再生系 550, 560の各記録処理系 504, 514に接 続されている。
また、第 1及び第 2の記録再生系 550, 560の動作を制御するシステムコントローラ 系 521には、ユーザ入力 IZF系 526及び表示系 527が接続されている。
この編集処理装置 500は、編集モードの場合に、第 2の記録再生系 560の画像音 声デコード系 517により得られる音声データと画像データが第 1の記録再生系 550の 画像音声エンコード系 503に入力される。
直接コピーモードでは、第 2の記録再生系 560の再生処理系 516により得られる音 声データと画像データが第 1の記録再生系 550の記録処理系 504に入力される。 この編集処理装置 500における編集モードやコピーモード時における動作原理に ついて説明する。
まず始めに、画像音声ファイルを編集、コピーなど所定のファイル処理を行う場合を 例として、その画像音声ファイルに対応する特徴データファイル又はプレイリストファ ィルの処理にっ 、て説明する。
ここで、特徴データは、所定の信号から抽出、検出した特徴データ自体と、所定の 信号自体から抽出、検出した特徴データを所定の演算処理したデータも特別に説明 しない限り同様に特徴データと記述する。
特徴データファイル、プレイリストデータファイルの説明において、位置情報の開始 位置、終了位置は、フレーム番号、プレゼンテーション'タイム'スタンプ(PTS)、デコ ーデイングタイムスタンプ (DTS)、又は、記録したビデオファイルの記録開始力ゝらの 相対的なフレーム、その他フレーム位置を検出できる時間情報データなどを用いるこ とができる。ここで、説明を簡単にするため、所定のデータの位置情報データを開始 位置、終了位置などと記述する。
放送番組を記録し、この記録と同時に画像データ、音声データから特徴抽出する 場合に、ここでは、簡単のため、画像音声データを所定の MPEG (Motion Picture co ding Experts Group)規格により処理して記録する。 特徴データとして簡単のため、音声区間の有無や話者音声、楽音の検出などを示 す音声特徴、どの領域にテロップが出現しているかを示すテロップ特徴、どの領域に 所定の特定色が出現しているかを示すカラー特徴を考え、フレームレートを例えば、 毎秒 30フレームとし、 0. 5秒毎すなわち 15フレーム毎に各特徴抽出処理を行うと仮 定する。特徴データとして、上記の 3つの特徴データの他に、モーションベクトルによ るカメラのパン、ズームなどの特徴を示すカメラ特徴などもある。
音声特徴としては例えば、 0. 5秒区間の平均パワーを特徴データとすることが考え られ、この平均パワーを逐次演算していくものとする。
平均パワーが所定しき 、値以下の場合は音声がない区間とし、しき 、値より大き 、 場合は音声信号がある区間と判定することができる。
また、 0. 5秒の区間において所定サンプルデータ数を FFTなどによるスペクトル解 析により所定スペクトルピークの継続長を検出することで、音声信号が楽音信号であ るかそうではな 、信号かの判定をある程度の精度で行えることが知られて 、る。この 場合には、所定区間の高速フーリエ変換 (FFT)の演算値や継続長などを特徴デー タとする。
FFT処理の他に、話者音声の場合は、話の途中で息継ぎや母音子音の特性から 音声レベルの分散値が音楽などと比較して所定しきい値より大きくなるなどの分散値 の特性、レベル変動の相違などの特性からある程度の精度で話者音声か楽音信号 かの判定を行うようにする。
この場合には、音声レベルの分散値を特徴データとする。
テロップ特徴は例えば、テロップの部分ではエッジがありエッジ部は高周波成分が 多くなることから、図 52に示すような画面上の領域を想定し、離散コサイン変換 (DC T)の AC係数を検出して、所定領域における各マクロブロックにおける所定しきい値 以上の AC係数を演算し、演算値と検出した領域を識別する識別データ (ID)を特徴 データとする。複数の領域で検出される場合には、領域毎に特徴データを後で説明 するファイルの所定領域に書き込むものとする。
カラー特徴については、輝度信号 Y、色差信号 Cb、 Crの DCTの DC係数から、例 えば上述した図 52に示す領域毎に、特定色のマクロブロック数を検出してマクロブロ ック数や検出した特定色の識別 IDを特徴データとする。複数の領域で検出される場 合は、領域毎に特徴データを後で説明するファイルの所定領域に書き込むものとす る。
このカラー特徴データを用いて、例えば白人系肌色を検出し人物区間を判定する ことが考えられる。例えば、以下の文献 Face Detection in Color Images using Wavele t Packet Analysis (Garcia, C. ; Zikos, G.; Tziritas, G.; Multimedia Computing an d Systems, 1999. IEEE International Conference on , Volume: 1 , 7—11 June 1999 P age(s): 703 -708 vol.1 )には Cb、 Cr信号など力 所定の方法により肌色検出する技 術が開示されている。
上述した各々の特徴データを所定の書式により書き込み所定のファイル構造とした 特徴データファイルの一例を図 53A、図 53Bに示す。
ここでは、簡単のため、上記したように特徴データは 15フレーム毎に検出処理され 、音声平均レベルが所定しきい値以上検出されたフレーム区間について各々の特徴 データをファイルに書き込むようにする。
図 53Aに示すように、開始フレーム、終了フレームの次に上記で説明した音声特徴 、テロップ特徴、カラー特徴の各特徴データを所定の書式に従って順次書き込んで いく。
図 53Bは、所定の書式に従って書き込んだ特徴データファイルの具体例の一部を 示すものである。
図 53Bに示す例では、音声区間が検出され区間の開始位置 (フレーム番号など) が 100、終了位置(フレーム番号など)は 130で、音声平均レベルは 70、その区間の 音声 IDは 01、その区間においてテロップ検出領域 05で検出エッジ数が 200、カラ 一特徴領域 01でカラー IDは 01であることが分かる。
ここで、テロップ特徴とカラー特徴の領域とそれを識別する領域 IDは、図 52に示す ように割り当てられている。
上述の音声 ID、カラー IDは例えば、図 54A、図 54Bに示すように音声特徴及び力 ラー特徴に応じて設定することができる。
以上のように特徴抽出された各々の特徴データを用いて、例えば図 55に示すよう な所定の処理により要約再生 (ダイジェスト再生)区間を決める。
図 55に示す要約再生区間の例では、音声特徴による話者音声区間と、テロップ特 徴によるテロップ検出区間と、カラー特徴による人物検出区間の共通区間を検出して その検出区間を順次スキップ再生することでダイジェスト再生を行って ヽる。
このようなダイジェスト再生は、図 55に示すように各スキップ再生区間の再生開始 位置と再生終了位置が分かれば所定の動作により行うことができ、それら再生開始 位置データと再生終了位置データのデータはプレイリストファイルとして所定のフアイ ルに書き込まれている。
図 56に示すプレイリストファイル Aは、上記で説明したプレイリストファイルの一例で 、ここでは、分力りやすいように開始位置を左側列のデータとして、終了位置を右側 列のデータとして示してある。
プレイリストデータは、上記で説明したような各々の特徴データが所定の全記録区 間において抽出処理や検出処理が行われた後に、(例えば上記した図 7のような)所 定のアルゴリズムにより生成され、所定の書式によりファイルに書き込まれる。
ここで、記録した画像音声ファイルを編集やコピーする場合を説明する。
(コピー処理モードの動作例)
コピーの場合の動作について図 56に示す概念図を参照して説明する。
コピーの場合は、図 56に示すようにビデオファイル 1と同じ内容をそのままビデオフ アイル 2として生成 (コピー)する。
ビデオファイル 1に対するプレイリストファイルはプレイリストファイル Aで、ビデオファ ィル 1とコピーしたビデオファイル 2は同じ内容なので、ビデオファイル 2に対するプレ イリストファイルは、図 56に示すようにプレイリストファイル Aの内容をそのままプレイリ ストファイル Bとして生成(コピー)すればよ!、。
また、特徴データファイルにつ ヽても同様にそのままコピー処理すればょ 、。
このようにビデオファイルのコピーと共に、対応するプレイリストファイルも自動的に コピー処理することで、コピーしたビデオファイルをすぐに特徴データを用いたダイジ ェスト再生することができる。
上述したように自動的にプレイリストファイルをせず、コピーしたビデオファイル Bの プレイリストファイルがな 、場合には、対応する特徴データファイル力もプレイリストフ アイルを生成しなければなら 、。
プレイリストデータを作成するために、各特徴データを読み込んで所定の処理を行 うことになりすぐに所定のダイジェスト再生を行うことはできない。
(1つのビデオファイルについての編集処理モードの動作例)
次に、 1つのファイルの編集処理について、図 57に示す概念図を参照して説明す る。
ここで、図 57は、元のビデオファイル 1の開始位置(フレーム番号など) 1000から終 了位置 (フレーム番号など) 9000の部分を切り出し、ビデオファイル 2として編集処理 することを示している。
(プレイリストファイル編集処理方法 1)
プレイリストファイルにつ ヽては、編集して生成されたビデオファイル 2は元のビデオ ファイル 1とは同一のものではないので、プレイリストファイル Aのデータにおいて編集 処理したフレーム番号に応じて所定の範囲のデータを抜き出して、編集処理したビ デォファイル 2に対応するプレイリストファイル B1を生成する必要がある。
図 57又は図 58の例では、ビデオファイル Bの開始位置(フレーム番号など)は 100 0なので元のプレイリストファイル Aにおいて、開始位置(フレームなど) 1000以上で 1 000に最も近いデータを見つけることを考えると、開始位置(フレーム番号など) 183 0、終了位置(フレーム番号など) 2000の部分のデータが該当する。
ビデオファイル Bの終了位置(フレーム番号など)は 9000なので、元のプレイリスト ファイル Aにおいて、終了位置(フレーム番号など) 9000以下で 9000に最も近いデ ータを見つけることを考えると、開始位置(フレーム番号など) 7800、終了位置(フレ ーム番号など) 8500の部分のデータが該当する。
ここで、上述の編集モードの説明では、編集したビデオファイルの開始位置又は終 了位置などの編集位置がプレイリストデータファイルにおけるデータ対である開始位 置、終了位置の間に入らない場合であった力 例えば、図 59又は図 60に示すように 編集したビデオファイルの開始位置が 900、終了位置が 9500とした場合にはプレイ リストデータファイルの開始位置、終了位置のデータ対の間に入る場合について考え る。
このような場合には、図 59に示すように上記した処理方法と同じでプレイリストデー タファイル B1を生成する方法の他に、プレイリストデータファイル B2〜: B4などを生成 する方法がある。
次に、それぞれの処理方法について説明する。
(プレイリストファイル編集処理方法 2)
まず、図 59に示すようなプレイリストファイル B2の処理方法について説明する。 この場合は、編集処理したビデオファイル 2の開始位置 900は元のプレイリストファ ィル Aのデータ対である開始位置 700、終了位置 1000の間にある。
上述したプレイリストファイル B1の方法と同じ処理方法とすると、プレイリスファイル Aにお 、て開始位置 700以上で最も近い開始位置は 1830となる力 編集したビデ ォファイル Bの開始位置 900から 1000はプレイリストファイル Aのダイジェスト再生す る区間に含まれ、ダイジェスト再生する区間はキーフレームが存在する可能性がある ので、編集後のビデオファイル 2でこの 900から 1000の区間もダイジェスト再生する ようにプレイリストデータとなるように処理を行う。
上述した処理の場合に編集後のビデオファイルの開始位置力 例えば 998の場合 は 998から 1000もダイジェスト再生区間となる力 この区間は再生時間としては短い ので、この区間の再生内容を把握することが難しぐまた、短い再生区間であるので ユーザにとっては煩わし 、と感じるおそれがあるので、所定のしき 、値 thを設定し、 再生区間がしきい値 th以下の場合はその区間はプレイリストデータとしない処理とす ることが望ましい。
(プレイリストファイル編集処理方法 3)
次に、図 59に示すようなプレイリストファイル B3の処理方法について説明する。 この場合は編集したビデオファイル 2の終了位置 9500は、元のプレイリストファイル
Aのデータ対である開始位置 9000、終了位置 15000の間にある。
上述したプレイリストファイル B1の方法と同じ処理方法とすると、プレイリスファイル
Aにおいて終了位置 9500以下で最も近い終了位置 8500となる力 編集したビデオ ファイル Bの位置 9000から 9500はプレイリストファイル Aのダイジェスト再生する区間 に含まれ、ダイジェスト再生する区間はキーフレームが存在する可能性があるので、 編集後のビデオファイル 2でこの 9000から 9500の区間もダイジェスト再生するように プレイリストデータとなるように処理を行う。
また、上述の処理の場合に編集後のビデオファイルの終了位置力 例えば 9002の 場合は 9000から 9002もダイジェスト再生区間となる力 この区間は再生時間として は短いので、この区間の再生内容を把握することは難しいとも考えられ、また、短い 再生区間のためにあるユーザにとっては煩わしいと感じたりする場合も考えられるの で、上述したプレイリストファイル編集処理方法 2と同様に所定のしき 、値 thを設定し 、再生区間がしきい値 th以下の場合はその区間はプレイリストデータとしない処理に する。
(プレイリストファイル編集処理方法 4)
次に、図 59に示すようなプレイリストファイル B4の処理方法について説明する。 この処理は、上記 (プレイリストファイル編集処理方法 2)と (プレイリストファイル編集 処理方法 3)で説明した処理方法を適用した場合である。
この処理方法にぉ 、て、上記したような所定しき!、値 thを設定しダイジェスト再生区 間が th以下となるような場合は、上記した場合と同様にプレイリストデータファイルの データとしないようにする。
以上のプレイリストファイル処理方法は、例えば、上記の(プレイリストファイル編集 処理方法 1)を初期設定の処理方法とし、調整モードなどにより所定の操作系により ユーザが所望の方法を選択するようにする。
以上のように、編集したファイルの開始位置と終了位置に応じて元のプレイリストデ 一タファイルのデータを抜き出し、プレイリストデータファイルも編集してプレイリストフ アイル B1を生成する。
(特徴データファイル、プレイリストデータファイルのファイル名処理)
ここで、編集やコピー処理してできたビデオファイルに対応する特徴データファイル
、プレイリストファイルの名称も自動的にその編集処理したビデオファイルに対応付け できるように処理する方が有利である。
元のビデオファイル名力 例えば、 aaa. mpgのような場合に、特徴データファイル の拡張子を . datとし、特徴データファイル名はビデオファイル名を共通とし、 aaa. mpg. dat又はビデオファイルの拡張子を除いた aaaだけを共通として aaa. datなど のようにする。
プレイリストデータファイルの拡張子を例えば . info とするとプレイリストデータフ アイル名は、上記特徴データファイルと同様にビデオファイル名を共通として aaa. mpg. info,又は、ビデオファイル名の拡張子を除いた部分を共通として aaa. infoな どのようにする。
そこで、編集してできたビデオファイル名を例えば、 bbb. mpgとすると、上述した所 定の処理によりできた特徴データファイルをビデオファイルと対応付けできるように、 上述したように、 bbb. mpg. datや bbb. datのように自動的にファイル名を付ける。 プレイリストデータファイルにっては、上記のファイル名のつけ方の場合と同じように 考えて bbb. mpg. infoや bbb. infoのように自動的にファイル名を付ける。
(特徴データファイルの処理方法)
次に、特徴データファイルの処理方法を説明する。
特徴データファイルにつ 、ても同様で、図 61に示すように編集したビデオファイル の開始位置 nvst、終了位置 nvedに応じて、データ対、開始位置 nsbと終了位置 neb の部分のデータから、データ対、開始位置 msbと終了位置 mebの部分のデータまで を抜き出し特徴データファイル Dとする。
ここで、編集処理したビデオファイルの開始位置、終了位置と特徴データ対の開始 位置、終了位置の位置関係で図 62に示すように幾つかの場合が想定できるので、そ れらについて検討する。
編集したビデオファイルの開始位置 nvstが特徴データファイルのデータ対となる開 始位置と終了位置(tl、 t2又は t3、 t4)の間にない場合は、図 62Aに示すように、 nv st以上で最も近い開始位置 t3を編集処理したビデオファイルに対応する特徴データ ファイル Dの開始位置とすることができる。
すなわち、図 62Aに示すような開始位置、終了位置 t3、 t4のデータ対になっている 特徴データファイルのデータ部分から、以下で述べる開始位置、終了位置のデータ 対になっているデータ部分を抜き出して編集したビデオファイルに対応する特徴デ ータファイルとする。
また、編集したビデオファイルの開始位置 nvstが特徴データファイルのデータ対と なる開始位置 tlと終了位置 t2の間にある場合は、図 62Aに示す場合と同様に、特 徴データファイル Dの開始位置を nvst以上で最も近 、t3とすることもできる力 例え ば、図 62Aに示すように、開始位置 tlと終了位置 t2の間隔が長く nvst力 t2までの 間隔も長 、場合、特徴データファイル Dの開始位置を tlとすることができる。
これは、図 62Aに示すように、特徴データ区間 1が長いような場合で、例えばプレイ リストデータ生成処理を特徴データから行 、、上述した図 8のプレイリストファイル B2 に相当し、編集したビデオファイルの開始位置 nvstがプレイリストデータの対となる開 始位置と終了位置の間にあり、 nvst力もダイジェスト再生を行う場合である。
また、特徴データ区間 1が短い場合で、ここで説明したように特徴データ区間の間 に編集処理したビデオファイルの開始位置があるとき、対応する特徴データファイル D (図 61 B)の開始位置を図 62Bに示すように特徴データ区間の開始位置を 1として も、上記したようなプレイリストデータ処理で極端に短い区間はダイジェスト再生しな V、ようにできるので問題な!/、が、編集処理したビデオファイルには nsblから nvstの区 間はな!/、ので注意する必要がある。
この場合には、図 62Bに示すような開始位置、終了位置 tl、 t2のデータ対になって いる特徴データファイルのデータ部分から、以下で述べる開始位置、終了位置のデ ータ対になっているデータ部分を抜き出して編集したビデオファイルに対応する特徴 データファイルとする。
また、編集したビデオファイルの終了位置 nvedが特徴データファイルのデータ対と なる開始位置と終了位置 (t7、 t8又は t9、 tlO)の間にない場合には、図 62Cに示す ように、 nved以上で最も近い開始位置 t8を編集処理したビデオファイルに対応する 特徴データファイル D (図 61B)の終了位置とすることができる。
すなわち、この場合には図 62Cに示すような開始位置、終了位置 t7、 t8のデータ 対になっている特徴データファイルのデータ部分から、上述した開始位置、終了位置 のデータ対になっているデータ部分を抜き出して編集したビデオファイルに対応する 特徴データファイルとする。 さらに、編集したビデオファイルの開始位置 nvedが特徴データファイルのデータ対 となる開始位置 (t7)と終了位置 (t8)の間にある場合には、上述した図 62Cと同様で あるので、特徴データファイル Dの開始位置を nved以下で最も近 ヽ t6とすることもで きるが、例えば、図 62Dに示すように、開始位置 t7と終了位置 t8の間隔が長く t7から nvedまでの区間が長いなどの場合には、特徴データファイル Dの開始終了を t8とす る。
これは、図 62Bの特徴データ区間 4が長いような場合で、例えばプレイリストデータ 生成処理を特徴データから行い、上記した図 59のプレイリストファイル B3に相当し、 編集したビデオファイルの終了位置 nvedがプレイリストデータの対となる開始位置と 終了位置の間にあり、 nvedまでダイジェスト再生を行う場合も考えられるためである。 また、特徴データ区間 4が短い場合で、ここで説明したように特徴データ区間の間 に編集処理したビデオファイルの終了位置があるとき、対応する特徴データファイル D (図 61B)の開始位置を図 62Dのように特徴データ区間の終了位置を t8としても、 上述したようなプレイリストデータ処理で極端に短い区間はダイジェスト再生しな 、よ うにできるので問題な!/、が、編集処理したビデオファイルには nvedから t8までの区間 はな 、ので注意する必要がある。
この場合には上記で説明した開始位置、終了位置のデータ対になって 、るデータ 部分から開始位置 t7、終了位置 t8のデータ対になっているデータ部分を抜き出して 編集したビデオファイルに対応する特徴データファイルとすることが考えられる。 ダイジェスト再生にはプレイリストファイルがあればょ 、が、処理アルゴリズムを変更 しプレイリストファイルのデータを作り直したり、例えば、ユーザの嗜好に応じてプレイ リストデータを調整するには、特徴データを用いて処理を行うので、上記のように特徴 データファイルもビデオファイルの編集処理に応じて所定のファイル処理を行うように する。
(複数のビデオファイルについての編集処理モードの動作例)
次に、複数のファイルの編集処理について、図 63及び図 64に示す概念図を参照 して説明する。
ここで、図 63及び図 64は、元のビデオファイル 10のプレイリストファイル A10からプ レイリストファイル BIOを作成し、元のビデオファイル 10のプレイリストファイル Al l力 らプレイリストファイル B11を作成し、 2つのプレイリストファイル BOを作成することによ り、元のビデオファイル 10の開始位置(フレーム番号など) 1000から終了位置(フレ ーム番号など) 9000の部分を切り出し、その後ろに、元のビデオファイル 11の開始 位置(フレーム番号など) 2000から終了位置(フレーム番号など) 10000の部分を切 り出して繋 、たビデオファイル 2を生成する編集処理を示して ヽる。
ビデオファイル 10の編集処理 (切り出し処理)により、要約再生区間又はチヤプタ設 定位置情報を示すファイル A10は、元のビデオファイルの切り出し区間が位置情報 の 1000力ら 9000の区 なので A12のように、 1830、 2000、 4500, 7000、 7800 、 8500の所定区間のデータが取り出される。同様に、ビデオファイル 11の編集処理 (切り出し処理)により、要約再生区間又はチヤプタ設定位置情報を示すファイル A1 1は、元のビデオファイルの切り出し区間が位置情報の 2000から 10000の区間なの で A13のように、 2000、 3300、 4000, 6000、 9700、 10000の所定区間のデータ が取り出される。
ここで、ビデオファイル 10の方を前半部、ビデオファイル 11を後半部として接続す ることを考え、この編集処理後において、ビデオファイル 10の先頭部の位置情報を 0 とするように位置情報のオフセット処理を行うことを考える。
図 63力も、いまファイル 10の開始位置は、 1000と想定しているので、 A12の各位 置' |·青報力ら、 1000を引!ヽて、 830、 1000、 3500、 6000、 6800、 7500力 ^各々編修 処理のオフセットを考慮した位置情報となる。
同様に、ファイル 11の開始位置は 2000と想定しているので、 A13の位置情報から 2000を引き算して 0、 1300、 2000、 4000、 7700、 8000力各々編修処理のオフセ ットを考慮した位置情報となる。
ここで、 A12と A13をオフセット処理を考慮して接続することを考えると、 A12の方 のすなわちファイル 10は、位置 1000力も 9000までの 8000区間あるので、 A13の 各位置情報データに、 8000を加算して、 8000、 9300, 10000、 12000、 15700, 16000がオフセット処理を考慮し接続した編集処理後の A13の位置情報となる。 最終的に図 63の Β0に示すような、所定のダイジェスト再生区間やチヤプタ設定位 置を示すプレイリストファイルを生成することができる。
このような位置情報のオフセット処理を行うことで、複数のファイルを上記のような編 集処理により接続するような場合には、編集後のファイルの位置情報が一元化され、 所定のダイジェスト再生(要約再生)やチヤプタ位置設定処理などを行う場合に、処 理が行いやすくなる。また、上述のような位置情報のオフセット処理を行わない場合 には、各々の編集ファイルの編集点の位置情報を所定メモリ手段、あるいは、所定の ファイルなどの記録領域に記憶しておき、所定の要約再生や所定のチヤプタ処理の 場合に、編集点を考慮して、その編集点位置データとオフセット処理していない位置 情報データとに応じて、所定の要約再生処理、チヤプタ設定処理を行うようにする。 ここで、この編集処理装置 500においても、上述の記録再生装置 30の変形例と同 様に、図 65に示すように、システムコントローラ系 521において特徴抽出処理系 522 やプレイリスト処理系 523の信号処理をソフトウェアにより実行するようにすることがで きる。
また、図 65に示す編集処理装置 500では、ユーザがユーザー入力 IZF系 526を 操作することにより、システムコントローラ系 521を所定のインターネットサイトにネット ワーク系 528を介して接続して、上記特徴抽出処理系 522やプレイリスト処理系 523 の信号処理を実行するソフトウェアをダウンロードすることができる。
なお、本発明は、図面を参照して説明した上述の実施例に限定されるものではなく
、添付の請求の範囲及びその主旨を逸脱することなぐ様々な変更、置換又はその 同等のものを行うことができることは当業者にとって明らかである。

Claims

請求の範囲
[1] 1.所定の記録媒体に記録されている所定の第 1の情報データを用いて、所定動作 モードの場合に上記記録媒体又は別の記録媒体に所定の処理設定に応じた所定の 第 2の情報データとなるように所定の第 1の記録処理を行い、
上記所定動作モードで、上記第 1の情報データに関連付けられた所定の第 3の情 報データが記録されていると検出できる場合には、第 3の情報データを用いて第 4の 情報データとなるように所定の第 2の記録処理を上記第 1の記録処理に伴って行う ことを特徴とする情報信号処理方法。
[2] 2.所定のデータ入力系により所定の操作により上記情報信号処理を実行するため のソフトウェアを取り込み、上記情報信号処理を実行可能な状態に設定し、所定の操 作系により上記所定動作モードが設定された場合に上記情報信号処理を実行する ことを特徴とする請求の範囲第 1項記載の情報信号処理方法。
[3] 3.所定の記録媒体に記録されている所定の第 1の情報データを用いて、所定動作 モードの場合に上記記録媒体又は別の記録媒体に所定の処理設定に応じた所定の 第 2の情報データとなるように所定の第 1の記録処理を行う第 1の信号処理手段と、 上記所定の動作モードで、上記第 1の情報データに関連付けられた所定の第 3の 情報データが記録されていると検出できる場合には、第 3の情報データを用いて第 4 の情報データとなるように所定の第 2の記録処理を上記第 1の記録処理に伴って行う 第 2の信号処理手段と
を備えたことを特徴とする情報信号処理装置。
[4] 4.所定の操作により所定の情報信号処理を実行するためのソフトウェアを取り込む データ入力系と、上記データ入力系により取り込まれたソフトウェアにより所定の情報 信号処理を実行可能な状態に設定する信号処理設定手段とを備え、上記第 2の信 号処理手段により、上記所定の動作モードで、上記第 1の情報データに関連付けら れた所定の第 3の情報データが記録されていると検出できる場合には、第 3の情報デ ータを用いて第 4の情報データとなるように所定の第 2の記録処理を上記第 1の記録 処理に伴って行うことを特徴とする請求の範囲第 3項記載の情報信号処理装置。
[5] 5.所定の記録媒体に記録されている所定の第 1の情報データを用いて、所定動作 モードの場合に上記記録媒体又は別の記録媒体に所定の処理設定に応じた所定の 第 2の情報データとなるように所定の第 1の記録処理を行い、
上記所定動作モードで、上記第 1の情報データに関連付けられた所定の第 3の情 報データが記録されていると検出できる場合には、第 3の情報データを用いて第 4の 情報データとなるように所定の第 2の記録処理を上記第 1の記録処理に伴って行う制 御プログラムがコンピュータにより読取実行可能に記録されたプログラム記録媒体。
PCT/JP2005/014656 2004-08-10 2005-08-10 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体 WO2006016605A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US11/659,830 US8422853B2 (en) 2004-08-10 2005-08-10 Information signal processing method and apparatus, and computer program product
JP2006531681A JP4882746B2 (ja) 2004-08-10 2005-08-10 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
EP05770478A EP1784011A4 (en) 2004-08-10 2005-08-10 INFORMATION SIGNAL PROCESSING METHOD, INFORMATION SIGNAL PROCESSING DEVICE, AND COMPUTER PROGRAM RECORDING MEDIUM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004233942 2004-08-10
JP2004-233942 2004-08-10

Publications (1)

Publication Number Publication Date
WO2006016605A1 true WO2006016605A1 (ja) 2006-02-16

Family

ID=35839374

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/014656 WO2006016605A1 (ja) 2004-08-10 2005-08-10 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体

Country Status (4)

Country Link
US (1) US8422853B2 (ja)
EP (1) EP1784011A4 (ja)
JP (1) JP4882746B2 (ja)
WO (1) WO2006016605A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5257366B2 (ja) * 2007-12-19 2013-08-07 富士通株式会社 雑音抑圧装置、雑音抑圧制御装置、雑音抑圧方法及び雑音抑圧プログラム
JP2020129763A (ja) * 2019-02-08 2020-08-27 キヤノン株式会社 動画再生装置、動画再生方法及びプログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065905A (ja) * 2006-09-07 2008-03-21 Sony Corp 再生装置、再生方法及び再生プログラム
JP2008076776A (ja) * 2006-09-21 2008-04-03 Sony Corp データ記録装置、データ記録方法及びデータ記録プログラム
JP4157579B2 (ja) * 2006-09-28 2008-10-01 シャープ株式会社 画像表示装置及び方法、画像処理装置及び方法
KR101395504B1 (ko) * 2007-10-25 2014-05-14 엘지전자 주식회사 영상표시기기 및 영상재생 방법
JP5528008B2 (ja) * 2008-07-17 2014-06-25 キヤノン株式会社 再生装置及び再生方法
WO2010073355A1 (ja) * 2008-12-26 2010-07-01 富士通株式会社 番組データ処理装置、方法、およびプログラム
JP4924633B2 (ja) * 2009-02-27 2012-04-25 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP5381297B2 (ja) * 2009-04-30 2014-01-08 ソニー株式会社 情報処理装置及び編集方法
US8345750B2 (en) * 2009-09-02 2013-01-01 Sony Computer Entertainment Inc. Scene change detection

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002142189A (ja) * 2000-11-06 2002-05-17 Canon Inc 画像処理装置、画像処理方法及び記憶媒体
EP1333440A2 (en) 2002-01-31 2003-08-06 Canon Kabushiki Kaisha Information processing apparatus and method
JP2003283993A (ja) * 2002-03-27 2003-10-03 Sanyo Electric Co Ltd 映像情報記録再生装置及び映像情報記録再生方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832068A (en) * 1994-06-01 1998-11-03 Davox Corporation Data processing system with real time priority updating of data records and dynamic record exclusion
US5956026A (en) * 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
WO2000042771A1 (en) 1999-01-12 2000-07-20 Koninklijke Philips Electronics N.V. Camera motion parameters estimation method
JP4227241B2 (ja) * 1999-04-13 2009-02-18 キヤノン株式会社 画像処理装置及び方法
JP2002116784A (ja) 2000-10-06 2002-04-19 Sony Corp 情報信号処理装置、情報信号処理方法、情報信号記録再生装置及び情報信号記録媒体
JP4913288B2 (ja) 2001-05-14 2012-04-11 ソニー株式会社 情報信号処理装置及び情報信号処理方法
JP3943880B2 (ja) * 2001-09-18 2007-07-11 キヤノン株式会社 動画データ処理装置及び方法
JP2003230117A (ja) * 2002-01-31 2003-08-15 Nec Commun Syst Ltd 動画像データの送信システム、同送信装置、同送信方式および同送信方法
JP4335492B2 (ja) * 2002-03-05 2009-09-30 キヤノン株式会社 動画像管理方法及び装置
JP2003298981A (ja) 2002-04-03 2003-10-17 Oojisu Soken:Kk 要約画像作成装置、要約画像作成方法、要約画像作成プログラム、及び要約画像作成プログラムを記憶したコンピュータ読取可能な記憶媒体
EP1494237A1 (en) * 2003-07-01 2005-01-05 Deutsche Thomson-Brandt Gmbh Method and apparatus for editing a data stream
JP2009299829A (ja) 2008-06-16 2009-12-24 Ntn Corp 回転伝達装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002142189A (ja) * 2000-11-06 2002-05-17 Canon Inc 画像処理装置、画像処理方法及び記憶媒体
EP1333440A2 (en) 2002-01-31 2003-08-06 Canon Kabushiki Kaisha Information processing apparatus and method
JP2003283993A (ja) * 2002-03-27 2003-10-03 Sanyo Electric Co Ltd 映像情報記録再生装置及び映像情報記録再生方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1784011A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5257366B2 (ja) * 2007-12-19 2013-08-07 富士通株式会社 雑音抑圧装置、雑音抑圧制御装置、雑音抑圧方法及び雑音抑圧プログラム
US8509451B2 (en) 2007-12-19 2013-08-13 Fujitsu Limited Noise suppressing device, noise suppressing controller, noise suppressing method and recording medium
JP2020129763A (ja) * 2019-02-08 2020-08-27 キヤノン株式会社 動画再生装置、動画再生方法及びプログラム
JP7218198B2 (ja) 2019-02-08 2023-02-06 キヤノン株式会社 動画再生装置、動画再生方法及びプログラム

Also Published As

Publication number Publication date
EP1784011A1 (en) 2007-05-09
US8422853B2 (en) 2013-04-16
US20080138043A1 (en) 2008-06-12
JPWO2006016605A1 (ja) 2008-07-31
EP1784011A4 (en) 2011-09-28
JP4882746B2 (ja) 2012-02-22

Similar Documents

Publication Publication Date Title
JP4935355B2 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
JP5227382B2 (ja) 類似のビデオコンテンツへの乗り換えのための方法および装置
US20080044085A1 (en) Method and apparatus for playing back video, and computer program product
US20050198570A1 (en) Apparatus and method for browsing videos
US20030063130A1 (en) Reproducing apparatus providing a colored slider bar
WO2010073355A1 (ja) 番組データ処理装置、方法、およびプログラム
US20060285818A1 (en) Information processing apparatus, method, and program
JP4882746B2 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
JP4215681B2 (ja) 動画像処理装置及びその方法
JP2007524321A (ja) ビデオトレーラ
JP4835439B2 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
US20090030947A1 (en) Information processing device, information processing method, and program therefor
JP4341503B2 (ja) 情報信号処理方法、情報信号処理装置及びプログラム記録媒体
JP2006054622A (ja) 情報信号処理方法、情報信号処理装置及びプログラム記録媒体
JP4432823B2 (ja) 特定条件区間検出装置および特定条件区間検出方法
JP4470638B2 (ja) 情報信号処理方法、情報信号処理装置及びプログラム記録媒体
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
JP2006270233A (ja) 信号処理方法及び信号記録再生装置
JP2006054621A (ja) 情報信号処理方法、情報信号処理装置及びプログラム記録媒体
JP4683277B2 (ja) 再生装置および方法、並びにプログラム
JP2005348077A (ja) 記録再生装置、及び再生装置。
JP2006303868A (ja) 信号属性判定装置、信号属性判定方法、情報信号記録装置、情報信号記録方法、情報信号再生装置、情報信号再生方法、情報信号記録再生装置および情報信号記録再生方法並びに記録媒体
JP2006333279A (ja) 記録装置および方法、並びにプログラム
KR20100042754A (ko) 이동통신 단말기의 멀티미디어 파일 재생 방법 및 이를 수행하는 이동통신 단말기
JP2006352631A (ja) 情報処理装置および方法、並びにプログラム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006531681

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2005770478

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005770478

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11659830

Country of ref document: US

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载