+

WO2018101652A1 - 실감형 미디어 영상을 제공하는 장치 - Google Patents

실감형 미디어 영상을 제공하는 장치 Download PDF

Info

Publication number
WO2018101652A1
WO2018101652A1 PCT/KR2017/012994 KR2017012994W WO2018101652A1 WO 2018101652 A1 WO2018101652 A1 WO 2018101652A1 KR 2017012994 W KR2017012994 W KR 2017012994W WO 2018101652 A1 WO2018101652 A1 WO 2018101652A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
images
unit
inward
outward
Prior art date
Application number
PCT/KR2017/012994
Other languages
English (en)
French (fr)
Inventor
양지희
전소연
김영애
전지혜
박구만
Original Assignee
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울과학기술대학교 산학협력단 filed Critical 서울과학기술대학교 산학협력단
Publication of WO2018101652A1 publication Critical patent/WO2018101652A1/ko
Priority to US16/429,703 priority Critical patent/US10681272B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/361Reproducing mixed stereoscopic images; Reproducing mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/293Generating mixed stereoscopic images; Generating mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0092Image segmentation from stereoscopic image signals

Definitions

  • the present invention relates to an apparatus for providing a realistic media image.
  • MCN Multi Channel Network
  • VR Virtual Reality
  • video technology has been proposed that can provide 3D scenes in any direction from any location that viewers want in relation to realistic media presentation techniques, but most of them focus on content creation.
  • Research is needed on technology and systems. In particular, research on an efficient information exchange method between a content provider and a viewer in a realistic media broadcast is urgently needed, and a study for an effective media acquisition and efficient information delivery is required.
  • Korean Patent Publication No. 10-2015-0010752 which is a prior art, relates to a panorama-based 3D video coding method, and panoramas a multiview photographed from a plurality of cameras through a stitching algorithm. Disclosed is a configuration for creating video.
  • An object of the present invention is to provide an immersive media image that allows a user to freely observe control of up, down, left, right, and zoom of a 360 ° image.
  • An object of the present invention is to provide a realistic media image capable of selecting and controlling a moving object in a content through 3D object modeling.
  • the technical problem to be achieved by the present embodiment is not limited to the technical problems as described above, and other technical problems may exist.
  • an embodiment of the present invention in the apparatus for providing a realistic media image, photographed in an inward manner through a plurality of cameras arranged around the object
  • An inward image acquisition unit for acquiring a plurality of inward images
  • an outward image acquisition for acquiring a plurality of outward images captured in an outward manner through a plurality of cameras arranged around a point of a place
  • a background image generator for generating a 360 ° cylinder image by matching the plurality of outward images, and converting the 360 ° cylinder image into a 360 ° spherical image to generate a background image, from the plurality of inward images
  • 3D object restoring unit which extracts an object to create a 3D object, a user who receives a viewpoint moving signal and a command signal about the object through an input device
  • An interface unit an input signal controller which controls the 360 ° spherical image and the 3D object based on the input view movement signal and the command signal, and synthe
  • the distortion correction unit may include a correction pattern image acquisition unit obtaining a correction pattern image from the plurality of cameras disposed at a predetermined distance from the object, and an internal parameter based on a lens focal length of the plurality of cameras and a position of the object. And a parameter calculation unit for calculating an external parameter based on the positional information of the plurality of cameras, and a distortion model estimator for estimating distortion models of the plurality of cameras based on the internal parameters and the external parameters. Can be.
  • the 3D object restoring unit may include an object extracting unit which extracts only the object by dividing the object and the background from the plurality of distortion-corrected inward images, and uses the internal parameter and the external parameter to generate 3D information of the object. It may include a three-dimensional information extraction unit for extracting, generating a three-dimensional mesh based on the three-dimensional information and a texture mapping unit for giving a color value to the three-dimensional mesh.
  • the background image generator includes a cylinder projection unit for projecting the plurality of outward images onto a cylinder using a cylinder coordinate conversion system, and a shift algorithm for extracting at least one feature of the size, position, and illumination of the plurality of outward images
  • the method may further include a homography estimator for matching the plurality of outward images by estimating homography having an error less than or equal to a predetermined value based on the feature, and a color corrector for correcting the color of the matched image. have.
  • the apparatus for providing a realistic media image that can be displayed as a 360 ° image by combining the image taken in the inward method and the image taken in the outward method Can be provided. It is possible to provide a device that provides a realistic media image that can give a user a sense of immersion, three-dimensional feeling, and reality. An apparatus for providing a realistic media image that allows a user to observe control of up, down, left, right, zoom, etc. of a 360 ° image freely can be provided. An apparatus for providing a realistic media image capable of selecting and controlling a moving object in a content through 3D object modeling may be provided.
  • FIG. 1 is a block diagram of a sensory media image providing system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram of a sensory media image providing apparatus according to an embodiment of the present invention.
  • FIG. 3 is a view for explaining an inward photographing method according to an embodiment of the present invention.
  • FIG. 4 is a diagram for describing an outward photographing method according to an exemplary embodiment of the present invention.
  • FIG. 5 is a block diagram of a distortion correction unit according to an embodiment of the present invention.
  • FIG. 6 is a block diagram of a three-dimensional object restorer according to an embodiment of the present invention.
  • FIG. 7 is a block diagram of a background image generator according to an exemplary embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a method of providing a realistic media image according to an embodiment of the present invention.
  • the term 'unit' includes a unit realized by hardware, a unit realized by software, and a unit realized by both.
  • one unit may be realized using two or more pieces of hardware, and two or more units may be realized by one piece of hardware.
  • Some of the operations or functions described as being performed by a terminal or a device in the present specification may instead be performed in a server connected to the terminal or device. Similarly, some of the operations or functions described as being performed by the server may be performed by a terminal or a device connected to the server.
  • FIG. 1 is a block diagram of a sensory media image providing system according to an embodiment of the present invention.
  • the sensory media image providing system 1 may include a plurality of cameras 100, a sensory media image providing apparatus 200, and a display apparatus 300.
  • the plurality of cameras 100, the realistic media image providing apparatus 200, and the display apparatus 300 illustrated in FIG. 1 exemplarily illustrate components that can be controlled by the realistic media image providing system 1. It is.
  • Each component of the sensory media image providing system 1 of FIG. 1 may be generally connected through a network.
  • the network refers to a connection structure capable of exchanging information between respective nodes such as terminals and servers. Examples of such a network include Wi-Fi, Bluetooth, Internet, and LAN. Network, Wireless Local Area Network (WLAN), Wide Area Network (WAN), Personal Area Network (PAN), 3G, 4G, LTE, and the like, but are not limited thereto.
  • the plurality of cameras 100 may generate a plurality of inward images by photographing an object in an inward manner.
  • the plurality of inward images may be multi-view images of the object, and may be images of a 360 ° view of the object.
  • the plurality of cameras 100 may be disposed on an annular shape having a first radius with respect to an object when capturing an inward image.
  • the arrangement structure of the plurality of cameras 100 is not limited thereto, and may be arranged in a hemispherical shape or the like having a layered structure around the object.
  • the plurality of cameras 100 may photograph an object within a chroma key background.
  • the plurality of cameras 100 may generate a plurality of outward images by photographing a background in an outward manner.
  • the plurality of cameras 100 may be disposed on an annular shape having a second radius and centering on a point of a place when the outward image is captured.
  • the first radius when the inward image is photographed and the second radius when the outward image is photographed may be the same.
  • the plurality of cameras 100 may be installed in the same frame, and may photograph a plurality of inward images and a plurality of outward images by rotating only the direction of the camera lens from the inside to the outside.
  • the first radius and the second radius may be different.
  • the plurality of cameras 100 may provide a plurality of inward images and a plurality of outward images to the sensory media image providing apparatus 200.
  • the sensory media image providing apparatus 200 may obtain a plurality of inward images and a plurality of outward images from the plurality of cameras 100.
  • the sensory media image providing apparatus 200 may correct a distortion of a plurality of inward images, and extract the objects from the plurality of inward images to generate a 3D object.
  • the sensory media image providing apparatus 200 may generate a 360 ° background image by matching a plurality of outward images.
  • the sensory media image providing apparatus 200 may receive a viewpoint movement signal and a command signal regarding an object through an interface, and control a 360 ° background image and a 3D object based on the input viewpoint movement signal and the command signal. .
  • the sensory media image providing apparatus 200 may synthesize the controlled background image and the 3D object and transmit the synthesized image to the display apparatus 300.
  • the display apparatus 300 is a terminal capable of receiving and displaying a sensory media image from the sensory media image providing apparatus 200.
  • the display apparatus 300 may include a set top box (STB), a smart phone, smart glasses, Smart pad, tablet PC, 3G, 4G, 5G terminal, Code Division Multiple Access (CDMA) -2000, W-Code Division Multiple Access (W-CDMA), Wireless Broadband Internet (WBRO) , Personal Communication System (PCS), Global System for Mobile communications (GSM), Personal Digital Cellular (PDC), Personal Handyphone System (PHS), Personal Digital Assistant (PDA), International Mobile Telecommunication (IMT) -2000, and the like. Can be.
  • STB set top box
  • CDMA Code Division Multiple Access
  • W-CDMA Wideband Internet
  • PCS Personal Communication System
  • GSM Global System for Mobile communications
  • PDC Personal Digital Cellular
  • PHS Personal Handyphone System
  • PDA Personal Digital Assistant
  • IMT International Mobile Telecommunication
  • the display apparatus 300 may be connected to an input device (not shown) such as a remote controller, a keyboard, a mouse, a touch pad, a motion sensor, a pupil sensor, or a microphone.
  • the display apparatus 300 receives a command signal for selecting, operating, and moving an object or a viewpoint movement signal for up, down, left, right, zoom in, and zoom out through an input device, and transmits the same to a sensory media image providing apparatus 200. Can be.
  • the immersive media image providing apparatus 200 includes an inward image acquisition unit 210, an outward image acquisition unit 220, a distortion correction unit 230, a 3D object reconstruction unit 240, The background image generator 250, the user interface 260, the input signal controller 270, and the synthesized image transmitter 280 may be included.
  • the inward image acquisition unit 210 may acquire a plurality of inward images from a plurality of cameras, DBs, or external servers. Hereinafter, the inward image will be described with reference to FIG. 3.
  • the plurality of cameras 100 may be disposed around the object 310 to photograph the object 310 inward.
  • the plurality of cameras 100 may be disposed in an annular shape spaced apart from the object 310 by a predetermined distance.
  • a multi-inward image of the object 310 may be obtained from the plurality of cameras 100 arranged around the object.
  • the outward image acquisition unit 220 may acquire a plurality of outward images from a plurality of cameras or DBs or external servers. Hereinafter, the outward image will be described with reference to FIG. 4.
  • the plurality of cameras 100 may be disposed around one point of a place to capture the background 410 toward the outside direction.
  • the plurality of cameras 100 may be arranged in an annular shape spaced a certain distance from one point.
  • the number of cameras used for shooting outward images may be the same as or different from the number of cameras used for shooting inward images, and the arrangement of the cameras may be the same except that the direction of the camera is changed from inside to outside. have.
  • the distortion corrector 230 may correct distortion of the plurality of inward images.
  • the detailed configuration of the distortion correction unit 230 will be described with reference to FIG. 5.
  • the distortion corrector 230 may include a correction pattern image acquisition unit 510, a parameter calculator 520, and a distortion model estimator 530.
  • the calibration pattern image acquisition unit 510 may obtain a calibration pattern image from a plurality of cameras disposed at a predetermined distance from the object, and detect a grid point.
  • the parameter calculator 520 may calculate an internal parameter based on the lens focal lengths of the plurality of cameras and the position of the object.
  • the parameter calculator 520 may calculate an external parameter based on the position information of the plurality of cameras.
  • the distortion model estimator 530 may estimate distortion models of the plurality of cameras based on the internal parameters and the external parameters, and correct the distortion of the camera using the estimated distortion model. For example, the corner points may be reversely extracted from the estimated distortion model and verified, and the distortion of the image may be corrected using the verified camera model.
  • the 3D object restorer 240 may generate a 3D object by extracting an object from the plurality of inward images.
  • a detailed configuration of the 3D object restoring unit 240 will be described with reference to FIG. 6.
  • the 3D object restorer 240 may include an object extractor 610, a 3D information extractor 620, and a texture mapping unit 630.
  • the object extractor 610 may extract only the object by dividing the moving object and the background from the plurality of distortion-corrected inward images.
  • the object extractor 610 may collect object information by tracking and extracting objects from the plurality of inward images and removing the images if the objects overlap each other. For example, since the background is fixed and the object is moving, the object may be extracted by determining that the difference between the t frame and the t-1 frame is the moved area.
  • the object extractor 610 may separate the object from the background by tracking the moving object, obtain object information of each view, and then form the same object size of each view for 3D modeling. For example, the size information of x objects for n viewpoints may be obtained, the size of each object required at each viewpoint may be determined, and the size of each object image may be converted at different viewpoints according to the required size. In order to convert the same size, the distorted image needs to be corrected. In this case, a projective transform may be used.
  • the object extractor 610 may calculate a parameter of a plurality of cameras by performing a camera calibration process to extract an object.
  • the object extractor 610 may be configured using a first mixed Gaussian extractor, a second contrast map / motion information unit, and a third hierarchical region structure unit for accurate object extraction.
  • Mixture Gaussian extracts the background pixel model, separates the object with the background modeling method, and removes the noise using median filter and morphology calculation to extract the object using the threshold. Can be.
  • the Contrast Map and Motion Information Unit finds important feature points using the Contrast Map and Wavelet Transform, estimates the motion information by creating an approximate Attention Window (AW), and extracts the object by extracting the contour difference. Can be.
  • AW Attention Window
  • the hierarchical region structure unit may segment an image using a watershed algorithm, and extract an object by creating a hierarchical structure by merging regions having similar properties among the divided regions.
  • the 3D information extractor 620 may extract 3D information of the object by using an internal parameter and an external parameter, and generate a 3D mesh based on the 3D information.
  • the 3D information extractor 620 may generate a visual hull in order to restore the geometric information of the object, and generate a 3D mesh using the visual hull.
  • the visual hull may be obtained by using a shape-prum-silhouette 3D reconstruction after separating an object from a background to make a 2D silhouette image using a threshold value, and as an intersection point of silhouette cones of each view.
  • the 3D information extractor 620 may project a 3D light ray from an image of each view by using a ray projection method, and obtain a CSG of an intersection point of the projected light rays.
  • the 3D information extractor 620 uses the restored geometric information to cover the 3D object in a minimal space by using connectivity information between points on the surface of the 3D object. You can find and generate a three-dimensional mesh.
  • the texture mapping unit 630 may give a color value to the 3D mesh.
  • the texture mapping unit 630 may assign color values to vertices or entire polygons of the surface polygons of the 3D mesh. Through this, it is possible to provide the user with realism and realism.
  • the background image generator 250 may generate a 360 ° cylinder image by matching a plurality of outward images, and generate a background image by converting the 360 ° cylinder image into a 360 ° spherical image.
  • a detailed configuration of the background image generator 250 will be described with reference to FIG. 7.
  • the background image generating unit 250 may include a cylinder projecting unit 710, a shift algorithm unit 720, a homography estimating unit 730, and a color compensating unit 740.
  • the cylinder projector 710 may project the plurality of outward images onto the cylinder using a cylinder coordinate conversion system.
  • the cylinder projection unit 710 extracts feature points of the backgrounds and rearranges and matches the images. This is to express the coordinates for the accurate spherical image generation.
  • the shift algorithm unit 720 may extract at least one feature of the size, position, and illumination of the plurality of outward images.
  • the shift algorithm unit 720 may extract an invariant feature regarding size, rotation, and illumination from a multiview image, thereby finding an accurate correspondence between the images.
  • the homography estimation unit 730 may match the plurality of outward images by estimating homography having an error of less than or equal to a set value based on the feature extracted by the algorithm 100.
  • the homography estimation unit 730 may estimate and homogenize the homography having the minimum error by using the direct linear transformation between the matching feature points.
  • the color corrector 740 may correct the color of the matched image.
  • the color correction unit 740 may generate a realistic image that may give the impression that the image is taken by one camera by minimizing the difference in color tones in the matched image.
  • the background image generator 250 generates a 360-degree spherical image so that the generated panoramic image can be viewed as desired by the user and is displayed on a display device. It may further include.
  • the spherical expression processor renders the panorama image graphically so as to express the 360 degree spherical image.
  • the spherical expression processor uses a function to convert the obtained 2D image into a 3D image coordinate system, and may display the 3D image in real time.
  • the user interface 260 may receive a viewpoint movement signal and a command signal regarding an object through the input device.
  • the user interface 260 may receive a command signal for selecting, operating, and moving an object or a viewpoint movement signal for up, down, left, right, zoom in, and zoom out through an input device.
  • a user When connected to an input device display device and configured of a motion sensor, a lip motion sensor, and a eye sensor, a user may provide a natural user interface (NUI) service that controls an object and a viewpoint through a gesture of a user.
  • NUI natural user interface
  • the input signal controller 270 may control the 360 ° background image and the 3D object based on the viewpoint movement signal and the command signal input through the user interface 260.
  • the input signal controller 270 may process the 360 ° background image to perform up, down, left, right, and zoom functions according to the viewpoint movement signal, so that the user may freely view the spherical image in real time. .
  • the input signal controller 270 may select, move, and rotate the object by mapping the command signal to the object.
  • the composite image transmitter 280 may synthesize the 360 ° background image generated by the background image generator 250 and the 3D object generated by the 3D object restorer 240 and transmit the synthesized image to the display device. have.
  • the synthesized image transmitter 280 may detect and synthesize image feature points such that the 3D object and the background image are matched with each other.
  • the composite image transmitter 280 may hybridly combine an object and an image based on the input command signal and the viewpoint movement signal, generate a 1: 1 customized free view image, and may transmit the image to the display device.
  • FIG. 8 is a flowchart illustrating a method of providing a realistic media image according to an embodiment of the present invention.
  • the method for providing a sensory media image according to the embodiment shown in FIG. 8 includes steps that are processed in time series in the sensory media image providing system 1 according to the embodiment shown in FIG. 1. Thus, although omitted below, contents already described with respect to the sensory media image providing system 1 according to the embodiment shown in FIG. 1 are provided. The method for providing a sensory media image according to the embodiment shown in FIG. 8 is described. Also applies.
  • operation S810 a plurality of inward images are obtained, and in operation S820, a plurality of outward images are obtained.
  • operation S830 an object is extracted from the plurality of inward images to generate a 3D object, and in operation S840, a plurality of outward images are matched to generate a background image.
  • the viewpoint movement signal and / or the object command signal are input, and in operation S860, the background image and the 3D object are controlled.
  • the background image and the 3D object are synthesized and sent to the display device.
  • steps S810 to S870 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the invention.
  • some steps may be omitted as necessary, and the order between the steps may be changed.
  • the method for providing a realistic media image according to an embodiment of the present invention described with reference to FIG. 8 may also be implemented in the form of a computer program stored in a medium executed by a computer or a recording medium including instructions executable by the computer.
  • Computer readable media can be any available media that can be accessed by a computer and includes both nonvolatile media, removable and non-removable media.
  • the computer readable medium may include a computer storage medium.
  • Computer storage media includes both non-volatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Apparatus for providing a realistic media image is applicable to a variety of content production and image display technology considering one-to-many two-way communication, N-screen based smart device, viewing environment, etc. It can contribute to the high quality of customized interactive broadcasting technology.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

실감형 미디어 영상을 제공하는 장치는, 객체를 중심으로 배치된 복수의 카메라를 통해 인워드(inward) 방식으로 촬영된 복수의 인워드 영상을 획득하는 인워드영상획득부, 장소의 일 지점을 중심으로 배치된 복수의 카메라를 통해 아웃워드(outward) 방식으로 촬영된 복수의 아웃워드 영상을 획득하는 아웃워드영상획득부, 상기 복수의 아웃워드 영상을 정합하여 360° 실린더 영상을 생성하고, 상기 360° 실린더 영상을 360° 구형 영상으로 변환하여 배경 영상을 생성하는 배경영상생성부, 상기 복수의 인워드 영상으로부터 상기 객체를 추출하여 3차원 객체를 생성하는 3차원객체복원부, 입력장치를 통해 시점 이동 신호 및 상기 객체에 관한 명령 신호를 입력받는 유저인터페이스부, 상기 입력된 시점 이동 신호 및 명령 신호에 기초하여 상기 360° 구형 영상과 상기 3차원 객체를 제어하는 입력신호제어부 및 상기 360° 구형 영상과 상기 3차원 객체를 합성하고, 합성 영상을 디스플레이 장치로 송출하는 합성영상송출부를 포함하도록 구성된다.

Description

실감형 미디어 영상을 제공하는 장치
본 발명은 실감형 미디어 영상을 제공하는 장치에 관한 것이다.
최근 미디어 이용 환경이 실시간 TV 시청에서 온라인 동영상 서비스로 변함에 따라 MCN(Multi Channel Network) 등 1인 미디어, 개인방송 서비스가 차지하는 비율이 높아지는 추세에 있다. 1인 미디어 방송을 위한 콘텐츠 제작과 개인방송 시스템은 중요한 연구 분야로 고려되고 있으며, 특히 MCN 및 콘텐츠 품질에 대한 부분이 급속도로 발전하고 있다. 그러나, 실감 시청에 대한 기술은 아직까지 상용화되지 못하고 연구 차원에서 머물러 있는 실정이다.
또한, 실감 미디어 표출 기법과 관련하여 시청자가 원하는 임의의 위치에서 임의의 방향으로 3차원 장면을 제공해 줄 수 있는 VR(Virtual Reality) 영상 기술이 제시된 바있지만, 대부분 콘텐츠 제작을 중점으로 제시하고 있으며 영상 기술 및 시스템에 대해서는 연구가 필요하다. 특히, 실감 미디어 방송에서 컨텐츠 제공자와 시청자간의 효율적인 정보 교류 방법에 대한 연구가 절실하며, 실감형 미디어 획득 및 효율적인 정보 전달을 위한 연구가 요구되고 있다.
이러한 대용량 영상을 처리하는 방법과 관련하여, 선행기술인 한국공개특허공보 제10-2015-0010752호는 파노라마 기반 3D 비디오 코딩 방법에 관한 것으로, 복수의 카메라들로부터 촬영된 멀티뷰를 스티칭 알고리즘을 통해 파노라마 비디오로 생성하는 구성을 개시하고 있다.
인워드 방식으로 촬영된 영상과 아웃워드 방식으로 촬영된 영상을 결합하여 하나의 360° 영상으로 표출할 수 있는 실감형 미디어 영상을 제공하는 장치를 제공하고자 한다. 사용자에게 현장에 있는 듯한 몰입감과 입체감, 현실감을 줄 수 있는 실감형 미디어 영상을 제공하는 장치를 제공하고자 한다. 사용자가 360° 영상의 상, 하, 좌, 우, 줌 등에 대한 제어를 자유시점으로 관찰할 수 있는 실감형 미디어 영상을 제공하는 장치를 제공하고자 한다. 3D 객체 모델링를 통해 콘텐츠 내에서 움직이는 객체를 선택 및 제어할 수 있는 실감형 미디어 영상을 제공하는 장치를 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 실감형 미디어 영상을 제공하는 장치에 있어서, 객체를 중심으로 배치된 복수의 카메라를 통해 인워드(inward) 방식으로 촬영된 복수의 인워드 영상을 획득하는 인워드영상획득부, 장소의 일 지점을 중심으로 배치된 복수의 카메라를 통해 아웃워드(outward) 방식으로 촬영된 복수의 아웃워드 영상을 획득하는 아웃워드영상획득부, 상기 복수의 아웃워드 영상을 정합하여 360° 실린더 영상을 생성하고, 상기 360° 실린더 영상을 360° 구형 영상으로 변환하여 배경 영상을 생성하는 배경영상생성부, 상기 복수의 인워드 영상으로부터 상기 객체를 추출하여 3차원 객체를 생성하는 3차원객체복원부, 입력장치를 통해 시점 이동 신호 및 상기 객체에 관한 명령 신호를 입력받는 유저인터페이스부, 상기 입력된 시점 이동 신호 및 명령 신호에 기초하여 상기 360° 구형 영상과 상기 3차원 객체를 제어하는 입력신호제어부 및 상기 360° 구형 영상과 상기 3차원 객체를 합성하고, 합성 영상을 디스플레이 장치로 송출하는 합성영상송출부를 포함하는, 실감형 미디어 영상 제공 장치를 제공할 수 있다.
상기 왜곡보정부는, 상기 객체와 일정 거리에 떨어져 배치된 상기 복수의 카메라로부터 교정패턴영상을 획득하는 교정패턴영상획득부, 상기 복수의 카메라의 렌즈 초점 거리와 상기 객체의 위치에 기초하여 내부 파라미터를 산출하고, 상기 복수의 카메라의 위치 정보에 기초하여 외부 파라미터를 산출하는 파라미터산출부, 및 상기 내부 파라미터와 상기 외부 파라미터에 기초하여 상기 복수의 카메라의 왜곡 모델을 추정하는 왜곡 모델 추정부를 포함하는 것일 수 있다.
상기 3차원객체복원부는, 상기 왜곡 보정된 복수의 인워드 영상으로부터 상기 객체와 배경을 분할시켜 상기 객체만을 추출하는 객체추출부, 상기 내부 파라미터와 상기 외부 파라미터를 이용하여 상기 객체의 3차원 정보를 추출하고, 상기 3차원 정보에 기초하여 3차원 메시를 생성하는 3차원정보추출부 및 상기 3차원 메시에 색상값을 부여하는 텍스쳐맵핑부를 포함하는 것일 수 있다.
상기 배경영상생성부는, 상기 복수의 아웃워드 영상을 실린더 좌표 변환계를 이용하여 실린더에 투영하는 실린더투영부, 상기 복수의 아웃워드 영상의 크기, 위치 및 조명 중 적어도 하나의 특징을 추출하는 시프트알고리즘부, 상기 특징에 기초하여 설정값 이하의 오류를 가지는 호모그래피를 추정하여 상기 복수의 아웃워드 영상을 정합시키는 호모그래피추정부, 및 상기 정합된 영상의 색상을 보정하는 색상보정부를 포함하는 것일 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 인워드 방식으로 촬영된 영상과 아웃워드 방식으로 촬영된 영상을 결합하여 하나의 360° 영상으로 표출할 수 있는 실감형 미디어 영상을 제공하는 장치를 제공할 수 있다. 사용자에게 현장에 있는 듯한 몰입감과 입체감, 현실감을 줄 수 있는 실감형 미디어 영상을 제공하는 장치를 제공할 수 있다. 사용자가 360° 영상의 상, 하, 좌, 우, 줌 등에 대한 제어를 자유시점으로 관찰할 수 있는 실감형 미디어 영상을 제공하는 장치를 제공할 수 있다. 3D 객체 모델링를 통해 콘텐츠 내에서 움직이는 객체를 선택 및 제어할 수 있는 실감형 미디어 영상을 제공하는 장치를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 실감형 미디어 영상 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 실감형 미디어 영상 제공 장치의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 인워드 촬영 방식을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 아웃워드 촬영 방식을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 왜곡보정부의 구성도이다.
도 6은 본 발명의 일 실시예에 따른 3차원객체복원부의 구성도이다.
도 7은 본 발명의 일 실시예에 따른 배경영상생성부의 구성도이다.
도 8은 본 발명의 일 실시예에 따른 실감형 미디어 영상을 제공하는 방법을 나타낸 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 실감형 미디어 영상 제공 시스템의 구성도이다.
도 1을 참조하면, 실감형 미디어 영상 제공 시스템(1)은 복수의 카메라(100), 실감형 미디어 영상 제공 장치(200) 및 디스플레이 장치(300)를 포함할 수 있다. 도 1에 도시된 복수의 카메라(100), 실감형 미디어 영상 제공 장치(200) 및 디스플레이 장치(300)는 실감형 미디어 영상 제공 시스템(1)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다.
도 1의 실감형 미디어 영상 제공 시스템(1)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결될 수 있다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예는, Wi-Fi, 블루투스(Bluetooth), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 3G, 4G, LTE 등이 포함되나 이에 한정되지는 않는다.
복수의 카메라(100)는 인워드(inward) 방식으로 객체를 촬영하여 복수의 인워드 영상을 생성할 수 있다. 복수의 인워드 영상은 객체에 대한 다시점 영상으로서, 객체에 대한 360° 뷰(view)를 촬영한 영상일 수 있다.
복수의 카메라(100)는 인워드 영상을 촬영 시 객체를 중심으로 하며, 제 1 반지름을 가지는 원환상에 배치될 수 있다. 복수의 카메라(100)의 배치 구조는 이에 제한되지 않으며, 객체를 중심으로 하는 층상 구조의 반구 형상 등으로 배치될 수도 있다.
복수의 카메라(100)는 객체를 크로마키 배경 내에서 촬영할 수 있다
복수의 카메라(100)는 아웃워드(outward) 방식으로 배경을 촬영하여 복수의 아웃워드 영상을 생성할 수 있다.
복수의 카메라(100)는 아웃워드 영상을 촬영 시 장소의 일 지점을 중심으로 하며, 제 2 반지름을 가지는 원환상에 배치될 수 있다. 예를 들어, 인워드 영상 촬영 시의 제 1 반지름과 아웃워드 영상 촬영 시의 제 2 반지름은 동일할 수 있다. 예컨대, 복수의 카메라(100)는 동일한 프레임에 설치되고, 카메라 렌즈의 방향만 내측에서 외측으로 회전하여 복수의 인워드 영상과 복수의 아웃워드 영상을 촬영할 수 있다. 이와 달리, 제 1 반지름과 제 2 반지름은 상이할 수도 있다.
복수의 카메라(100)는 복수의 인워드 영상 및 복수의 아웃워드 영상을 실감형 미디어 영상 제공 장치(200)로 제공할 수 있다.
실감형 미디어 영상 제공 장치(200)는 복수의 카메라(100)로부터 복수의 인워드 영상 및 복수의 아웃워드 영상을 획득할 수 있다.
실감형 미디어 영상 제공 장치(200)는 복수의 인워드 영상의 왜곡을 보정하고, 복수의 인워드 영상으로부터 상기 객체를 추출하여 3차원 객체를 생성할 수 있다.
실감형 미디어 영상 제공 장치(200)는 복수의 아웃워드 영상을 정합하여 360°배경 영상을 생성할 수 있다.
실감형 미디어 영상 제공 장치(200)는 인터페이스를 통해 시점 이동 신호 및 객체에 관한 명령 신호를 입력받고, 입력된 시점 이동 신호 및 명령 신호에 기초하여 360° 배경 영상과 3차원 객체를 제어할 수 있다.
실감형 미디어 영상 제공 장치(200)는 제어된 배경 영상과 3차원 객체를 합성하고, 합성 영상을 디스플레이 장치(300)로 송출할 수 있다.
디스플레이 장치(300)는 실감형 미디어 영상 제공 장치(200)로부터 실감형 미디어 영상을 수신하여 표시할 수 있는 단말로서, 셋톱박스(STB), 스마트폰(smart phone), 스마트 안경(smart glasses), 스마트 패드(smart pad), 타블랫 PC(Tablet PC), 3G, 4G, 5G 단말, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet), PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000 등을 포함할 수 있다.
디스플레이 장치(300)는 리모콘, 키보드, 마우스, 터치패드, 모션센서, 눈동자 센서 또는 마이크와 같은 입력 장치(미도시)와 연결될 수 있다. 디스플레이 장치(300)는 입력 장치를 통해 객체의 선택, 동작 및 이동에 관한 명령 신호, 또는 상하좌우, 줌인, 줌아웃에 관한 시점 이동 신호를 입력 받고, 이를 실감형 미디어 영상 제공 장치(200)로 전송할 수 있다.
이하 도 2를 참조하여 실감형 미디어 영상 제공 장치(200)에 대해 상세히 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 실감형 미디어 영상 제공 장치의 구성도이다. 도 2를 참조하면, 실감형 미디어 영상 제공 장치(200)는 인워드 영상 획득부(210), 아웃워드 영상 획득부(220), 왜곡 보정부(230), 3차원 객체 복원부(240), 배경영상 생성부(250), 유저 인터페이스부(260), 입력신호 제어부(270), 및 합성 영상 송출부(280)를 포함할 수 있다.
인워드 영상 획득부(210)는, 복수의 카메라 또는 DB나 외부 서버로부터 복수의 인워드 영상을 획득할 수 있다. 이하 도 3을 참조하여, 인워드 영상에 대해 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 인워드 촬영 방식을 설명하기 위한 도면이다. 도 3을 참조하면, 복수의 카메라(100)는 객체(310)를 중심으로 배치되어 내측 방향을 향해 객체(310)를 촬영할 수 있다. 복수의 카메라(100)는 객체(310)로부터 일정 거리 떨어진 원환 형상으로 배치될 수 있다.
도 3에는 8대의 카메라가 도시되어 있으나, 카메라의 개수는 이에 제한되지 않으며, 이보다 적거나 많을 수 있다. 객체를 중심으로 배치된 복수의 카메라(100)로부터 객체(310)에 대한 다중 인워드 영상을 획득할 수 있다.
도 2로 돌아와서, 아웃워드 영상 획득부(220)는 복수의 카메라 또는 DB나 외부 서버로부터 복수의 아웃워드 영상을 획득할 수 있다. 이하, 도 4를 참조하여, 아웃워드 영상에 대해 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 아웃워드 촬영 방식을 설명하기 위한 도면이다. 도 4를 참조하면, 복수의 카메라(100)는 장소의 일 지점을 중심으로 배치되어 외측 방향을 향해 배경(410)을 촬영할 수 있다. 복수의 카메라(100)는 일 지점으로부터 일정 거리 떨어진 원환 형상으로 배치될 수 있다.
아웃워드 영상 촬영 시 이용되는 카메라의 개수는 인워드 영상 촬영 시 이용되는 카메라의 개수와 동일하거나 상이할 수 있으며, 카메라의 배치구조는 카메라의 방향이 내측에서 외측으로 변경되는 것을 제외하고 동일할 수 있다.
도 2로 돌아와서, 왜곡 보정부(230)는 복수의 인워드 영상의 왜곡을 보정할 수 있다. 이하 도 5를 참조하여, 왜곡 보정부(230)의 세부 구성을 설명하도록 한다.
도 5는 본 발명의 일 실시예에 따른 왜곡보정부의 구성도이다. 도 5를 참조하면, 왜곡 보정부(230)는 교정패턴영상획득부(510), 파라미터산출부(520), 및 왜곡 모델 추정부(530)를 포함할 수 있다.
교정패턴영상획득부(510)는 객체와 일정 거리에 떨어져 배치된 복수의 카메라로부터 교정패턴영상을 획득하고, 격자점을 검출할 수 있다.
파라미터산출부(520)는 복수의 카메라의 렌즈 초점 거리와 객체의 위치에 기초하여 내부 파라미터를 산출할 수 있다. 파라미터산출부(520)는 복수의 카메라의 위치 정보에 기초하여 외부 파라미터를 산출할 수 있다.
왜곡모델추정부(530)는 내부 파라미터와 외부 파라미터에 기초하여 복수의 카메라의 왜곡 모델을 추정하고, 추정된 왜곡 모델을 이용하여 카메라의 왜곡을 보정할 수 있다. 예컨대, 추정된 왜곡 모델로부터 역으로 코너점을 다시 추출하여 검증하고, 검증된 카메라 모델을 이용하여 영상의 왜곡을 보정할 수 있다.
도 2로 돌아와서, 3차원객체복원부(240)는 복수의 인워드 영상으로부터 객체를 추출하여 3차원 객체를 생성할 수 있다. 이하 도 6을 참조하여 3차원객체복원부(240)의 세부 구성에 대해서 설명하도록 한다.
도 6은 본 발명의 일 실시예에 따른 3차원객체복원부의 구성도이다. 도 3을 참조하면, 3차원객체복원부(240)는 객체추출부(610), 3차원정보추출부(620), 및 텍스쳐맵핑부(630)를 포함할 수 있다.
객체추출부(610)는 왜곡 보정된 복수의 인워드 영상으로부터 움직이는 객체와 배경을 분할시켜 객체만을 추출할 수 있다.
객체추출부(610)는 복수의 인워드 영상로부터 객체를 추적하여 추출하고, 객체가 서로 겹쳐진 영상이 있다면 제거하는 과정을 거쳐 객체정보를 수집할 수 있다. 예를 들어, 배경은 고정되어 있고, 객체는 움직이고 있기 때문에 t프레임과 t-1프레임의 차이값이 움직인 영역이라고 판단하여 객체를 추출할 수 있다.
객체추출부(610)는 움직이는 객체를 추적하여 객체를 배경으로부터 분리시켜 각 뷰의 객체정보를 획득한 후, 3D모델링을 하기 위하여 각 뷰의 객체크기를 동일하게 형성시킬 수 있다. 예를 들어, n개의 시점에 대한 x개의 객체들의 크기정보를 획득하고, 각 시점에서 필요한 각 객체의 크기를 정하고, 필요한 크기에 맞게 다른 시점에서 각 객체이미지들의 크기를 변환시킬 수 있다. 크기를 같게 변환하기 위해서 왜곡된 영상을 보정해야 하는데 이때, 프로젝티브(projective) 변환을 이용할 수 있다.
객체추출부(610)는 객체의 추출을 위해서 카메라 캘리브레이션 과정을 수행하여 복수의 카메라의 파라미터를 산출할 수 있다.
객체추출부(610)는 정확한 객체추출을 위하여 1차로 혼합가우시안 추출부, 2차로 대비지도·움직임정보부, 3차로 계층적 영역 구조부를 이용하여 구성될 수 있다.
혼합가우시안 추출부(Mixure of Gaussian, MoG)는 배경화소모델을 구하고, 배경모델링 기법으로 객체를 분리한 후, 미디언 필터와 모폴로지 연산을 통해 잡음을 제거하여 임계값을 이용하여 객체를 추출하도록 구성될 수 있다.
대비지도·움직임정보부는 대비지도와 웨이블렛 변환을 이용하여 중요 특징점을 찾아내고 이를 이용하여 대략적인 집중윈도우(AW:Attention Window)를 생성하여 움직임 정보를 추정하고, 윤곽선 차이를 추출하여 객체를 추출할 수 있다.
계층적영역구조부는 워터쉐드 알고리즘을 이용하여 영상을 분할하고, 분할된 영역 중 유사한 속성을 가진 영역을 병합하여 계층 구조를 만들어 객체를 추출할 수 있다.
3차원정보추출부(620)는 내부 파라미터와 외부 파라미터를 이용하여 객체의 3차원 정보를 추출하고, 3차원 정보에 기초하여 3차원 메시를 생성할 수 있다.
3차원정보추출부(620)는 객체의 기하 정보를 복원하기 위하여 비쥬얼 헐(Visual Hull)을 생성시키고, 이를 이용하여 3차원 메시를 생성할 수 있다. 여기서, 비쥬얼 헐은 물체를 배경으로부터 분리시켜 임계값을 이용하여 2D 실루엣 이미지를 만든 후, 각 뷰의 실루엣 콘들의 교차점으로서, 쉐이프-프럼-실루엣 3D 복원을 이용하여 획득할 수 있다.
3차원정보추출부(620)는 비쥬얼 헐을 연산하기 위하여 광선투사법을 이용하여 각 뷰의 이미지에서 3차원 광선을 투사하고, 투사된 광선의 교차점의 씨에스지(CSG)를 구할 수 있다.
3차원정보추출부(620)는 비주얼 헐 정보가 모두 연산되면, 복원된 기하정보를 이용하여 3차원 객체의 표면상에 존재하는 점 간의 연결성 정보를 이용하여 3차원 물체를 최소한의 공간으로 감싸는 외피를 찾아 3차원 메시를 생성할 수 있다.
텍스쳐맵핑부(630)는 3차원 메시에 색상값을 부여할 수 있다. 텍스쳐맵핑부(630)는 3차원 메시의 각각 표면 다각형의 꼭지점 혹은 다각형 전체에 색상값을 할당할 수 있다. 이를 통해, 사용자에게 현실감과, 사실감을 제공할 수 있다.
도 2로 돌아와서, 배경영상생성부(250)는 복수의 아웃워드 영상을 정합하여 360° 실린더 영상을 생성하고, 360° 실린더 영상을 360° 구형 영상으로 변환하여 배경 영상을 생성할 수 있다. 이하 도 7을 참조하여, 배경영상생성부(250)의 세부 구성에 대해서 설명하도록 한다.
도 7은 본 발명의 일 실시예에 따른 배경영상생성부의 구성도이다. 도 7을 참조하면, 배경영상생성부(250)는 실린더투영부(710), 시프트알고리즘부(720), 호모그래피추정부(730) 및 색상보정부(740)을 포함할 수 있다.
실린더투영부(710)는 복수의 아웃워드 영상을 실린더 좌표 변환계를 이용하여 실린더에 투영할 수 있다. 실린더투영부(710)는 배경들의 특징점을 추출하고, 영상을 재정렬하여 정합한다. 이는 정확한 구형 영상 생성에 대한 좌표를 표출하기 위함이다.
시프트알고리즘부(720)는 복수의 아웃워드 영상의 크기, 위치 및 조명 중 적어도 하나의 특징을 추출할 수 있다. 시프트알고리즘부(720)는 다시점 영상 중에서 크기, 회전, 조명에 관한 불변인 특징을 추출할 수 있으며, 이를 통해 영상 간의 정확한 대응관계를 찾을 수 있다.
호모그래피추정부(730)는 스프트알고리즘부(720)에서 추출한 특징에 기초하여 설정값 이하의 오류를 가지는 호모그래피를 추정하여 상기 복수의 아웃워드 영상을 정합할 수 있다.
호모그래피추정부(730)는 일치하는 특징점들 사이에서 직접선형변환식을 이용하여 최소의 오류를 갖는 호모그래피를 추정하여 영상정합시킬 수 있다.
색상보정부(740)는 정합된 영상의 색상을 보정할 수 있다. 색상보정부(740)는 정합된 영상 내의 색상톤의 차이를 최소화 시켜 하나의 카메라로 영상을 촬영한 듯한 느낌을 줄 수 있는 실감 영상을 생성할 수 있다.
배경영상생성부(250)는, 도시하지 않았지만, 생성된 파노라마 영상을 사용자가 원하는 대로 자유시점의 영상을 볼 수 있도록 360도 구형 영상을 생성시키고 디스플레이 장치로 표출할 수 있도록 처리해주는 구형표출처리부를 더 포함할 수 있다.
구형표출처리부는 파노라마 영상을 360도 구형 영상으로 표출할 수 있도록 그래픽적으로 렌더링 한다. 구형표출처리부는 획득된 2차원 영상을 3차원 영상 좌표계로 변환하는 함수를 사용하며, 3차원 영상을 실시간으로 표출할 수 있다.
도 2로 돌아와서, 유저 인터페이스부(260)는 입력장치를 통해 시점 이동 신호 및 객체에 관한 명령 신호를 입력받을 수 있다.
유저 인터페이스부(260)는 입력 장치를 통해 객체의 선택, 동작 및 이동에 관한 명령 신호 또는 상하좌우, 줌인, 줌아웃에 관한 시점 이동 신호를 입력받을 수 있다.
입력장치 디스플레이 장치에 연결되며, 모션센서, 립모션 센서, 눈동자 센서로 구성되는 경우 사용자의 제스처를 통해 객체 및 시점을 제어할 수 있는 NUI(Natural User Interface) 서비스를 제공할 수 있다.
입력신호 제어부(270)는 유저 인터페이스부(260)를 통해 입력된 시점 이동 신호 및 명령 신호에 기초하여 360° 배경 영상과 3차원 객체를 제어할 수 있다.
입력신호 제어부(270)는 시점 이동 신호에 따라 360° 배경 영상을 상, 하, 좌, 우, 줌 기능을 수행할 수 있도록 처리함으로써 사용자가 실시간으로 구형 영상을 자유자재로 볼 수 있도록 할 수 있다.
입력신호 제어부(270)는 명령 신호를 객체에 매핑하여 객체를 선택, 이동, 회전시킬 수 있다.
합성 영상 송출부(280)는 배경영상생성부(250)에서 생성된 360° 배경 영상과 3차원객체복원부(240)에서 생성된 3차원 객체를 합성하고, 합성 영상을 디스플레이 장치로 송출할 수 있다.
합성 영상 송출부(280)는 3차원 객체와 배경영상이 서로 매칭되어 정합되도록 영상 특징점을 검출하고 합성할 수 있다.
합성 영상 송출부(280)는 입력된 명령 신호 및 시점 이동 신호에 기초하여 객체와 영상을 하이브리드식으로 결합하고, 1:1 맞춤형 자유시점영상을 생성하여 디스플레이 장치로 송출할 수 있다.
도 8은 본 발명의 일 실시예에 따른 실감형 미디어 영상을 제공하는 방법을 나타낸 흐름도이다.
도 8에 도시된 실시예에 따른 실감형 미디어 영상을 제공하는 방법은 도 1에 도시된 실시예에 따른 실감형 미디어 영상 제공 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1에 도시된 실시예에 따른 실감형 미디어 영상 제공 시스템(1)에 관하여 이미 기술된 내용은 도 8에 도시된 실시예에 따른 실감형 미디어 영상을 제공하는 방법에도 적용된다.
도 8을 참조하면, 단계 S810에서 복수의 인워드 영상을 획득하고, 단계 S820에서 복수의 아웃워드 영상을 획득한다. 단계 S830에서 복수의 인워드 영상으로부터 객체를 추출하여 3차원 객체를 생성하고, 단계 S840에서 복수의 아웃워드 영상을 정합하여 배경영상을 생성한다.
단계 S850에서 시점 이동 신호 및/또는 객체 명령 신호를 입력받고, 단계 S860에서 배경영상과 3차원 객체를 제어한다. 단계 S870에서 배경영상과 3차원 객체를 합성하여 디스플레이 장치로 송출한다.
상술한 설명에서, 단계 S810 내지 S870은 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 8에서 설명한 본 발명의 일 실시예에 따른 실감형 미디어 영상을 제공하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
본 발명의 일 실시예에 따른 실감형 미디어 영상 제공 장치는 1대다의 양방향 소통, N스크린 기반의 스마트 기기, 시청 환경 등을 고려한 다양한 콘텐츠 제작 및 영상 표출 기술에 적용 가능하며, 개발 시청자와 교감하는 맞춤형 인터랙티브 방송기술의 고품질화에 기여할 수 있다.
인터넷 연결이 가능한 환경 하에서 필드테스트를 통한 검증된 기술을 확보 할 수 있고, 차세대 입체 방송서비스에 활용 가능한 자유시점 영상 및 음향의 연동이 가능한 서비스를 제공함으로써 기술 경쟁력을 강화할 수 있다.
또한, 실감형 개인방송 서비스를 통한 교육, 광고 및 다양한 엔터테인먼트, 서비스 연계를 통한 차세대 개인방송의 서비스망을 구축할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (5)

  1. 실감형 미디어 영상을 제공하는 장치에 있어서,
    객체를 중심으로 배치된 복수의 카메라를 통해 인워드(inward) 방식으로 촬영된 복수의 인워드 영상을 획득하는 인워드영상획득부;
    장소의 일 지점을 중심으로 배치된 복수의 카메라를 통해 아웃워드(outward) 방식으로 촬영된 복수의 아웃워드 영상을 획득하는 아웃워드영상획득부;
    상기 복수의 아웃워드 영상을 정합하여 360° 실린더 영상을 생성하고, 상기 360° 실린더 영상을 360° 구형 영상으로 변환하여 배경 영상을 생성하는 배경영상생성부;
    상기 복수의 인워드 영상으로부터 상기 객체를 추출하여 3차원 객체를 생성하는 3차원객체복원부;
    입력장치를 통해 시점 이동 신호 및 상기 객체에 관한 명령 신호를 입력받는 유저인터페이스부;
    상기 입력된 시점 이동 신호 및 명령 신호에 기초하여 상기 배경 영상과 상기 3차원 객체를 제어하는 입력신호제어부; 및
    상기 배경 영상과 상기 3차원 객체를 합성하고, 합성 영상을 디스플레이 장치로 송출하는 합성영상송출부
    를 포함하는, 실감형 미디어 영상 제공 장치.
  2. 제 1 항에 있어서,
    상기 복수의 인워드 영상의 왜곡을 보정하는 왜곡보정부를 더 포함하고,
    상기 왜곡보정부는,
    상기 객체와 일정 거리에 떨어져 배치된 상기 복수의 카메라로부터 교정패턴영상을 획득하는 교정패턴영상획득부;
    상기 복수의 카메라의 렌즈 초점 거리와 상기 객체의 위치에 기초하여 내부 파라미터를 산출하고, 상기 복수의 카메라의 위치 정보에 기초하여 외부 파라미터를 산출하는 파라미터산출부; 및
    상기 내부 파라미터와 상기 외부 파라미터에 기초하여 상기 복수의 카메라의 왜곡 모델을 추정하는 왜곡모델추정부
    를 포함하는 것인, 실감형 미디어 영상 제공 장치.
  3. 제 2 항에 있어서,
    상기 3차원객체복원부는,
    상기 왜곡 보정된 복수의 인워드 영상으로부터 상기 객체와 배경을 분할시켜 상기 객체만을 추출하는 객체추출부;
    상기 내부 파라미터와 상기 외부 파라미터를 이용하여 상기 객체의 3차원 정보를 추출하고, 상기 3차원 정보에 기초하여 3차원 메시를 생성하는 3차원정보추출부; 및
    상기 3차원 메시에 색상값을 부여하는 텍스쳐맵핑부
    를 포함하는 것인, 실감형 미디어 영상 제공 장치.
  4. 제 1 항에 있어서,
    상기 배경영상생성부는,
    상기 복수의 아웃워드 영상을 실린더 좌표 변환계를 이용하여 실린더에 투영하는 실린더투영부;
    상기 복수의 아웃워드 영상의 크기, 위치 및 조명 중 적어도 하나의 특징을 추출하는 시프트알고리즘부;
    상기 특징에 기초하여 설정값 이하의 오류를 가지는 호모그래피를 추정하여 상기 복수의아웃워드 영상을 정합시키는 호모그래피추정부; 및
    상기 정합된 영상의 색상을 보정하는 색상보정부
    를 포함하는 것인, 실감형 미디어 영상 제공 장치.
  5. 제 1 항에 있어서,
    상기 복수의 인워드 영상은 제 1 반지름을 가지는 원환상에 배치된 복수의 카메라를 통해 크로마키 배경내에서 촬영된 것이고,
    상기 복수의 아웃워드 영상은, 제 2 반지름을 가지는 원환상에 배치된 복수의 카메라를 통해 촬영된 것이며,
    상기 제 1 반지름과 상기 제 2 반지름은 동일한 것인, 실감형 미디어 영상 제공 장치.
PCT/KR2017/012994 2016-12-02 2017-11-16 실감형 미디어 영상을 제공하는 장치 WO2018101652A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/429,703 US10681272B2 (en) 2016-12-02 2019-06-03 Device for providing realistic media image

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0163541 2016-12-02
KR1020160163541A KR101851338B1 (ko) 2016-12-02 2016-12-02 실감형 미디어 영상을 제공하는 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/429,703 Continuation US10681272B2 (en) 2016-12-02 2019-06-03 Device for providing realistic media image

Publications (1)

Publication Number Publication Date
WO2018101652A1 true WO2018101652A1 (ko) 2018-06-07

Family

ID=62089163

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/012994 WO2018101652A1 (ko) 2016-12-02 2017-11-16 실감형 미디어 영상을 제공하는 장치

Country Status (3)

Country Link
US (1) US10681272B2 (ko)
KR (1) KR101851338B1 (ko)
WO (1) WO2018101652A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6440910B2 (ja) * 2016-07-29 2018-12-19 三菱電機株式会社 表示装置、表示制御装置および表示制御方法
KR102133735B1 (ko) * 2018-07-23 2020-07-21 (주)지니트 파노라마 크로마키 합성 시스템 및 방법
KR102638377B1 (ko) 2018-08-14 2024-02-20 주식회사 케이티 가상 현실 컨텐츠를 제공하는 서버, 방법 및 사용자 단말
KR102101771B1 (ko) * 2018-12-12 2020-04-17 서울과학기술대학교 산학협력단 컨텐츠를 제공하는 장치 및 방법
US11375104B2 (en) * 2019-08-15 2022-06-28 Apple Inc. System for producing a continuous image from separate image sources
KR102242710B1 (ko) * 2019-12-31 2021-04-22 서울과학기술대학교 산학협력단 반자유 시점 영상을 제공하는 장치
KR102273439B1 (ko) * 2019-12-31 2021-07-06 씨제이포디플렉스 주식회사 다면 영상 재생 시스템 및 실시간 중계 서비스 제공 방법
US11974051B1 (en) * 2022-12-12 2024-04-30 Vasis Medical, LLC Camera system for capturing three dimensional images
KR102684338B1 (ko) * 2023-06-07 2024-07-12 하혜주 크로마키합성을 혁신한 인공지능 기반 촬영대행 서비스 제공 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010043737A1 (en) * 1994-12-29 2001-11-22 Peter R. Rogina Image transformation and synthesis methods
KR20130068193A (ko) * 2011-12-14 2013-06-26 한국전자통신연구원 멀티 영상 제공 시스템 및 그것의 멀티 영상 입력 장치
KR101413393B1 (ko) * 2014-02-25 2014-06-27 송승욱 3차원 모델링을 위한 촬상장치 및 그 제어방법
KR101538947B1 (ko) * 2014-03-03 2015-07-29 서울과학기술대학교 산학협력단 실감형 자유시점 영상 제공 장치 및 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012136388A1 (en) * 2011-04-08 2012-10-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Capturing panoramic or semi-panoramic 3d scenes
KR101698657B1 (ko) 2012-07-04 2017-01-20 인텔 코포레이션 파노라마 기반 3d 비디오 코딩
US9451162B2 (en) * 2013-08-21 2016-09-20 Jaunt Inc. Camera array including camera modules
US10564820B1 (en) * 2014-08-08 2020-02-18 Amazon Technologies, Inc. Active content in digital media within a media universe
US10313656B2 (en) * 2014-09-22 2019-06-04 Samsung Electronics Company Ltd. Image stitching for three-dimensional video
US9992412B1 (en) * 2015-04-15 2018-06-05 Amazon Technologies, Inc. Camera device with verged cameras
US20180192033A1 (en) * 2016-12-30 2018-07-05 Google Inc. Multi-view scene flow stitching
US10114221B1 (en) * 2017-07-03 2018-10-30 Essential Products, Inc. Toggling a 360-degree camera to selfie view

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010043737A1 (en) * 1994-12-29 2001-11-22 Peter R. Rogina Image transformation and synthesis methods
KR20130068193A (ko) * 2011-12-14 2013-06-26 한국전자통신연구원 멀티 영상 제공 시스템 및 그것의 멀티 영상 입력 장치
KR101413393B1 (ko) * 2014-02-25 2014-06-27 송승욱 3차원 모델링을 위한 촬상장치 및 그 제어방법
KR101538947B1 (ko) * 2014-03-03 2015-07-29 서울과학기술대학교 산학협력단 실감형 자유시점 영상 제공 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG, JI HUI ET AL.: "A Study on Panoramic Image Generation Using Color Histogram in Free Viewpoint Image", A MASTER'S THESIS IN ENGINEERING, February 2015 (2015-02-01), pages 5 , 16 - 17 *

Also Published As

Publication number Publication date
US10681272B2 (en) 2020-06-09
US20190364207A1 (en) 2019-11-28
KR101851338B1 (ko) 2018-04-23

Similar Documents

Publication Publication Date Title
WO2018101652A1 (ko) 실감형 미디어 영상을 제공하는 장치
US11076142B2 (en) Real-time aliasing rendering method for 3D VR video and virtual three-dimensional scene
CN108616731B (zh) 一种360度vr全景图形图像及视频实时生成方法
KR101991080B1 (ko) 파노라마 가상 현실 콘텐츠의 옴니스테레오 캡쳐 및 렌더링
KR102013978B1 (ko) 이미지들의 융합을 위한 방법 및 장치
CN103607568B (zh) 立体街景视频投影方法及系统
US20170180680A1 (en) Object following view presentation method and system
SG176327A1 (en) A system and method of image processing
KR101538947B1 (ko) 실감형 자유시점 영상 제공 장치 및 방법
US11812009B2 (en) Generating virtual reality content via light fields
CN110691175B (zh) 演播室中模拟摄像机运动跟踪的视频处理方法及装置
CN107197135B (zh) 一种视频生成方法及视频生成装置
EP4226334A1 (en) Network-based spatial computing for extended reality (xr) applications
US11812154B2 (en) Method, apparatus and system for video processing
KR102723109B1 (ko) 광각 이미지로부터의 디스패리티 추정
CN113348489A (zh) 图像处理方法和装置
US8019180B2 (en) Constructing arbitrary-plane and multi-arbitrary-plane mosaic composite images from a multi-imager
WO2018052100A1 (ja) 画像処理装置、画像処理方法、画像処理プログラム
JP2008217593A (ja) 被写体領域抽出装置及び被写体領域抽出プログラム
CN108769648A (zh) 一种基于720度全景vr的3d场景呈现方法
KR101529820B1 (ko) 월드 좌표계 내의 피사체의 위치를 결정하는 방법 및 장치
WO2015089944A1 (zh) 一种处理视频会议画面的方法、装置及会议终端
WO2019008222A1 (en) METHOD AND APPARATUS FOR ENCODING MULTIMEDIA CONTENT
CN115002345B (zh) 一种图像校正方法、装置、电子设备及存储介质
Zheng et al. Research on panoramic stereo live streaming based on the virtual reality

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17876055

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17876055

Country of ref document: EP

Kind code of ref document: A1

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载