WO2020008726A1 - 対象物体検出プログラム、および対象物体検出装置 - Google Patents

対象物体検出プログラム、および対象物体検出装置 Download PDF

Info

Publication number
WO2020008726A1
WO2020008726A1 PCT/JP2019/018629 JP2019018629W WO2020008726A1 WO 2020008726 A1 WO2020008726 A1 WO 2020008726A1 JP 2019018629 W JP2019018629 W JP 2019018629W WO 2020008726 A1 WO2020008726 A1 WO 2020008726A1
Authority
WO
WIPO (PCT)
Prior art keywords
target object
image
region
divided
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2019/018629
Other languages
English (en)
French (fr)
Inventor
智也 岡▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2020528701A priority Critical patent/JP7243725B2/ja
Priority to EP19830090.7A priority patent/EP3819864A4/en
Publication of WO2020008726A1 publication Critical patent/WO2020008726A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to a target object detection program and a target object detection device.
  • Japan's life expectancy has been remarkably prolonged due to the improvement of living standards, improvement of sanitary conditions, and improvement of medical care standards following the postwar economic growth. For this reason, coupled with a decrease in the birth rate, the aging society has a high aging rate. In such an aging society, an increase in the number of care-requirers and the like who need to take care of care and the like due to illness, injury, and aging is expected.
  • ⁇ ⁇ Care recipients may fall down while walking or fall out of bed and get injured in facilities such as hospitals and welfare facilities for the elderly. Therefore, a system for detecting the condition of a person requiring care or the like from a captured image so that staff such as a caregiver or a nurse can immediately rush to the care recipient or the like in such a state. Is being developed. In order to detect the state of a care recipient or the like in such a system, it is necessary to detect a detection target object (a target person or the like) from a captured image with high accuracy.
  • a detection target object a target person or the like
  • Patent Document 1 discloses the following technique.
  • a plurality of images obtained by rotating a fisheye image taken by a fisheye camera by a predetermined angle are created, a plurality of images before and after rotation, and an image of a target object to be detected stored in a database in advance, The target object is detected by comparing.
  • the target object can be detected with high accuracy from the fisheye image in which the distortion increases from the center of the image toward the periphery.
  • Patent Document 2 discloses the following technology.
  • a feature map is generated from the captured image using a deep neural network. Based on the feature map, a candidate rectangle, which is a region where an object is presumed to be present, is detected. Then, a target object is detected by calculating a reliability score for each candidate category for each candidate rectangle. Thus, by calculating both the candidate rectangle and the reliability score using one feature map generated from the entire captured image, the target object can be detected with high accuracy and high speed.
  • Patent Literature 1 needs to generate a plurality of images obtained by rotating an input fisheye image, and requires a plurality of detection processes on the plurality of images, thereby increasing processing time. There is a problem of doing.
  • Patent Literature 2 when a target object is detected from an image having relatively large image distortion such as a fisheye image, there is a possibility that erroneous detection of the target object due to the image distortion occurs. There is a problem that there is.
  • the present invention has been made to solve such a problem. That is, it is an object of the present invention to provide a target object detection program and a target object detection device capable of reducing erroneous detection of a target object due to a change in an object for each region in a captured image and capable of detecting the target object at high speed and with high accuracy. Aim.
  • a procedure (a) for acquiring a captured image a procedure (b) for generating a feature map from the image acquired in the procedure (a), and a divided area for dividing the image into a plurality of areas.
  • a dictionary for detecting a target object corresponding to each divided region based on the region-based estimation parameters set, for each of the divided regions, using the dictionary corresponding to the divided region,
  • a target object detection program for causing a computer to execute a process having a step (c) of detecting a target object from a feature map.
  • the image is an image in which the ratio between the size of the object on the image and the actual size of the object changes in accordance with the distance from the camera that captured the image to the object in the shooting direction.
  • a reliability score for each predetermined category of the object is calculated for each of the divided areas using the dictionary corresponding to the divided area, based on the estimated parameters for each area.
  • the step (c) includes, for each of the divided regions, detecting an object from the feature map using the dictionary corresponding to the divided region, based on the region-based estimation parameters.
  • C2 detecting the target object from the objects by calculating a reliability score for each predetermined category of the objects detected in the step (c1).
  • the target object detection program according to any one of (1) to (3).
  • the step (c) includes, for each of the divided regions, using the feature map and the dictionary, a shift amount and a scale of a position of a reference rectangle set in the image from a rectangular region where an object exists. Estimating the shift amount of the object, detecting the candidate rectangle including the object by minimizing the shift amount of the position and the shift amount of the scale, for each predetermined category of the object included in the candidate rectangle Calculating a reliability score, detecting the target object by outputting the candidate rectangle in which the category with the highest reliability score has become the category of the target object as an output rectangle including the target object,
  • the target object detection program according to any one of (1) to (3), wherein the shape of the reference rectangle is different for each of the divided areas.
  • the region-based estimation parameters used for detecting the target object correspond to the distortion characteristics of the lens.
  • the area-based estimation parameter used for detecting the target object is set to correspond to the installation height of the camera.
  • the area-based estimation parameter used for detecting the target object is set based on the size of the imaging range of the image.
  • an acquisition unit that acquires a captured image; a feature map generation unit that generates a feature map from the acquired image; a divided region that divides the image into a plurality of regions; A dictionary for detecting the target object, and detecting the target object from the feature map, for each of the divided regions, using the dictionary corresponding to the divided region, based on the region-based estimation parameters set. And a detection unit that performs the detection.
  • the image is an image in which the ratio of the size of the object on the image to the actual size of the object changes in accordance with the distance from the camera that captured the image to the object in the shooting direction.
  • the detection unit calculates, for each of the divided regions, a reliability score for each predetermined category of the object based on the region-based estimation parameters, using the dictionary corresponding to the divided region.
  • the target object detection device according to any one of (10) to (12), wherein the target object is detected.
  • the detection unit detects, for each of the divided regions, an object from the feature map using the dictionary corresponding to the divided region, based on the region-specific estimation parameter; (10) to (12), including a target object detection unit that detects the target object from among the objects by calculating a reliability score for each of predetermined categories of the object detected by the detection unit.
  • the object detection device according to any one of the above.
  • the detection unit uses, for each of the divided areas, the feature map and the dictionary to shift the position and the scale of the reference rectangle set in the image from the rectangular area where the object exists. Estimating the amount, detecting the candidate rectangle including the object by minimizing the shift amount of the position and the shift amount of the scale, and the reliability of the object included in the candidate rectangle for each predetermined category Calculating a score, detecting the target object by outputting the candidate rectangle in which the category having the highest reliability score has become the category of the target object as an output rectangle including the target object,
  • the target object detection device according to any one of (10) to (12), wherein the shape of the rectangle is different for each of the divided regions.
  • the detecting unit is configured to, based on a distortion characteristic of a lens of a camera that has captured the wide-angle image, use the region-based estimation parameter used for detecting the target object in accordance with the distortion characteristic of the lens.
  • the target object detection device according to (11), wherein the target region detection parameter is switched to the region-based estimation parameter in which a divided region is set.
  • the detection unit may be configured to, based on an installation height of a camera that has captured the wide-angle image, convert the area-based estimation parameter used for detecting the target object into a plurality of areas corresponding to the installation height of the camera.
  • the detection unit sets the estimation parameter for each area used for detecting the target object based on the size of the imaging range of the image, by the divided area corresponding to the size of the imaging range.
  • a target object is detected from a feature map generated from the captured image using a dictionary corresponding to each divided region.
  • FIG. 1 is a diagram illustrating a schematic configuration of a target object detection system.
  • FIG. 3 is an explanatory diagram illustrating a wide-angle image captured by a wide-angle camera.
  • FIG. 3 is an explanatory diagram showing a wide-area photographed image photographed by a wide-area photographing camera.
  • FIG. 2 is a block diagram illustrating a hardware configuration of the target object detection device. It is a figure showing an example of a divided area. It is a figure showing an example of a divided area.
  • FIG. 3 is a block diagram illustrating functions of a control unit of the target object detection device.
  • FIG. 9 is an explanatory diagram for describing a method of detecting a candidate rectangle based on a feature map.
  • FIG. 9 is an explanatory diagram for describing a method of detecting a candidate rectangle based on a feature map.
  • 9 is an explanatory diagram for describing an example of a candidate rectangle. It is a figure showing an example of an output rectangle outputted as a detection result of a subject. It is explanatory drawing which shows the example of the estimated joint point. 5 is a flowchart illustrating an operation of the target object detection device.
  • FIG. 1 is a diagram showing a schematic configuration of a target object detection system including the target object detection device according to the embodiment.
  • the target object detection system 10 includes a target object detection device 100, a photographing device 200, a communication network 300, and a mobile terminal 400.
  • the target object detection device 100 is communicably connected to the imaging device 200 and the portable terminal 400 via a communication network 300.
  • the target object is an object to be detected by the target object detection device 100.
  • the target object may include a plurality of categories.
  • the category is a type of an object that can be recognized by the target object detection device 100, and includes a person, a bed, a desk, a chair, a walker, and the like.
  • the category includes the type of an object other than the target object.
  • the target object is the target person 50 (that is, a person).
  • the target object detection device 100 receives an image (hereinafter, simply referred to as “captured image 250”) (see FIGS. 2A and 2B) captured by the capture device 200 from the capture device 200 and included in the captured image 250.
  • the target person 500 to be detected is detected as a target object.
  • the target object detection device 100 detects the target object 500 by detecting a region where the object exists on the captured image 250 and estimating the category of the object included in the detected region.
  • the region where the object exists is detected on the captured image 250 as a rectangle including the object (hereinafter, the rectangle is referred to as a “candidate rectangle 253” (see FIG. 7)).
  • the target object detection device 100 can further detect the posture and behavior of the target person 500 based on the output rectangle 254. Further, an event related to the subject 500 can be detected from the estimated behavior.
  • the event is a change in the state of the target person 70 that is recognized by the target object detection device 100 or the like. For example, an alert (notification) should be issued to the staff 80 such as wake-up, leaving the bed, falling, and abnormal body movement. It is an event.
  • the target object detecting device 100 transmits an event notification for notifying the content of the event to the mobile terminal 400.
  • the target object detection device 100 can detect the target person 500 by a deep neural network (hereinafter, referred to as “DNN”). Examples of the method of detecting the target object by the DNN include known methods such as Fat @ R-CNN, Fast @ R-CNN, and R-CNN. Hereinafter, the description will be given on the assumption that the target object detection device 100 detects the target object using the Faster @ R-CNN.
  • the target object detection device 100 is configured by a computer.
  • the target object detection device 100 can be configured as a server.
  • the imaging device 200 is configured by, for example, a near-infrared camera, and is installed at a predetermined position, and captures an image of an imaging region viewed from the predetermined position as a viewpoint. That is, the photographing apparatus 200 irradiates near infrared rays toward the photographing area by using an LED (Light Emitting Device), and receives reflected light of the near infrared rays reflected by an object in the photographing area by a CMOS (Complementary Metal Oxide Semiconductor) sensor. By doing so, the photographing area can be photographed.
  • the photographed image 250 can be a monochrome image in which the near-infrared reflectance is each pixel.
  • the predetermined position is, for example, the ceiling of the room of the subject 500.
  • the imaging region is a three-dimensional region including the entire floor of the living room, for example.
  • the photographing device 200 can photograph a photographing area as a moving image having a frame rate of, for example, 15 fps to 30 fps.
  • the captured image 250 includes a moving image and a still image.
  • the imaging device 200 transmits the captured image 250 to the target object detection device 100 and the like.
  • the camera constituting the photographing device 200 may be a wide-angle camera.
  • the wide-angle camera is a camera that can capture a captured image 250 having a relatively wide angle of view, and is a camera in which the magnitude of distortion changes according to a position on the captured image 250.
  • the wide-angle camera includes, for example, a fish-eye lens camera.
  • the camera constituting the photographing apparatus 200 has a wide angle of view by adjusting the installation height of the camera and the like (hereinafter, “wide-area photographing camera”) in order to make a relatively wide range the photographing range. ).
  • the wide-area photographing camera is a camera that captures a photographed image 250 in which the ratio between the size of an object on the photographed image 250 and the actual size of the object changes according to the distance from the camera to the object in the photographing direction. It is.
  • the wide-area photographing camera a general camera in which the magnitude of the distortion is not changed corresponding to the position on the photographed image 250 can be used as the wide-area photographing camera.
  • FIG. 2A is an explanatory diagram showing a wide-angle image captured by a wide-angle camera.
  • FIG. 2B is an explanatory diagram illustrating a wide-area captured image captured by the wide-area capturing camera.
  • FIG. 2A shows a wide-angle image 251 when a person 501 in a living room is photographed by a wide-angle camera.
  • the wide-angle image 251 the same person 501 is virtually shown as being photographed in one wide-angle image 251 at three different positions.
  • the distortion of the wide-angle image 251 increases from the center of the image toward the outside of the image, as indicated by the dashed arrow.
  • the shape or the like changes relatively largely depending on whether the position of the person 501 on the wide-angle image 251 is near or far from the center of the wide-angle image 251.
  • FIG. 2B shows a wide-area photographed image 252 obtained by photographing a ship 502 existing on the sea 504 or the sandy beach 505 so as to include the sky 503, the sea 504, and the sandy beach 505 by the wide-area photographing camera.
  • the same ship 502 is virtually shown as being photographed in one wide area photographed image 252 at three different positions.
  • the distance from the wide-area capturing camera to the boat 502 in the capturing direction increases from the bottom of the image to the top, as indicated by the dashed arrow.
  • the size of the ship 502 on the image decreases as the position of the ship 502 on the wide-area captured image 252 moves upward in the wide-area captured image 252.
  • the wide-area photographed image 252 corresponds to the change in the distance from the wide-area photographing camera to the object in the photographing direction and the ratio of the size of the object on the image to the actual size of the object (the magnitude of the ratio). Changes).
  • the imaging device 200 can be configured by a sensor box having a computer.
  • the sensor box is a box-shaped device including a near-infrared camera, a body motion sensor, and the like. In this case, the sensor box may have some or all of the functions of the target object detection device 100.
  • the body motion sensor is a Doppler shift type sensor that transmits and receives microwaves to and from the bed and detects Doppler shift of microwaves caused by body motion (for example, respiratory motion) of the subject 500.
  • a network interface based on a wired communication standard such as Ethernet (registered trademark) can be used for the communication network 300.
  • the communication network 300 may use a network interface based on a wireless communication standard such as Bluetooth (registered trademark) and IEEE 802.11.
  • An access point 310 is provided in the communication network 300, and connects the mobile terminal 400 and the target object detection device 100 and the imaging device 200 so as to be able to communicate with each other via a wireless communication network.
  • the mobile terminal 400 receives the event notification from the target object detection device 100 and displays the content of the event notification.
  • the mobile terminal 400 receives the detection result of the target person 500 detected by the target object detection device 100 from the target object detection device 100, and displays the result.
  • the portable terminal 400 can display the detection result of the target person 500 by displaying the output rectangle 254 on the captured image 250.
  • the mobile terminal 400 can receive and display the detection result of the posture and the behavior of the target person 500 from the target object detection device 100.
  • the posture detection result includes the estimation result of the joint point 119 (see FIG. 9) of the subject 500.
  • the detection results of the behavior include detection results of behaviors corresponding to events such as wake-up, leaving the bed, falling, and abnormal body movement, as well as detection results of behaviors such as entering a room, sleeping, and sitting.
  • the detection result of the action may be received and included in the event notification.
  • the mobile terminal 400 can receive and display the captured image 250 from the imaging device 200 or the target object detection device 100.
  • the mobile terminal 400 is configured by, for example, a smartphone.
  • FIG. 3 is a block diagram showing a hardware configuration of the target object detection device.
  • the target object detection device 100 includes a control unit 110, a storage unit 120, a display unit 130, an input unit 140, and a communication unit 150. These components are interconnected via a bus 160.
  • the control unit 110 is configured by a CPU (Central Processing Unit), and performs control and arithmetic processing of each unit of the target object detection device 100 according to a program. Details of the function of the control unit 110 will be described later.
  • CPU Central Processing Unit
  • the storage unit 120 may be constituted by a RAM (Random Access Memory), a ROM (Read Only Memory), and an SSD (Solid State Drive).
  • the RAM temporarily stores programs and data as a work area of the control unit 110.
  • the ROM stores various programs and various data in advance.
  • the SSD stores various programs including the operation system and various data.
  • the storage unit 120 stores region-based estimation parameters in which a divided region (hereinafter, simply referred to as a “divided region”) that divides the captured image 250 into a plurality of regions and a dictionary corresponding to each divided region are set.
  • the divided area may be set, for example, as coordinates of pixels included in a plurality of areas of the captured image 250 after division.
  • the dictionary is data that defines the weight given between nodes in each layer of the DNN. By reflecting the dictionary on the DNN, the DNN can be used as a learned model.
  • a dictionary corresponding to the divided area is reflected on the DNN, and the subject 500 is detected from a feature map (convolution feature map) described later.
  • FIGS. 4A and 4B are diagrams showing examples of divided areas.
  • FIG. 4A is an example of a divided area set for the wide-angle image 251.
  • FIG. 4B is an example of a divided area set for the wide-area captured image 252.
  • one rectangular divided region (region indicated by gray E) set at the center of the wide-angle image 251 and eight rectangular divided regions (gray region) set therearound.
  • a to D and F to I) That is, the divided area is set so that the wide-angle image 251 is divided into an area where distortion is relatively small and an area where distortion is relatively large.
  • a corresponding region-based estimation parameter is used for each divided region.
  • different estimation parameters are used for the region of the wide-angle image 251 where the distortion is relatively small and the region where the distortion is relatively large.
  • the divided area set in the upper part (area indicated by gray A), the divided area set in the middle part (area indicated by gray B), and the lower part of the wide-area captured image 252 are shown (areas indicated by gray C). That is, the ratio between the size of the object on the wide-area captured image 252 and the actual size of the object is large, the upper portion of the wide-area captured image 252, the lower ratio, and the lower portion of the wide-area captured image 252.
  • a divided area is set so as to be divided into a middle part and a middle part of the wide area photographed image 252. Therefore, different region-based estimation parameters are used depending on the ratio of the size of the object on the wide-area captured image 252 to the actual size of the object.
  • the display unit 130 is, for example, a liquid crystal display, and displays various information.
  • the input unit 140 includes, for example, a touch panel and various keys.
  • the input unit 140 is used for various operations and inputs.
  • the communication unit 150 is an interface for communicating with an external device.
  • a network interface based on standards such as Ethernet (registered trademark), SATA, PCI @ Express, USB, and IEEE1394 can be used.
  • a wireless communication interface such as Bluetooth (registered trademark), IEEE 802.11, or 4G may be used for communication.
  • the communication unit 150 receives the captured image 250 from the imaging device 200.
  • the communication unit 150 transmits the event notification to the mobile terminal 400.
  • the communication unit 150 transmits the detection result of the target person 500 from the captured image 250 to the mobile terminal 400.
  • communication unit 150 may transmit a detection result of the posture and behavior of target person 500 to portable terminal 400.
  • control unit 110 The details of the function of the control unit 110 will be described.
  • FIG. 5 is a block diagram illustrating functions of a control unit of the target object detection device.
  • the control unit 110 includes an image acquisition unit 111, a target object detection unit 112, a joint point estimation unit 113, a behavior estimation unit 114, and an output unit 115.
  • the image acquisition unit 111 constitutes an acquisition unit.
  • the target object detection unit 112 configures a feature map generation unit, a detection unit, an object detection unit, and a target object detection unit.
  • the image acquisition unit 111 acquires the captured image 250 received from the imaging device 200 via the communication unit 150.
  • the target object detection unit 112 detects the target person 500 from the captured image 250 as follows.
  • a feature map in which the features of the pixels are extracted is generated by the convolution operation of the captured image 250 by the DNN.
  • the estimation parameter for each area is read from the storage unit 120, and for each set division area, the subject 500 is detected from the feature map by the DNN reflecting the dictionary corresponding to the division area.
  • a region where the object is present on the captured image 250 is detected as a candidate rectangle 253 based on the feature map by the DNN, and the category of the object included in the candidate rectangle 253 is estimated.
  • the candidate rectangle 253 in which the category of the estimated object is a person is detected as the output rectangle 254 including the subject 500.
  • a method for detecting the candidate rectangle 253 and the output rectangle 254 from the feature map will be described in detail.
  • FIG. 6 is an explanatory diagram for describing a method of detecting a candidate rectangle based on a feature map.
  • FIG. 7 is an explanatory diagram for describing an example of a candidate rectangle.
  • a portion of the feature map 116 corresponding to the divided area is shown as the feature map 116.
  • a grid 117 is set as a local area.
  • Each grid 117 is associated with an anchor 118 that is a reference rectangle on the captured image 250.
  • Each grid 117 is associated with a plurality of anchors 118 having a predetermined shape. The shape of the plurality of anchors 118 may be different for each divided region.
  • the probability that an object exists at each anchor 118 is estimated, and the anchor 118 with the highest probability that the object exists is determined.
  • the shift amount of the position and the scale shift amount of the determined anchor 118 from the rectangular area where the object exists are estimated, and the candidate rectangle 253 is detected by minimizing the shift amount.
  • candidate rectangles 253 each including an object such as a person, a bed, a desk, a chair, a walker, a television, and a fan are shown. Note that only some of the objects (for example, moving objects such as animals) may be detected as the candidate rectangle 253.
  • the target object detection unit 112 calculates a reliability score for each predetermined category for each detected candidate rectangle 253.
  • the reliability score is a likelihood for each predetermined category.
  • the predetermined category can be arbitrarily set including a person who is a category of the subject 500.
  • the predetermined category may be, for example, people, chairs, desks, and equipment.
  • the target object detection unit 112 detects, as the output rectangle 254, the candidate rectangle 253 in which the category having the highest reliability score is a person.
  • the target object detection unit 112 outputs the detected output rectangle 254 together with the calculated reliability score for each category.
  • FIG. 8 is a diagram illustrating an example of an output rectangle 254 output as a result of detection of a target person.
  • the detection result of the target person 500 with respect to the wide-angle image 251 is shown.
  • An output rectangle 254 output as a detection result is additionally provided with a reliability score for each predetermined category.
  • the reliability score of the category of the person is 0.9
  • the reliability score of the category of the device is 0.1
  • the reliability scores of the other categories are 0.
  • the candidate rectangle 253 having the highest reliability score of the category of the person is detected as the output rectangle 254, it can be seen that the subject 500 has been detected.
  • the candidate rectangle 253 having the highest reliability score in a category other than “person” is not detected as the output rectangle 254. .
  • the subject 500 is detected from the feature map 116 generated from the captured image 250 using a dictionary corresponding to each of the divided regions obtained by dividing the captured image 250.
  • a dictionary corresponding to each of the divided regions obtained by dividing the captured image 250 thereby, it is possible to reduce erroneous detection of an object due to a change in the object for each region in the captured image 250.
  • the subject 500 is detected from the feature map 116 using the same dictionary in all the regions of the photographed image 250, erroneous detection of the object due to a change in the object for each region in the photographed image 250 Can occur.
  • the reliability score of the candidate rectangle 253 including the walker for a person becomes relatively large with respect to other categories, It may happen that the walker is erroneously detected as a person.
  • the feature map 116 is generated from the entire captured image 250, and the feature map 116 is not generated for each divided region. That is, one feature map 116 is shared in the detection of the subject 500 from each divided region, and the feature map 116 is not generated for each divided region. Thus, the subject 500 can be detected at high speed and with high accuracy.
  • the joint point estimating unit 113 estimates the joint point 119 as the posture of the subject 500 based on the output rectangle 254, and outputs the joint point 119 to the action estimating unit 114 as a detection result of the joint point 119.
  • the joint point estimating unit 113 can estimate the joint point 119 based on the output rectangle 254 by a known method using DNN.
  • FIG. 9 is an explanatory diagram showing an example of an estimated joint point.
  • the joint point 119 is shown superimposed on the captured image 250, and the position of the joint point 119 is shown by a white circle.
  • the joint points 119 include, for example, head, neck, shoulder, elbow, hand, hip, thigh, knee, and foot joint points 119.
  • it can be recognized that the subject 500 is in a sitting posture from the relative positional relationship between the joint points 119.
  • the behavior estimation unit 114 estimates the behavior of the subject 500 based on the joint points 119 estimated by the joint point estimation unit 113, and outputs the behavior to the output unit 115 as a detection result of the behavior of the subject 500.
  • the behavior estimation unit 114 can estimate the behavior of the subject 500 based on a temporal change of the joint point 119 estimated from the plurality of captured images 250. For example, when the average speed of each joint point 119 suddenly decreases and the posture recognized by each joint point 119 after the average speed decreases is in the supine position, the behavior estimation unit 114 determines that the subject 500 "Fallover" can be estimated as the action of the user.
  • the output unit 115 outputs the output rectangle 254 detected by the target object detection unit 112, the joint point 119 of the target person 500 detected by the joint point estimation unit 113, and the target rectangle 500 detected by the action estimation unit 114. Output actions.
  • the operation of the target object detection device 100 will be described.
  • FIG. 10 is a flowchart showing the operation of the target object detection device. This flowchart is executed by the control unit 110 according to a program stored in the storage unit 120.
  • the control unit 110 causes the storage unit 120 to store the region estimation parameters (S101).
  • the control unit 110 acquires the captured image 250 from the imaging device 200 via the communication unit 150 (S102).
  • the control unit 110 uses the DNN to generate a feature map from the captured image 250 (S103).
  • the control unit 110 switches by selecting the area-specific parameters used for the detection of the subject 500.
  • the control unit 110 may select a parameter for each area based on distortion characteristics of the wide-angle camera.
  • the distortion characteristics of the wide-angle camera are specified by the model number of the wide-angle camera. For this reason, for example, for each wide-angle camera, an area-specific parameter in which a divided area is set corresponding to the distortion characteristic of the wide-angle camera of the model is previously stored in the storage unit 120 in association with the model number of the wide-angle camera. .
  • the control unit 110 can select an area-specific parameter corresponding to the model number of the wide-angle camera included in the data of the captured image 250 acquired from the wide-angle camera.
  • the control unit 110 displays a screen for accepting the input of the distortion characteristic of the wide-angle camera of the imaging device 200 on the display unit 130, and, based on the distortion characteristic input to the user by the input unit 140, responds to the distortion characteristic.
  • a region-specific parameter in which a divided region is set may be selected.
  • the control unit 110 may select the parameter for each area based on the installation height of the wide-angle camera of the imaging device 200. For example, for each installation height of the wide-angle camera, an area-specific parameter in which a divided area is set corresponding to the installation height is stored in advance in the storage unit 120 in association with the installation height.
  • the CAD Computer-Aided @ Design
  • the control unit 110 includes a wide-angle camera installed in the living room based on the CAD data of the facility based on the room data of the room where the wide-angle camera is installed, which is included in the data of the captured image 250 acquired from the wide-angle camera. Calculate the height of the ceiling. Then, an area-specific parameter in which a divided area is set corresponding to the calculated installation height can be acquired.
  • the control unit 110 displays a screen for accepting the input of the installation height of the wide-angle camera of the imaging device 200 on the display unit 130, and based on the installation height input by the user in the input unit 140, A region-specific parameter in which a divided region is set correspondingly may be selected.
  • the control unit 110 can select a region-specific parameter based on the size of the imaging range of the imaging device 200. For example, for each size of the shooting range of the wide-area shot image 252, an area-specific parameter in which a divided area is set corresponding to the size of the shooting range is previously stored in the storage unit 120 in association with the size of the shooting range.
  • the control unit 110 displays on the display unit 130 a screen for accepting an input of the size of the imaging range (for example, the imaging area or the angle of view) of the wide-area imaging camera of the imaging device 200, and inputs the input to the user via the input unit 140.
  • the control unit 110 may select the area-specific parameter based on the installation height of the wide-area imaging camera of the imaging apparatus 200. For example, for each installation height of the wide-area photographing camera, an area-specific parameter in which a divided area is set corresponding to the installation height is stored in advance in the storage unit 120 in association with the installation height.
  • the CAD data of the facility is stored in the storage unit 120 in advance.
  • the control unit 110 determines the wide area in the living room based on the CAD data of the facility from the room number of the room in which the wide area shooting camera is installed, which is included in the data of the wide area shooting image 252 acquired from the wide area shooting camera. Calculate the height of the ceiling where the camera is installed. Then, an area-specific parameter in which a divided area is set corresponding to the calculated installation height can be acquired.
  • the control unit 110 displays a screen for accepting the input of the installation height of the wide-area imaging camera of the imaging device 200 on the display unit 130, and based on the installation height input by the user at the input unit 140, the installation height. A parameter for each area in which a divided area is set may be selected correspondingly.
  • the control unit 110 detects the candidate rectangle 253 including the object from the feature map using the dictionary corresponding to the divided region for each divided region based on the estimated parameters for each region (S105).
  • the control unit 110 calculates the reliability score for each predetermined category for each candidate rectangle 253, and detects the output rectangle 254, thereby detecting the subject 500 (S106).
  • the control unit 110 outputs the output rectangle 254 and the reliability score of the output rectangle 254 for each predetermined category to the portable terminal 400 by transmitting the rectangle to the portable terminal 400 (S107).
  • a target object is detected from a feature map generated from the captured image using a dictionary corresponding to each divided region.
  • the divided area is set according to the magnitude of the distortion that changes in accordance with the position on the captured image that is a wide-angle image.
  • the captured image is an image in which the ratio between the size of the object on the captured image and the actual size of the object is changed in accordance with the distance from the camera that captured the captured image to the object in the capturing direction
  • the divided area is set according to the ratio of the size of the object on the captured image to the actual size of the object.
  • a target object is detected by calculating a reliability score for each predetermined category of the object using a dictionary corresponding to the divided region for each divided region. This makes it possible to calculate the reliability score using the dictionary corresponding to the divided region for each divided region and detect the target object, thereby erroneously detecting the target object due to a change in the target object for each region in the captured image. Can be reduced more effectively, and the target object can be detected at higher speed and with higher accuracy.
  • an object is detected from the feature map using a dictionary corresponding to the divided region, and then a reliability score of each of the detected objects for each predetermined category is calculated.
  • the target object is detected from the objects. Accordingly, the object detection accuracy and the accuracy of calculating the reliability score for each category of the object can be verified separately, so that the target object can be detected with higher accuracy.
  • the shift amount of the position and the shift amount of the scale of the reference rectangle set in the captured image from the rectangular area where the object exists are estimated using the feature map and the dictionary, and the shift amount of the position is determined.
  • the candidate rectangle 253 is detected by minimizing the shift amount and the shift amount of the scale.
  • a reliability score for each predetermined category of the object included in the candidate rectangle 253 is calculated, and the candidate rectangle in which the category with the highest reliability score is the target object category is output to the output rectangle including the target object.
  • the target object is detected by estimating.
  • the reference rectangle has a different shape for each divided area. As a result, it is possible to more simply, quickly, and accurately detect a target object using the Faster @ R-CNN.
  • the region-based estimation parameters used for detecting the target object are changed according to the region in which the divided region is set corresponding to the lens distortion characteristics. Switch to estimated parameters. Accordingly, the target object can be detected from the wide-angle image at high speed and with high accuracy by a simpler procedure.
  • the estimation parameter for each area used to detect the target object is estimated based on the area where the divided area corresponding to the installation height of the camera is set. Switch to parameters. Accordingly, the target object can be detected from the wide-angle image at high speed and with high accuracy by a simpler procedure.
  • the region-based estimation parameter used for detecting the target object is switched to the region-based estimation parameter in which a divided region corresponding to the size of the shooting range is set. .
  • the target object can be detected from the wide-area captured image at high speed and with high accuracy by a simpler procedure.
  • the configuration of the target object detection system 10 described above describes the main configuration in describing the features of the above-described embodiment, and is not limited to the above-described configuration, and may be variously modified within the scope of the claims. Can be. Also, this does not exclude a configuration provided in a general target object detection system.
  • the function of the target object detection device 100 may be provided in the imaging device 200 configured by the sensor box or the mobile terminal 400.
  • the target object detection device 100, the imaging device 200, and the mobile terminal 400 may each be configured by a plurality of devices, or any one of the plurality of devices may be configured as a single device.
  • steps may be omitted from the flowchart described above, and other steps may be added. Further, some of the steps may be executed simultaneously, or one step may be divided into a plurality of steps and executed.
  • the target object is not limited to a person but may be a ship, a cat, a dog, or the like, and the target object may include a plurality of categories.
  • the means and method for performing various processes in the target object detection system 10 described above can be realized by either a dedicated hardware circuit or a programmed computer.
  • the program may be provided by a computer-readable recording medium such as a USB memory or a DVD (Digital Versatile Disc) -ROM, or may be provided online via a network such as the Internet.
  • the program recorded on the computer-readable recording medium is usually transferred and stored in a storage unit such as a hard disk.
  • the above program may be provided as independent application software, or may be incorporated as one function into software of a device such as a detection unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Social Psychology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

【課題】撮影画像中の領域ごとの対象物の変化に起因した対象物の誤検出を低減し、高速かつ高精度に対象物体を検出可能な対象物体検出プログラムを提供する。 【解決手段】撮影された画像を取得する手順(a)と、取得された画像から特徴マップを生成する手順(b)と、画像を複数の領域に分割する分割領域と、各分割領域に対応して対象物体を検出するための辞書と、が設定された領域別推定パラメーターに基づいて、分割領域ごとに、分割領域に対応する辞書を用いて、前記特徴マップから、対象物体を検出する手順(c)と、を有する処理をコンピューターに実行させるための対象物体検出プログラム。

Description

対象物体検出プログラム、および対象物体検出装置
 本発明は、対象物体検出プログラム、および対象物体検出装置に関する。
 我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。
 要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、撮影画像から要介護者等の状態を検出するためのシステムの開発が進められている。このようなシステムで要介護者等の状態を検出するためには、撮影画像から検知対象の対象物体(対象者等)を高精度で検出する必要がある。
 このような、撮影画像から対象物体を検知する技術に関連し、下記特許文献1には、次の技術が開示されている。魚眼カメラにより撮影された魚眼画像を所定の角度ずつ回転した複数の画像を作成し、回転前および回転後の複数の画像と、予めデーターベースに記憶された検出したい対象物体の画像と、を比較することで対象物体を検知する。これにより、画像の中心から周辺に向かって歪みが大きくなる魚眼画像から、高精度に対象物体を検出できる。
 下記特許文献2には、次の技術が開示されている。ディープニューラルネットワークを用いて、撮影画像から特徴マップを生成する。特徴マップに基づいて、物体が存在すると推定される領域である候補矩形を検出する。そして、各候補矩形について物体のカテゴリーごとの信頼度スコアを算出することで、対象物体を検出する。これにより、撮影画像全体から生成した1つの特徴マップを利用して、候補矩形および信頼度スコアの両方の算出を行うことで、高精度かつ高速に対象物体を検出できる。
特開2012-230546号公報 米国特許出願公開第2017/0206431号明細書
 しかし、特許文献1に開示された技術は、入力される魚眼画像を回転させた複数の画像を生成する必要があり、当該複数の画像に対する複数回の検出処理が必要なため処理時間が増加するという問題がある。特許文献2に開示された技術は、魚眼画像のように画像の歪みが比較的大きい画像から対象物体を検出する場合に、当該画像の歪みに起因した対象物体の誤検出が発生する可能性があるという問題がある。
 本発明は、このような問題を解決するためになされたものである。すなわち、撮影画像中の領域ごとの物体の変化に起因した対象物の誤検出を低減し、高速かつ高精度に対象物体を検出可能な対象物体検出プログラム、および対象物体検出装置を提供することを目的とする。
 本発明の上記課題は、以下の手段によって解決される。
 (1)撮影された画像を取得する手順(a)と、前記手順(a)により取得された前記画像から特徴マップを生成する手順(b)と、前記画像を複数の領域に分割する分割領域と、各分割領域に対応して対象物体を検出するための辞書と、が設定された領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから、対象物体を検出する手順(c)と、を有する処理をコンピューターに実行させるための対象物体検出プログラム。
 (2)前記画像は広角画像であり、前記分割領域は、前記画像上の位置に対応して変化する歪みの大きさに応じて設定された、上記(1)に記載の対象物体検出プログラム。
 (3)前記画像は、前記画像を撮影したカメラからの撮影方向の物体までの距離に対応して、前記画像上の前記物体の大きさと当該物体の実際の大きさとの比が変化した画像であり、前記分割領域は、前記比の大きさに応じて設定された、上記(1)に記載の対象物体検出プログラム。
 (4)前記手順(c)は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記対象物体を検出する、上記(1)~(3)のいずれかに記載の対象物体検出プログラム。
 (5)前記手順(c)は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから物体を検出する手順(c1)と、前記手順(c1)により検出された前記物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記物体の中から前記対象物体を検出する手順(c2)と、を含む、上記(1)~(3)のいずれかに記載の対象物体検出プログラム。
 (6)前記手順(c)は、前記分割領域ごとに、前記特徴マップと前記辞書とを用いて、前記画像において設定した基準矩形の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、前記位置のシフト量およびスケールのシフト量を最小化することで前記物体が含まれる候補矩形を検出し、前記候補矩形に含まれた前記物体の所定のカテゴリーごとの信頼度スコアを算出し、前記信頼度スコアが最も高いカテゴリーが前記対象物体のカテゴリーとなった前記候補矩形を、前記対象物体が含まれる出力矩形として出力することで、前記対象物体を検出し、前記基準矩形の形状は、前記分割領域ごとに異なる、上記(1)~(3)のいずれかに記載の対象物体検出プログラム。
 (7)前記手順(c)は、前記広角画像を撮影したカメラのレンズの歪み特性に基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該レンズの歪み特性に対応して前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記(2)に記載の対象物体検出プログラム。
 (8)前記手順(c)は、前記広角画像を撮影したカメラの設置高さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該カメラの設置高さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記(2)に記載の対象物体検出プログラム。
 (9)前記手順(c)は、前記画像の撮影範囲の広さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該撮影範囲の広さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記(3)に記載の対象物体検出プログラム。
 (10)撮影された画像を取得する取得部と、取得された前記画像から特徴マップを生成する特徴マップ生成部と、前記画像を複数の領域に分割する分割領域と、各分割領域に対応して対象物体を検出するための辞書と、が設定された領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから、対象物体を検出する検出部と、を有する対象物体検出装置。
 (11)前記画像は広角画像であり、前記分割領域は、前記画像上の位置に対応して変化する歪みの大きさに応じて設定された、上記(10)に記載の対象物体検出装置。
 (12)前記画像は、前記画像を撮影したカメラからの撮影方向の物体までの距離に対応して、前記画像上の前記物体の大きさと当該物体の実際の大きさとの比が変化した画像であり、前記分割領域は、前記比の大きさに応じて設定された、上記(10)に記載の対象物体検出装置。
 (13)前記検出部は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記対象物体を検出する、上記(10)~(12)のいずれかに記載の対象物体検出装置。
 (14)前記検出部は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから物体を検出する物体検出部と、前記物体検出部により検出された前記物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記物体の中から前記対象物体を検出する対象物体検出部と、を含む、上記(10)~(12)のいずれかに記載の対象物体検出装置。
 (15)前記検出部は、前記分割領域ごとに、前記特徴マップと前記辞書とを用いて、前記画像において設定した基準矩形の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、前記位置のシフト量およびスケールのシフト量を最小化することで前記物体が含まれる候補矩形を検出し、前記候補矩形に含まれた前記物体の所定のカテゴリーごとの信頼度スコアを算出し、前記信頼度スコアが最も高いカテゴリーが前記対象物体のカテゴリーとなった前記候補矩形を、前記対象物体が含まれる出力矩形として出力することで、前記対象物体を検出し、前記基準矩形の形状は、前記分割領域ごとに異なる、上記(10)~(12)のいずれかに記載の対象物体検出装置。
 (16)前記検出部は、前記広角画像を撮影したカメラのレンズの歪み特性に基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該レンズの歪み特性に対応して前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記(11)に記載の対象物体検出装置。
 (17)前記検出部は、前記広角画像を撮影したカメラの設置高さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該カメラの設置高さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記(11)に記載の対象物体検出装置。
 (18)前記検出部は、前記画像の撮影範囲の広さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該撮影範囲の広さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、上記(12)に記載の対象物体検出装置。
 撮影画像を分割した分割領域ごとに、各分割領域に対応する辞書を用いて、当該撮影画像から生成した特徴マップから対象物体を検出する。これにより、撮影画像中の領域ごとの物体の変化に起因した対象物体の誤検出を低減し、高速かつ高精度に対象物体を検出できる。
対象物体検出システムの概略構成を示す図である。 広角カメラにより撮影された広角画像を示す説明図である。 広域撮影用カメラにより撮影された広域撮影画像を示す説明図である。 対象物体検出装置のハードウェア構成を示すブロック図である。 分割領域の例を示す図である。 分割領域の例を示す図である。 対象物体検出装置の制御部の機能を示すブロック図である。 特徴マップに基づいて候補矩形を検出する方法について説明するための説明図である。 候補矩形の例を説明するための説明図である。 対象者の検出結果として出力された出力矩形の例を示す図である。 推定された関節点の例を示す説明図である。 対象物体検出装置の動作を示すフローチャートである。
 以下、図面を参照して、本発明の実施形態に係る対象物体検出プログラム、および対象物体検出装置について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 図1は、実施形態に係る対象物体検出装置を含む対象物体検出システムの概略構成を示す図である。
 対象物体検出システム10は、対象物体検出装置100、撮影装置200、通信ネットワーク300、および携帯端末400を有する。対象物体検出装置100は、通信ネットワーク300により撮影装置200および携帯端末400と相互に通信可能に接続される。本明細書において、対象物体とは、対象物体検出装置100が検出対象とする物体である。対象物体には複数のカテゴリーが含まれ得る。カテゴリーとは、対象物体検出装置100が認識可能な物体の種別であり、人、ベッド、机、椅子、歩行器等が含まれる。カテゴリーには、対象物体以外の物体の種別も含まれる。以下、対象物体は対象者50(すなわち、人)であるものとして説明する。
 対象物体検出装置100は、撮影装置200により撮影された画像(以下、単に「撮影画像250」と称する(図2A、図2B等参照))を、撮影装置200から受信し、撮影画像250に含まれる対象者500を対象物体として検出する。後述するように、対象物体検出装置100は、撮影画像250上で物体が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、対象者500を検出する。物体が存在する領域は、撮影画像250上で物体が含まれる矩形(以下、当該矩形を「候補矩形253」と称する(図7参照))として検出される。検出された候補矩形253のうち、物体のカテゴリーが人であると推定された候補矩形253(以下、当該候補矩形253を「出力矩形254」と称する(図8参照))を検出することで、対象者500を検出する。なお、対象物体検出装置100は、出力矩形254に基づいて、対象者500の姿勢および行動をさらに検出し得る。また、推定した行動から、対象者500に関するイベントを検出し得る。イベントとは、対象者70に関する対象物体検出装置100等が認識した状態の変化であって、例えば、起床、離床、転倒、および微体動異常等のスタッフ80に発報(報知)を行うべき事象である。対象物体検出装置100は、イベントを検出した場合は、イベントの内容を通知するイベント通知を携帯端末400へ送信する。対象物体検出装置100は、ディープニューラルネットワーク(以下、「DNN」と称する)により、対象者500を検出し得る。DNNによる対象物体の検出方法としては、例えば、Fater R-CNN、Fast R-CNN、およびR-CNNといった公知の方法が挙げられる。以下、対象物体検出装置100は、Faster R-CNNを利用して対象物体を検出するものとして説明する。対象物体検出装置100は、コンピューターにより構成される。例えば、対象物体検出装置100は、サーバーとして構成され得る。
 撮影装置200は、たとえば近赤外線カメラにより構成され、所定の位置に設置されることで、当該所定の位置を視点として俯瞰される撮影領域を撮影する。すなわち、撮影装置200は、LED(Light Emitting Device)により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をCMOS(Complememtary Metal Oxide Semiconductor)センサーにより受光することで撮影領域を撮影し得る。撮影画像250は近赤外線の反射率を各画素とするモノクロ画像であり得る。所定の位置は、たとえば対象者500の居室の天井である。撮影領域は、たとえば居室の床全体を含む3次元の領域である。撮影装置200は、たとえば15fps~30fpsのフレームレートの動画として撮影領域を撮影し得る。撮影画像250には動画と静止画とを含む。撮影装置200は、撮影画像250を対象物体検出装置100等に送信する。
 撮影装置200を構成するカメラは、広角カメラであり得る。広角カメラは、比較的広い画角の撮影画像250を撮影できるカメラであり、撮影画像250上の位置に対応して歪みの大きさが変化するカメラである。広角カメラには、例えば、魚眼レンズカメラが含まれる。
 一方、撮影装置200を構成するカメラは、比較的広い範囲を撮影範囲とするために、カメラの設置高さ等を調整することで、画角を広くしたカメラ(以下、「広域撮影用カメラ」と称する)であり得る。広域撮影用カメラは、カメラから撮影方向の物体までの距離に対応して、撮影画像250上の物体の大きさと、当該物体の実際の大きさとの比が変化した撮影画像250が撮影されるカメラである。広域撮影用カメラとして、撮影画像250上の位置に対応して歪みの大きさを変化させていない一般的なカメラを広域撮影用カメラとして利用できる。
 図2Aは、広角カメラにより撮影された広角画像を示す説明図である。図2Bは、広域撮影用カメラにより撮影された広域撮影画像を示す説明図である。
 図2Aは、広角カメラにより居室にいる人501を撮影したときの広角画像251を示している。なお、説明を簡単にするために、当該広角画像251においては、同じ人501が異なる3つの位置にいて、1つの広角画像251において撮影されたものとして仮想的に示されている。広角画像251は、破線の矢印で示す、画像の中心から画像の外側に向って歪みが大きくなる。これにより、同じ人501であっても、広角画像251上の人501の位置が広角画像251の中心に近いか遠いかによって、形状等が比較的大きく変化する。
 図2Bは、広域撮影用カメラにより、空503、海504、および砂浜505を含むように、海504または砂浜505に存在する船502を撮影したときの広域撮影画像252を示している。なお、説明を簡単にするために、当該広域撮影画像252においては、同じ船502が異なる3つの位置にあって、1つの広域撮影画像252において撮影されたものとして仮想的に示されている。図2Bの例においては、広域撮影画像252は、破線の矢印で示す、画像の下から上に向って、広域撮影用カメラから撮影方向の船502までの距離が遠くなる。これにより、同じ船502であっても、広域撮影画像252上の船502の位置が広域撮影画像252の上方向にいくに従い、画像上の船502の大きさが小さくなる。このことは、広域撮影画像252は、広域撮影用カメラからの撮影方向の物体までの距離の変化に対応して、画像上の物体の大きさと当該物体の実際の大きさとの比(比の大きさ)が変化することを意味する。
 撮影装置200は、コンピューターを有するセンサーボックスにより構成し得る。センサーボックスとは、近赤外線カメラおよび体動センサー等を備える箱状の装置である。この場合、対象物体検出装置100の機能の一部または全部をセンサーボックスが有するようにし得る。体動センサーは、ベッドに対してマイクロ波を送受信して対象者500の体動(例えば呼吸動)によって生じたマイクロ波のドップラシフトを検出するドップラシフト方式のセンサーである。
 通信ネットワーク300には、イーサネット(登録商標)などの有線通信規格によるネットワークインターフェースを使用し得る。通信ネットワーク300には、Bluetooth(登録商標)、IEEE802.11などの無線通信規格によるネットワークインターフェースを使用してもよい。通信ネットワーク300には、アクセスポイント310が設けられ、携帯端末400と、対象物体検出装置100および撮影装置200とを無線通信ネットワークにより通信可能に接続する。
 携帯端末400は、対象物体検出装置100からイベント通知を受信し、イベント通知の内容を表示する。携帯端末400は、対象物体検出装置100により検出された対象者500の検出結果を対象物体検出装置100から受信して表示する。具体的には、例えば、携帯端末400は、撮影画像250上で出力矩形254を表示することで、対象者500の検出結果を表示し得る。携帯端末400は、対象物体検出装置100から、対象者500の姿勢および行動の検出結果を受信して表示し得る。姿勢の検出結果には、後述するように、対象者500の関節点119(図9参照)の推定結果が含まれる。行動の検出結果には、起床、離床、転倒、および微体動異常等のイベントに該当する行動の検出結果の他、入室、睡眠、および着座等の行動の検出結果が含まれる。行動の検出結果はイベント通知に含まれて受信されてもよい。携帯端末400は、撮影装置200または対象物体検出装置100から撮影画像250を受信して表示し得る。携帯端末400は、たとえばスマートフォンにより構成される。
 図3は、対象物体検出装置のハードウェア構成を示すブロック図である。対象物体検出装置100は、制御部110、記憶部120、表示部130、入力部140、および通信部150を有する。これらの構成要素は、バス160を介して相互に接続される。
 制御部110は、CPU(Central Processing Unit)により構成され、プログラムにしたがって対象物体検出装置100の各部の制御および演算処理を行う。制御部110の機能の詳細については後述する。
 記憶部120は、RAM(Random Access Memory)、ROM(Read Only Memory)、およびSSD(Solid State Drive)により構成され得る。RAMは、制御部110の作業領域として一時的にプログラムやデータを記憶する。ROMは、あらかじめ各種プログラムや各種データを格納する。SSDは、オペレーションシステムを含む各種プログラムおよび各種データを格納する。
 記憶部120は、撮影画像250を複数の領域に分割する分割領域(以下、単に「分割領域」と称する)と、各分割領域に対応する辞書とが設定された領域別推定パラメーターを記憶する。分割領域は、例えば、分割後の撮影画像250の複数の領域に含まれる画素の座標として設定され得る。辞書は、DNNの各層のノード間に与えられた重み付けを定義するデータであり、辞書をDNNに反映させることで、DNNを学習済みモデルとすることができる。本実施形態においては、分割領域ごとに、当該分割領域に対応した辞書をDNNに反映させ、後述する特徴マップ(畳み込み特徴マップ)から、対象者500を検出する。
 図4A、図4Bは、分割領域の例を示す図である。図4Aは、広角画像251に対して設定された分割領域の例である。図4Bは、広域撮影画像252に対して設定された分割領域の例である。
 図4Aの例においては、広角画像251の中心部に設定された1つの矩形の分割領域(グレーのEで示された領域)と、その周囲に設定された8個の矩形の分割領域(グレーのA~D、F~Iで示された領域)が示されている。すなわち、広角画像251の歪が比較的小さい領域と、歪みが比較的大きい領域とに区分されるように分割領域が設定されている。本実施形態においては、分割領域ごとに、対応する領域別推定パラメーターを用いる。これにより、広角画像251の歪が比較的小さい領域と、歪みが比較的大きい領域とで異なる領域別推定パラメーターが用いられる。
 図4Bの例においては、広域撮影画像252の上部に設定された分割領域(グレーのAで示された領域)、中部に設定された分割領域(グレーのBで示された領域)、および下部に設定された分割領域(グレーのCで示された領域)が示されている。すなわち、広域撮影画像252上の物体の大きさと当該物体の実際の大きさとの比が大きい、広域撮影画像252の上部と、当該比が小さい、広域撮影画像252の下部と、当該比がこれらの中間の、広域撮影画像252の中部と、に区分されるように分割領域が設定されている。従って、広域撮影画像252上の物体の大きさと当該物体の実際の大きさとの比の大きさに応じて異なる領域別推定パラメーターが用いられる。
 表示部130は、たとえば液晶ディスプレイであり、各種情報を表示する。
 入力部140は、たとえばタッチパネルや各種キーにより構成される。入力部140は、各種操作、入力のために使用される。
 通信部150は、外部機器と通信するためのインターフェースである。通信には、イーサネット(登録商標)、SATA、PCI Express、USB、IEEE1394などの規格によるネットワークインターフェースが用いられ得る。その他、通信には、Bluetooth(登録商標)、IEEE802.11、4Gなどの無線通信インターフェースが用いられ得る。通信部150は、撮影装置200から撮影画像250を受信する。通信部150は、イベント通知を携帯端末400へ送信する。通信部150は、撮影画像250からの対象者500の検出結果を携帯端末400へ送信する。また、通信部150は、対象者500の姿勢および行動の検出結果を携帯端末400へ送信し得る。
 制御部110の機能の詳細について説明する。
 図5は、対象物体検出装置の制御部の機能を示すブロック図である。制御部110は、画像取得部111、対象物体検出部112、関節点推定部113、行動推定部114、および、出力部115を有する。画像取得部111は取得部を構成する。対象物体検出部112は、特徴マップ生成部、検出部、物体検出部、および対象物体検出部を構成する。
 画像取得部111は、通信部150を介して撮影装置200から受信した撮影画像250を取得する。
 対象物体検出部112は、次のように、撮影画像250から、対象者500を検出する。DNNによる撮影画像250の畳み込み演算により、画素の特徴が抽出された特徴マップを生成する。領域別推定パラメーターを記憶部120から読み出し、設定された分割領域ごとに、分割領域に対応する辞書を反映させたDNNにより、特徴マップから対象者500を検出する。具体的には、分割領域ごとに、DNNにより、特徴マップに基づいて、撮影画像250上で物体が存在する領域を候補矩形253として検出し、候補矩形253に含まれる物体のカテゴリーを推定する。そして、推定された物体のカテゴリーが人である候補矩形253を、対象者500が含まれる出力矩形254として検出する。以下、特徴マップから候補矩形253および出力矩形254を検出する方法について詳細に説明する。
 図6は、特徴マップに基づいて候補矩形を検出する方法について説明するための説明図である。図7は、候補矩形の例を説明するための説明図である。
 図6においては、特徴マップ116の、分割領域に対応する部分が特徴マップ116として示されている。特徴マップ116には、局所領域としてグリッド117が設定される。各グリッド117には、撮影画像250上の基準矩形であるアンカー118が対応付けされる。各グリッド117には、予め形状が決められた複数のアンカー118が対応付けされる。複数のアンカー118の形状は、分割領域ごとに異なってもよい。分割領域に対応する辞書を反映させたDNNにより、各アンカー118に物体が存在する確率を推定し、物体が存在する確率が最も高いアンカー118を決定する。決定されたアンカー118の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、これらのシフト量を最小化することで候補矩形253を検出する。
 図7の例においては、物体である、人、ベッド、机、椅子、歩行器、テレビ、および扇風機等がそれぞれ含まれた候補矩形253が示されている。なお、一部の物体(例えば、動物等の動く物体)のみが候補矩形253として検出されてもよい。
 対象物体検出部112は、検出した候補矩形253ごとに、所定のカテゴリーごとの信頼度スコアを算出する。信頼度スコアは、所定のカテゴリーごとの尤度である。所定のカテゴリーは、対象者500のカテゴリーである人を含めて任意に設定できる。所定のカテゴリーは、例えば、人、椅子、机、および機具とし得る。対象物体検出部112は、信頼度スコアが最も高いカテゴリーが人である候補矩形253を出力矩形254として検出する。
 対象物体検出部112は、検出した出力矩形254を、算出した、カテゴリーごとの信頼度スコアとともに出力する。
 図8は、対象者の検出結果として出力された出力矩形254の例を示す図である。
 図8の例においては、広角画像251に対する、対象者500の検出結果が示されている。検出結果として出力された出力矩形254には、所定のカテゴリーごとの信頼度スコアが付記されている。人のカテゴリーの信頼度スコアが0.9で、機具のカテゴリーの信頼度スコアが0.1で、それ以外のカテゴリーの信頼度スコアは0である。これにより、人のカテゴリーの信頼度スコアが最も高い候補矩形253が出力矩形254として検出されたことで、対象者500が検出されていることが判る。なお、本実施形態においては、上述したように、対象物体を対象者500のみとしているため、「人」以外のカテゴリーの信頼度スコアが最も高くなった候補矩形253は、出力矩形254として検出されない。
 本実施形態においては、撮影画像250を分割した分割領域ごとに、各分割領域に対応する辞書を用いて、撮影画像250から生成した特徴マップ116から対象者500を検出する。これにより、撮影画像250中の領域ごとの対象物の変化に起因した対象物の誤検出を低減できる。一方、撮影画像250の全ての領域において、同じ辞書を用いて、特徴マップ116から対象者500を検出した場合は、撮影画像250中の領域ごとの対象物の変化に起因した対象物の誤検出が発生し得る。すなわち、例えば、撮影画像250の歪みにより、歩行器の画像が変化することで、当該歩行器が含まれる候補矩形253の、人に対する信頼度スコアが他のカテゴリーに対して相対的に大きくなり、歩行器を人として誤検出されることが発生し得る。
 また、本実施形態においては、撮影画像250の全体から特徴マップ116を生成し、分割領域ごとに特徴マップ116を生成しない。すなわち、各分割領域からの対象者500の検出において1つの特徴マップ116を共有し、分割領域ごとに特徴マップ116を生成しない。これにより、高速かつ高精度に対象者500を検出できる。
 関節点推定部113は、出力矩形254に基づいて、対象者500の姿勢として関節点119を推定し、関節点119の検出結果として行動推定部114へ出力する。関節点推定部113は、DNNを用いた公知の方法により、出力矩形254に基づいて関節点119を推定し得る。
 図9は、推定された関節点の例を示す説明図である。関節点119は撮影画像250に重畳されて示されており、関節点119の位置は白抜きの丸により示されている。関節点119には、例えば、頭、首、肩、肘、手、腰、腿、膝、および足の関節点119が含まれる。図9の例においては、各関節点119の相対的な位置関係から、対象者500が座位の姿勢にあることが認識できる。
 行動推定部114は、関節点推定部113により推定された関節点119に基づいて、対象者500の行動を推定し、対象者500の行動の検出結果として出力部115へ出力する。行動推定部114は、複数の撮影画像250から推定された関節点119の時間的変化に基づいて対象者500の行動を推定し得る。行動推定部114は、例えば、各関節点119の平均速度が急に低下し、かつ平均速度の低下後の各関節点119により認識される姿勢が臥位であるような場合に、対象者500の行動として「転倒」を推定し得る。
 出力部115は、対象物体検出部112により検出された出力矩形254、関節点推定部113により検出された、対象者500の関節点119、および行動推定部114により検出された、対象者500の行動を出力する。
 対象物体検出装置100の動作について説明する。
 図10は、対象物体検出装置の動作を示すフローチャートである。本フローチャートは、記憶部120に記憶されたプログラムにしたがい、制御部110により実行される。
 制御部110は、領域推定パラメーターを記憶部120に記憶させる(S101)。
 制御部110は、撮影装置200から、通信部150を介して撮影画像250を取得する(S102)。
 制御部110は、DNNを用いて、撮影画像250から特徴マップを生成する(S103)。
 制御部110は、対象者500の検出に用いる領域別パラメーターを、選択することにより切り替える。
 撮影装置200が広角カメラの場合は、制御部110は、領域別パラメーターを、広角カメラの歪み特性に基づいて選択され得る。広角カメラの歪み特性は、広角カメラの型番により特定される。このため、例えば、広角カメラごとに、広角カメラの型番と対応付けて、当該型番の広角カメラの歪み特性に対応して分割領域が設定された領域別パラメーターを記憶部120に予め記憶させておく。制御部110は、広角カメラから取得される撮影画像250のデータに含まれる、広角カメラの型番に対応する領域別パラメーターを選択し得る。制御部110は、表示部130に撮影装置200の広角カメラの歪み特性の入力を受け付ける画面を表示して、入力部140においてユーザーに入力された歪み特性に基づいて、当該歪み特性に対応して分割領域が設定された領域別パラメーターを選択してもよい。制御部110は、領域別パラメーターを、撮影装置200の広角カメラの設置高さに基づいて選択してもよい。例えば、広角カメラの設置高さごとに、当該設置高さと対応付けて、当該設置高さに対応して分割領域が設定された領域別パラメーターを記憶部120に予め記憶させておく。施設のCAD(Computer-Aided Design)データを記憶部120に予め記憶させておく。制御部110は、広角カメラから取得される撮影画像250のデータに含まれる、広角カメラが設置された居室の部屋番号等から、施設のCADデータに基づいて、当該居室において広角カメラが設置された天井の高さを算出する。そして、算出された高さの設置高さに対応して分割領域が設定された領域別パラメーターを取得し得る。制御部110は、表示部130に撮影装置200の広角カメラの設置高さの入力を受け付ける画面を表示して、入力部140においてユーザーに入力された設置高さに基づいて、当該設置高さに対応して分割領域が設定された領域別パラメーターを選択してもよい。
 撮影装置200が広域撮影用カメラの場合は、制御部110は、領域別パラメーターを、撮影装置200の撮影範囲の広さに基づいて選択され得る。例えば、広域撮影画像252の撮影範囲の広さごとに、当該撮影範囲の広さと対応付けて、当該撮影範囲の広さに対応して分割領域が設定された領域別パラメーターを記憶部120に予め記憶させておく。制御部110は、表示部130に撮影装置200の広域撮影用カメラの撮影範囲の広さ(例えば、撮影面積、または画角)の入力を受け付ける画面を表示して、入力部140においてユーザーに入力された撮影範囲の広さに基づいて、当該撮影範囲の広さに対応して分割領域が設定された領域別パラメーターを選択し得る。制御部110は、領域別パラメーターを、撮影装置200の広域撮影用カメラの設置高さに基づいて選択してもよい。例えば、広域撮影用カメラの設置高さごとに、当該設置高さと対応付けて、当該設置高さに対応して分割領域が設定された領域別パラメーターを記憶部120に予め記憶させておく。施設のCADデータを記憶部120に予め記憶させておく。制御部110は、広域撮影用カメラから取得される広域撮影画像252のデータに含まれる、広域撮影用カメラが設置された居室の部屋番号等から、施設のCADデータに基づいて、当該居室において広域撮影用カメラが設置された天井の高さを算出する。そして、算出された高さの設置高さに対応して分割領域が設定された領域別パラメーターを取得し得る。制御部110は、表示部130に撮影装置200の広域撮影用カメラの設置高さの入力を受け付ける画面を表示して、入力部140においてユーザーに入力された設置高さに基づいて、当該設置高さに対応して分割領域が設定された領域別パラメーターを選択してもよい。
 制御部110は、領域別推定パタメーターに基づいて、分割領域ごとに、分割領域に対応する辞書を用いて、特徴マップから、物体が含まれる候補矩形253を検出する(S105)。
 制御部110は、候補矩形253ごとに所定のカテゴリーごとの信頼度スコアを算出して、出力矩形254を検出することで、対象者500を検出する(S106)。
 制御部110は、出力矩形254と、当該出力矩形254に対する所定のカテゴリーごとの信頼度スコアを、携帯端末400へ送信すること等により出力する(S107)。
 本発明に係る実施形態は、以下の効果を奏する。
 撮影画像を分割した分割領域ごとに、各分割領域に対応する辞書を用いて、当該撮影画像から生成した特徴マップから対象物体を検出する。これにより、撮影画像中の領域ごとの対象物の変化に起因した対象物の誤検出を低減し、高速かつ高精度に対象物体を検出できる。
 さらに、撮影画像が広角画像の場合は、分割領域を、広角画像である撮影画像上の位置に対応して変化する歪みの大きさに応じて設定する。これにより、撮影画像が広角画像であっても、広角画像における領域ごとの歪みの大きさによる対象物の変化に起因した対象物の誤検出を低減し、高速かつ高精度に対象物体を検出できる。
 さらに、撮影画像を、当該撮影画像を撮影したカメラからの撮影方向の物体までの距離に対応して、撮影画像上の物体の大きさと当該物体の実際の大きさとの比が変化した画像とし、分割領域を、撮影画像上の物体の大きさと当該物体の実際の大きさとの比の大きさに応じて設定する。これにより、撮影画像が、撮影画像上の物体の大きさと当該物体の実際の大きさとの比が変化した広域撮影画像であっても、広域撮影画像における領域ごとの、撮影画像上の物体の大きさと当該物体の実際の大きさとの比の変化に起因した対象物の誤検出を低減し、高速かつ高精度に対象物体を検出できる。
 さらに、領域別推定パラメーターに基づいて、分割領域ごとに、分割領域に対応する辞書を用いて、物体の所定のカテゴリーごとの信頼度スコアを算出することで、対象物体を検出する。これにより、分割領域ごとに分割領域に対応する辞書を用いて信頼度スコアを算出して対象物体を検出することで、撮影画像中の領域ごとの対象物の変化に起因した対象物の誤検出をより効果的に低減し、高速かつより高精度に対象物体を検出できる。
 さらに、領域別推定パラメーターに基づいて、分割領域ごとに、分割領域に対応する辞書を用いて、特徴マップから物体を検出した後、検出された物体の所定のカテゴリーごとの信頼度スコアを算出することで、物体の中から対象物体を検出する。これにより、物体の検出精度と、物体のカテゴリーごとの信頼度スコアの算出精度を分けて検証できることで、より高精度に対象物体を検出できる。
 さらに、分割領域ごとに、特徴マップと辞書とを用いて、撮影画像において設定した基準矩形の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、当該位置のシフト量およびスケールのシフト量を最小化することで候補矩形253を検出する。そして、候補矩形253に含まれた物体の所定のカテゴリーごとの信頼度スコアを算出し、信頼度スコアが最も高いカテゴリーが対象物体のカテゴリーとなった候補矩形を、対象物体が含まれた出力矩形と推定することで、対象物体を検出する。また、基準矩形は、分割領域ごとに異なる形状とする。これにより、Faster R-CNNを利用して、より簡易に、高速かつ高精度な対象物体の検出を実現できる。
 さらに、撮影画像として広角画像を撮影したカメラのレンズの歪み特性に基づいて、対象物体を検出するために用いる領域別推定パラメーターを、レンズの歪み特性に対応して分割領域が設定された領域別推定パラメーターに切り替える。これにより、より簡単な手順により、広角画像から高速かつ高精度に対象物体を検出できる。
 さらに、撮影画像として広角画像を撮影したカメラの設置高さに基づいて、対象物体を検出するために用いる領域別推定パラメーターを、カメラの設置高さに対応した分割領域が設定された領域別推定パラメーターに切り替える。これにより、より簡単な手順により、広角画像から高速かつ高精度に対象物体を検出できる。
 さらに、広域撮影画像の撮影範囲の広さに基づいて、対象物体を検出するために用いる領域別推定パラメーターを、当該撮影範囲の広さに対応した分割領域が設定された領域別推定パラメーターに切り替える。これにより、より簡単な手順により、広域撮影画像から高速かつ高精度に対象物体を検出できる。
 以上に説明した対象物体検出システム10の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な対象物体検出システムが備える構成を排除するものではない。
 例えば、対象物体検出装置100が有する機能を、センサーボックスにより構成される撮影装置200、または携帯端末400が備えるようにしてもよい。
 また、対象物体検出装置100、撮影装置200、および携帯端末400は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。
 また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。
 また、対象物体は、人に限定されず、船、猫、または犬等であってもよく、対象物体に複数のカテゴリーが含まれてもよい。
 また、上述した対象物体検出システム10における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。
 本出願は、2018年7月2日に出願された日本特許出願(特願2018-126305号)に基づいており、その開示内容は、参照され、全体として、組み入れられている。
 

Claims (18)

  1.  撮影された画像を取得する手順(a)と、
     前記手順(a)により取得された前記画像から特徴マップを生成する手順(b)と、
     前記画像を複数の領域に分割する分割領域と、各分割領域に対応して対象物体を検出するための辞書と、が設定された領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから、対象物体を検出する手順(c)と、
     を有する処理をコンピューターに実行させるための対象物体検出プログラム。
  2.  前記画像は広角画像であり、
     前記分割領域は、前記画像上の位置に対応して変化する歪みの大きさに応じて設定された、請求項1に記載の対象物体検出プログラム。
  3.  前記画像は、前記画像を撮影したカメラからの撮影方向の物体までの距離に対応して、前記画像上の前記物体の大きさと当該物体の実際の大きさとの比が変化した画像であり、
     前記分割領域は、前記比の大きさに応じて設定された、請求項1に記載の対象物体検出プログラム。
  4.  前記手順(c)は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記対象物体を検出する、請求項1~3のいずれか一項に記載の対象物体検出プログラム。
  5.  前記手順(c)は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから物体を検出する手順(c1)と、前記手順(c1)により検出された前記物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記物体の中から前記対象物体を検出する手順(c2)と、を含む、請求項1~3のいずれか一項に記載の対象物体検出プログラム。
  6.  前記手順(c)は、前記分割領域ごとに、前記特徴マップと前記辞書とを用いて、前記画像において設定した基準矩形の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、前記位置のシフト量およびスケールのシフト量を最小化することで前記物体が含まれる候補矩形を検出し、前記候補矩形に含まれた前記物体の所定のカテゴリーごとの信頼度スコアを算出し、前記信頼度スコアが最も高いカテゴリーが前記対象物体のカテゴリーとなった前記候補矩形を、前記対象物体が含まれる出力矩形として出力することで、前記対象物体を検出し、
     前記基準矩形の形状は、前記分割領域ごとに異なる、請求項1~3のいずれか一項に記載の対象物体検出プログラム。
  7.  前記手順(c)は、前記広角画像を撮影したカメラのレンズの歪み特性に基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該レンズの歪み特性に対応して前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項2に記載の対象物体検出プログラム。
  8.  前記手順(c)は、前記広角画像を撮影したカメラの設置高さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該カメラの設置高さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項2に記載の対象物体検出プログラム。
  9.  前記手順(c)は、前記画像の撮影範囲の広さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該撮影範囲の広さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項3に記載の対象物体検出プログラム。
  10.  撮影された画像を取得する取得部と、
     取得された前記画像から特徴マップを生成する特徴マップ生成部と、
     前記画像を複数の領域に分割する分割領域と、各分割領域に対応して対象物体を検出するための辞書と、が設定された領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから、対象物体を検出する検出部と、
     を有する対象物体検出装置。
  11.  前記画像は広角画像であり、
     前記分割領域は、前記画像上の位置に対応して変化する歪みの大きさに応じて設定された、請求項10に記載の対象物体検出装置。
  12.  前記画像は、前記画像を撮影したカメラからの撮影方向の物体までの距離に対応して、前記画像上の前記物体の大きさと当該物体の実際の大きさとの比が変化した画像であり、
     前記分割領域は、前記比の大きさに応じて設定された、請求項10に記載の対象物体検出装置。
  13.  前記検出部は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記対象物体を検出する、請求項10~12のいずれか一項に記載の対象物体検出装置。
  14.  前記検出部は、前記領域別推定パラメーターに基づいて、前記分割領域ごとに、前記分割領域に対応する前記辞書を用いて、前記特徴マップから物体を検出する物体検出部と、前記物体検出部により検出された前記物体の所定のカテゴリーごとの信頼度スコアを算出することで、前記物体の中から前記対象物体を検出する対象物体検出部と、を含む、請求項10~12のいずれか一項に記載の対象物体検出装置。
  15.  前記検出部は、前記分割領域ごとに、前記特徴マップと前記辞書とを用いて、前記画像において設定した基準矩形の、物体が存在する矩形領域からの位置のシフト量およびスケールのシフト量を推定して、前記位置のシフト量およびスケールのシフト量を最小化することで前記物体が含まれる候補矩形を検出し、前記候補矩形に含まれた前記物体の所定のカテゴリーごとの信頼度スコアを算出し、前記信頼度スコアが最も高いカテゴリーが前記対象物体のカテゴリーとなった前記候補矩形を、前記対象物体が含まれる出力矩形として出力することで、前記対象物体を検出し、
     前記基準矩形の形状は、前記分割領域ごとに異なる、請求項10~12のいずれか一項に記載の対象物体検出装置。
  16.  前記検出部は、前記広角画像を撮影したカメラのレンズの歪み特性に基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該レンズの歪み特性に対応して前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項11に記載の対象物体検出装置。
  17.  前記検出部は、前記広角画像を撮影したカメラの設置高さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該カメラの設置高さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項11に記載の対象物体検出装置。
  18.  前記検出部は、前記画像の撮影範囲の広さに基づいて、前記対象物体を検出するために用いる前記領域別推定パラメーターを、当該撮影範囲の広さに対応した前記分割領域が設定された前記領域別推定パラメーターに切り替える、請求項12に記載の対象物体検出装置。
PCT/JP2019/018629 2018-07-02 2019-05-09 対象物体検出プログラム、および対象物体検出装置 Ceased WO2020008726A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020528701A JP7243725B2 (ja) 2018-07-02 2019-05-09 対象物体検出プログラム、および対象物体検出装置
EP19830090.7A EP3819864A4 (en) 2018-07-02 2019-05-09 TARGET OBJECT DETECTION PROGRAM AND TARGET OBJECT DETECTION DEVICE

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-126305 2018-07-02
JP2018126305 2018-07-02

Publications (1)

Publication Number Publication Date
WO2020008726A1 true WO2020008726A1 (ja) 2020-01-09

Family

ID=69060638

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/018629 Ceased WO2020008726A1 (ja) 2018-07-02 2019-05-09 対象物体検出プログラム、および対象物体検出装置

Country Status (3)

Country Link
EP (1) EP3819864A4 (ja)
JP (1) JP7243725B2 (ja)
WO (1) WO2020008726A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023181277A1 (ja) * 2022-03-24 2023-09-28 ファナック株式会社 外観検査装置、外観検査方法、及びコンピュータ読み取り可能な記録媒体
JP7365729B1 (ja) 2022-10-06 2023-10-20 株式会社アジラ 姿勢推定システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012230546A (ja) 2011-04-26 2012-11-22 Hitachi Information & Communication Engineering Ltd 物体認識方法及び認識装置
JP2013141876A (ja) * 2012-01-10 2013-07-22 Denso Corp 車両周辺監視装置
JP2016171526A (ja) * 2015-03-13 2016-09-23 株式会社東芝 画像センサ、人検出方法、制御システム、制御方法及びコンピュータプログラム
US20170206431A1 (en) 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
JP2018126305A (ja) 2017-02-08 2018-08-16 株式会社オリンピア 遊技機

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012230546A (ja) 2011-04-26 2012-11-22 Hitachi Information & Communication Engineering Ltd 物体認識方法及び認識装置
JP2013141876A (ja) * 2012-01-10 2013-07-22 Denso Corp 車両周辺監視装置
JP2016171526A (ja) * 2015-03-13 2016-09-23 株式会社東芝 画像センサ、人検出方法、制御システム、制御方法及びコンピュータプログラム
US20170206431A1 (en) 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
JP2018126305A (ja) 2017-02-08 2018-08-16 株式会社オリンピア 遊技機

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIKI, DAISUKE ET AL.: "Robust Human Pose Estimation from Distorted Images", IEICE TECHNICAL REPORT, vol. 117, no. 238, 5 October 2017 (2017-10-05), pages 169 - 174, XP55672503, ISSN: 0913-5685 *
See also references of EP3819864A4

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023181277A1 (ja) * 2022-03-24 2023-09-28 ファナック株式会社 外観検査装置、外観検査方法、及びコンピュータ読み取り可能な記録媒体
JPWO2023181277A1 (ja) * 2022-03-24 2023-09-28
JP7701553B2 (ja) 2022-03-24 2025-07-01 ファナック株式会社 外観検査装置、外観検査方法、及びコンピュータ読み取り可能な記録媒体
JP7365729B1 (ja) 2022-10-06 2023-10-20 株式会社アジラ 姿勢推定システム
JP2024054909A (ja) * 2022-10-06 2024-04-18 株式会社アジラ 姿勢推定システム

Also Published As

Publication number Publication date
EP3819864A1 (en) 2021-05-12
JPWO2020008726A1 (ja) 2021-07-08
JP7243725B2 (ja) 2023-03-22
EP3819864A4 (en) 2021-08-18

Similar Documents

Publication Publication Date Title
JP6137425B2 (ja) 画像処理システム、画像処理装置、画像処理方法、および画像処理プログラム
JP2020123239A (ja) 姿勢推定装置、行動推定装置、姿勢推定プログラム、および姿勢推定方法
US10762761B2 (en) Monitoring assistance system, control method thereof, and program
CN105938540B (zh) 行为检测方法和行为检测设备
JP6115692B1 (ja) 行動検知装置、該方法および該プログラム、ならびに、被監視者監視装置
JP7403132B2 (ja) 介護記録装置、介護記録システム、介護記録プログラムおよび介護記録方法
JP2022165483A (ja) 検出装置、検出システム、検出方法、および検出プログラム
JP6086468B2 (ja) 被写体見守りシステム
JP2020086819A (ja) 画像処理プログラムおよび画像処理装置
JP7530222B2 (ja) 検知装置、検知方法、画像処理方法、およびプログラム
JPWO2016199504A1 (ja) 行動検知装置および行動検知方法ならびに被監視者監視装置
US12445720B2 (en) Device and method for controlling a camera
JP7314939B2 (ja) 画像認識プログラム、画像認識装置、学習プログラム、および学習装置
JP7243725B2 (ja) 対象物体検出プログラム、および対象物体検出装置
JP7347577B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP6870514B2 (ja) 見守り支援システム及びその制御方法
JPWO2019193899A1 (ja) 演算装置の学習方法、学習装置、学習プログラム、および学習済みモデル
JP2021033379A (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP7786061B2 (ja) 制御装置、制御方法、制御プログラム、および情報処理システム
JP7351339B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP7435609B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP7606819B2 (ja) 画像処理システム及び制御プログラム
JP2021065617A (ja) 画像処理装置および画像処理プログラム
JP7388440B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP2024162612A (ja) 見守り装置、および見守りシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19830090

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020528701

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019830090

Country of ref document: EP

Effective date: 20210202

WWW Wipo information: withdrawn in national office

Ref document number: 2019830090

Country of ref document: EP