WO2021256268A1 - 情報処理システム、情報処理装置、および情報処理方法 - Google Patents

情報処理システム、情報処理装置、および情報処理方法 Download PDF

Info

Publication number
WO2021256268A1
WO2021256268A1 PCT/JP2021/021093 JP2021021093W WO2021256268A1 WO 2021256268 A1 WO2021256268 A1 WO 2021256268A1 JP 2021021093 W JP2021021093 W JP 2021021093W WO 2021256268 A1 WO2021256268 A1 WO 2021256268A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information processing
processing system
unit
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2021/021093
Other languages
English (en)
French (fr)
Inventor
ジェチョル キム
賢佑 田口
暁艶 戴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to CN202180042894.9A priority Critical patent/CN115720665A/zh
Priority to US18/002,249 priority patent/US20230177931A1/en
Priority to EP21825287.2A priority patent/EP4170617A4/en
Publication of WO2021256268A1 publication Critical patent/WO2021256268A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/01Details for indicating
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • G06Q20/208Input by product or record sensing, e.g. weighing or scanner processing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional [3D] objects
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/0036Checkout procedures
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/0036Checkout procedures
    • G07G1/0045Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader
    • G07G1/0054Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles
    • G07G1/0063Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles with means for detecting the geometric dimensions of the article of which the code is read, such as its size or height, for the verification of the registration
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/12Cash registers electronically operated
    • G07G1/14Systems including one or more distant stations co-operating with a central processing unit
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Definitions

  • the present invention relates to an information processing system, an information processing device, and an information processing method.
  • the information processing system from the first viewpoint is An image pickup unit that generates an image by imaging, A control unit that estimates an object included in the image based on the image is provided.
  • the control unit By the recognition process for the image, the object and the category of the object can be estimated. If the estimation of the object fails in the recognition process, an instruction regarding the object is generated based on the estimated category of the object.
  • the information processing device from the second viewpoint is The acquisition unit that acquires an image from the image pickup unit and the acquisition unit A control unit that estimates an object included in the image based on the image is provided.
  • the control unit By the recognition process for the image, the object in the image and the category of the object can be estimated. If the estimation of the object fails in the recognition process, an instruction regarding the object is generated based on the estimated category of the object.
  • the information processing method from the third viewpoint is Let the image pickup unit generate an image by imaging, If the estimation of the object fails in the recognition process capable of estimating the object in the image and the category of the object, an instruction regarding the object is generated based on the estimated category of the object.
  • the settlement system 11 including the information processing system 10 includes at least one information processing system 10 and a server 12.
  • the settlement system 11 includes a plurality of information processing systems 10.
  • the information processing system 10 is included in the cash register terminal.
  • the information processing system 10 captures an image of a product placed on the cash register terminal by the purchaser.
  • the information processing system 10 performs object recognition on an image obtained by imaging, and estimates which product in the store the object contained in the image is.
  • the object in the image means the object drawn in the image.
  • the information processing system 10 notifies the server 12 of the estimation results of all the placed products via the network 13.
  • the server 12 calculates the billing amount based on the estimation result.
  • the server 12 notifies the information processing system 10 of the billing amount.
  • the information processing system 10 presents the billing amount to the purchaser and requests payment of the purchase amount.
  • the information processing system 10 includes an image pickup unit 14 and an information processing device 15. Further, the information processing system 10 may be further configured to include a display device 16, a mounting table 17, and a support column 18.
  • the image pickup unit 14 is fixed so that the entire range of the mounting table 17 can be imaged.
  • the image pickup unit 14 is fixed to, for example, a support pillar 18 extending from the side surface of the mounting table 17.
  • the image pickup unit 14 is fixed so that, for example, the entire surface of the upper surface us of the mounting table 17 can be imaged and the optical axis is perpendicular to the upper surface us.
  • the image pickup unit 14 continuously takes images at an arbitrary frame rate and generates an image signal.
  • the display device 16 is an arbitrary display conventionally known.
  • the display device 16 displays an image corresponding to an image signal transmitted from the information processing device 15. Further, as will be described later, the display device 16 may function as a touch screen.
  • the information processing apparatus 15 includes a communication unit 19 (acquisition unit), an input unit 20, a storage unit 21, and a control unit 22.
  • the information processing device 15 is configured as a device different from the image pickup unit 14 and the display device 16, but for example, at least the image pickup unit 14, the mounting table 17, the support column 18, and the display device 16. It may be configured integrally with any of them.
  • the communication unit 19 includes, for example, a communication module that communicates with the image pickup unit 14 via a communication line including a wired or wireless communication line.
  • the communication unit 19 receives an image as a signal from the image pickup unit 14, in other words, acquires the image.
  • the communication unit 19 includes a communication module that communicates with the display device 16 via a communication line.
  • the communication unit 19 transmits the image to be displayed as an image signal toward the display device 16.
  • the communication unit 19 may receive a position signal corresponding to a position where contact is detected on the display surface from the display device 16.
  • the communication unit 19 includes a communication module that communicates with the server 12 via the network 13.
  • the communication unit 19 transmits the result information corresponding to the confirmed recognition result to the server 12, which will be described later.
  • the communication unit 19 may receive the amount information corresponding to the billing amount from the server 12 from the server 12.
  • the input unit 20 includes one or more interfaces for detecting user input.
  • the input unit 20 may include, for example, a physical key, a capacitance key, and a touch screen integrally provided with the display device 16. In this embodiment, the input unit 20 is a touch screen.
  • the storage unit 21 includes an arbitrary storage device such as a RAM (Random Access Memory) and a ROM (Read Only Memory).
  • the storage unit 21 stores various programs for functioning the control unit 22 and various information used by the control unit 22.
  • the control unit 22 includes one or more processors and a memory.
  • the processor may include a general-purpose processor that loads a specific program and performs a specific function, and a dedicated processor specialized for a specific process.
  • the dedicated processor may include an application specific integrated circuit (ASIC).
  • the processor may include a programmable logic device (PLD; Programmable Logic Device).
  • the PLD may include an FPGA (Field-Programmable Gate Array).
  • the control unit 22 may be either a System (System-on-a-Chip) in which one or a plurality of processors cooperate, or a SiP (System In a Package).
  • the control unit 22 estimates the object included in the image. The estimation of the object by the control unit 22 will be described in detail below.
  • the control unit 22 can estimate each object included in the image and the category of each object by the recognition process for the image acquired by the communication unit 19.
  • the control unit 22 may be able to estimate the state of each object included in the image and the boundary frame surrounding a single object such as a bounding box by the recognition process.
  • the estimation of the object, the category, the state, and the boundary frame by the control unit 22 will be described in detail below.
  • the control unit 22 functions as a feature point estimation unit 23, a boundary estimation unit 24, a category estimation unit 25, a state estimation unit 26, and an object estimation unit 27 to estimate an object included in an image.
  • the feature point estimation unit 23 estimates the feature points included in the image based on the image.
  • the boundary estimation unit 24 estimates the boundary frame surrounding each object in the image based on the feature points estimated by the feature point estimation unit 23. When the image contains a plurality of objects, the boundary estimation unit 24 estimates the boundary frame for each object.
  • the category estimation unit 25 estimates the category of the object in the boundary frame based on the feature points estimated by the feature point estimation unit 23. Therefore, when the image contains a plurality of objects, the category estimation unit 25 may estimate the object category for each boundary frame surrounding each object.
  • the category of objects is, for example, cup noodles, instant noodles in bags, PET bottled beverages, paper-packed beverages, canned foods, confectionery in bags, books, and the like, including the packaging state.
  • the state estimation unit 26 estimates the state of the object in the boundary frame based on the feature points estimated by the feature point estimation unit 23. Therefore, when a plurality of objects are included in the image, the state estimation unit 26 may estimate the state of the objects for each boundary frame surrounding each object.
  • the state of the object is, for example, the orientation of the object in the image.
  • the object estimation unit 27 estimates the object in the boundary frame based on the feature points estimated by the feature point estimation unit 23. Therefore, when the image contains a plurality of objects, the category estimation unit 25 may estimate the objects for each boundary frame surrounding each object.
  • the estimation of the object is, for example, the estimation of the product name handled.
  • the object estimation unit 27 calculates the reliability of the estimation together with the estimation of the object. If the reliability of the estimation is above the threshold, the estimation of the object is considered successful. If the confidence of the estimation is less than the threshold, the estimation of the object is considered to have failed.
  • the feature point estimation unit 23, the boundary estimation unit 24, the category estimation unit 25, the state estimation unit 26, and the object estimation unit 27 are configured by, for example, a multi-layered neural network.
  • the feature point estimation unit 23, the boundary estimation unit 24, the category estimation unit 25, the state estimation unit 26, and the object estimation unit 27 are constructed by supervised learning.
  • the feature point estimation unit 23 is constructed by learning using an image labeled with a boundary frame, a category, a state, and the name of the object for each object.
  • the control unit 22 When the object estimation unit 27 fails to estimate the object in the above recognition process, the control unit 22 generates an instruction regarding the object based on the object category estimated by the category estimation unit 25.
  • categories are easier to estimate than the objects themselves. Therefore, even if the estimation of the object fails, the category can be estimated with high reliability.
  • Instructions regarding the object may suggest a change in posture of the object in a particular orientation.
  • the category of an object determines the optimal surface for estimating the object. For example, if the object category is cup noodles or books, the best surface for estimating the object is the top surface. For example, if the category of the object is PET bottled beverage, paper carton beverage, or canned food, the best surface for estimating the object is the side surface. For example, if the category of the object is a bag of confectionery or an instant noodle in a bag, the best surface for estimating the object is the front. Therefore, the instructions regarding the object are "Please point the top to the camera” if the category of the object is cup noodles, or "Point the lid side to the camera” to specifically inform the top of the cup noodles.
  • the instruction regarding the object may be "Please turn the cover toward the camera” so as to specifically notify the upper surface of the book.
  • the instruction regarding the object is "Please point the side to the camera” or “Point the label toward the camera” to specifically inform the side of the PET bottle.
  • the instruction regarding the object may be "Please turn the front toward the camera” when the category of the object is a bag of confectionery or the like.
  • the control unit 22 may make the generation of an instruction regarding the object when the object estimation unit 27 fails to estimate the object based on the state of the object estimated by the state estimation unit 26.
  • the state is easier to estimate than the object itself. Therefore, even if the estimation of the object fails, the state can be estimated with high reliability.
  • the instructions regarding the object may further suggest a change in posture based on the orientation of the object, which is the estimated state of the object.
  • the instruction regarding the object is, for example, to change the posture from the bottom surface side to the top surface side, which is the estimated orientation, when the estimated object orientation is the bottom surface side and the optimum surface for estimating the object is the top surface side. You may suggest. More specifically, in that case, the instruction regarding the object may be "turn over”. Further, the instruction regarding the object is, for example, when the estimated orientation of the object is the bottom side and the optimum surface for estimating the object is the side surface, the posture from the bottom surface side to the side surface side, which is the estimated orientation. You may suggest a change. More specifically, in that case, the instruction regarding the object may be "defeat".
  • the instructions regarding the object are predetermined for each category and each state, and are stored in the storage unit 21.
  • the control unit 22 may be generated by reading from the storage unit 21 an instruction regarding an object corresponding to the category estimated by the category estimation unit 25 and the state estimated by the state estimation unit 26.
  • the control unit 22 controls the communication unit 19 so as to transmit an instruction regarding the object to the display device 16.
  • the control unit 22 may generate the instruction so that the instruction regarding the object is displayed in an identifiable manner.
  • the control unit 22 may generate the instruction so that the instruction regarding the object is displayed in the vicinity of the boundary frame surrounding the object whose estimation has failed in the image subjected to the recognition process.
  • the control unit 22 controls the communication unit 19 so as to transmit information indicating the estimated object to the server 12.
  • the control unit 22 receives the information indicating the billing amount from the server 12 for the transmission of the information indicating the estimated object, the control unit 22 presents the billing amount to the user.
  • the control unit 22 may present the image to the user by, for example, creating an image requesting payment of the billed amount and displaying it on the display device 16.
  • the server 12 is composed of, for example, a physical server or a cloud server.
  • the server 12 identifies an object mounted on the mounting table 17 in the information processing system 10 based on the information indicating the estimated object transmitted from the information processing system 10.
  • the server 12 calculates the billing amount for the user of the information processing system 10 by reading the selling price of the object from the database.
  • the server 12 transmits information indicating the billing amount to the information processing system 10.
  • the server 12 has data for constructing the feature point estimation unit 23, the boundary estimation unit 24, the category estimation unit 25, the state estimation unit 26, and the object estimation unit 27, which are updated, respectively. It may be transmitted to the information processing system 10.
  • the object estimation process executed by the control unit 22 in the present embodiment will be described with reference to the flowchart of FIG.
  • the object estimation process is started every time an image of one frame is received from the image pickup unit 14.
  • step S100 the control unit 22 performs recognition processing on the received image. After executing the recognition process, the process proceeds to step S101.
  • step S101 the control unit 22 determines whether or not all the objects surrounded by the boundary frame have been successfully estimated. If the object is successfully estimated, the process proceeds to step S102. If the object estimation is unsuccessful and unsuccessful, the process proceeds to step S103.
  • step S102 the control unit 22 generates an instruction regarding an object corresponding to the estimated category and state for each object determined to have failed in estimation in step S101. After generation, the process proceeds to step S103.
  • step S103 the control unit 22 controls the communication unit 19 so as to transmit an instruction regarding the object generated in step S102 to the display device 16. After transmission, the object estimation process ends.
  • step S104 the control unit 22 controls the communication unit 19 so as to transmit information indicating all objects that have been successfully estimated by the recognition process of step S100 to the server 12. After transmission, the object estimation process ends.
  • the information processing system 10 of the present embodiment fails to estimate an object in the image recognition process, it generates an instruction regarding the object based on the estimated object category.
  • the information processing system 10 can make the user recognize an instruction regarding the object, which facilitates the estimation of the object, based on the category that is easier to estimate than the object itself. Therefore, the information processing system 10 can generate an instruction regarding an appropriate object even when a highly reliable object cannot be estimated.
  • the information processing system 10 of the present embodiment can estimate the state of the object by the recognition process, and when the estimation of the object fails, an instruction regarding the object is generated based on the estimated state of the object.
  • the information processing system 10 can generate an instruction as to what to do from the state of the object in the captured image. Therefore, the information processing system 10 can generate instructions that are easy for the user to understand.
  • the information processing system 10 of the present embodiment can estimate objects and categories for each of a plurality of objects included in the image. With such a configuration, the information processing system 10 can generate an instruction regarding an object for each part of the objects even if the estimation of a part of the plurality of objects included in the image fails.
  • control unit 22 is a feature point estimation unit 23 that estimates feature points based on an image, and a boundary estimation unit 24 that estimates a boundary frame surrounding an object based on the feature points.
  • the category estimation unit 25 that estimates the category of the object based on the feature points
  • the state estimation unit 26 that estimates the state of the object based on the feature points
  • the object estimation unit 27 that estimates the object based on the feature points. ..

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Multimedia (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Cash Registers Or Receiving Machines (AREA)

Abstract

情報処理システム10は撮像部14と制御部とを備える。撮像部14は撮像により画像を生成する。制御部は画像に基づいて画像に含まれる物体の推定を行う。制御部は画像に対する認識処理により物体および物体のカテゴリを推定可能である。制御部は認識処理において物体の推定に失敗した場合推定された物体のカテゴリに基づいて物体に関する指示を生成する。

Description

情報処理システム、情報処理装置、および情報処理方法 関連出願の相互参照
 本出願は、2020年6月18日に日本国に特許出願された特願2020-105633の優先権を主張するものであり、この先の出願の開示全体をここに参照のために取り込む。
 本発明は、情報処理システム、情報処理装置、および情報処理方法に関するものである。
 撮像した画像に基づいて、任意の物体が何であるかを認識することが求められている。例えば、商店などにおけるキャッシュレジスター端末において、カメラで撮影した商品を、撮影済みの取扱商品と比較することにより、カメラで撮影した商品を特定することが知られている。また、カメラで撮像した商品に対して類似度の差が小さな複数の取扱商品がある場合、複数の取扱商品の相違を判別し得る物体方向を報知する商品識別装置が提案されている(特許文献1参照)。
特開2018-097883号
 上述した諸課題を解決すべく、第1の観点による情報処理システムは、
 撮像により画像を生成する撮像部と、
 前記画像に基づいて、該画像に含まれる物体の推定を行う制御部と、を備え、
 前記制御部は、
 前記画像に対する認識処理により、物体および該物体のカテゴリを推定可能であり、
 前記認識処理において該物体の推定に失敗した場合、推定された前記物体のカテゴリに基づいて、該物体に関する指示を生成する。
 第2の観点による情報処理装置は、
 撮像部から画像を取得する取得部と、
 前記画像に基づいて、該画像に含まれる物体の推定を行う制御部と、を備え、
 前記制御部は、
 前記画像に対する認識処理により、該画像内の物体および該物体のカテゴリを推定可能であり、
 前記認識処理において該物体の推定に失敗した場合、推定された前記物体のカテゴリに基づいて、該物体に関する指示を生成する。
 第3の観点による情報処理方法は、
 撮像部に撮像による画像を生成させ、
 前記画像内の物体および該物体のカテゴリを推定可能な認識処理において、該物体の推定に失敗した場合、推定された前記物体のカテゴリに基づいて、該物体に関する指示を生成する。
本実施形態に係る情報処理システムを含む精算システムの全体構成を示す構成図である。 図1の情報処理システムの全体構成を示す外観図である。 図2の情報処理装置の概略構成を示す機能ブロック図である。 図3の制御部が実行する物体推定処理を説明するためのフローチャートである。
 以下、本開示を適用した情報処理システムの実施形態について、図面を参照して説明する。
 図1に示すように、本開示の一実施形態に係る情報処理システム10を含む精算システム11は、少なくとも1つの情報処理システム10およびサーバ12を含んで構成されている。本実施形態では、精算システム11は、複数の情報処理システム10を含む。
 本実施形態において、情報処理システム10はレジ端末に含まれている。情報処理システム10は、購入者がレジ端末に載置する商品を撮像する。情報処理システム10は、撮像による画像に対して物体認識を行い、画像中に含まれる物体が店舗におけるいずれの商品であるかを推定する。画像中の物体は、画像内に描画されている物体を意味する。情報処理システム10は、載置された全商品の推定結果を、ネットワーク13を介してサーバ12に通知する。サーバ12は推定結果に基づいて、請求金額を算出する。サーバ12は、請求金額を情報処理システム10に通知する。情報処理システム10は、購入者に請求金額を提示し、購入金額の支払いを要求する。
 図2に示すように、情報処理システム10は、撮像部14および情報処理装置15を含んで構成される。また、情報処理システム10は、表示装置16、載置台17、および支持柱18をさらに含んで構成されてもよい。
 撮像部14は、載置台17の全範囲を撮像可能に固定されている。撮像部14は、例えば、載置台17の側面から延びる支持柱18に固定されている。撮像部14は、例えば、載置台17の上面us全面を撮像可能、かつ当該上面usに光軸が垂直になるように固定されている。撮像部14は、任意のフレームレートで連続的に撮像を行い、画像信号を生成する。
 表示装置16は、従来公知の任意のディスプレイである。表示装置16は、情報処理装置15から送信される画像信号に相当する画像を表示する。また、後述するように、表示装置16は、タッチスクリーンとして機能してよい。
 図3に示すように、情報処理装置15は、通信部19(取得部)、入力部20、記憶部21、および制御部22を含んで構成される。情報処理装置15は、本実施形態において、撮像部14および表示装置16とは別の装置として構成されているが、例えば、撮像部14、載置台17、支持柱18、および表示装置16の少なくともいずれかと一体的に構成されてもよい。
 通信部19は、例えば、有線または無線を含んで構成される通信線を介して撮像部14と通信する通信モジュールを含む。通信部19は、撮像部14から画像を信号として受信、言い換えると取得する。通信部19は、通信線を介して表示装置16と通信する通信モジュールを含む。通信部19は、表示させる画像を画像信号として表示装置16に向けて送信する。通信部19は、表示装置16から表示面において接触を検知した位置に相当する位置信号を受信してよい。通信部19は、ネットワーク13を介してサーバ12と通信する通信モジュールを含む。通信部19は、後述する、確定した認識結果に相当する結果情報をサーバ12に送信する。通信部19は、サーバ12から請求金額に相当する金額情報をサーバ12から受信してよい。
 入力部20は、ユーザ入力を検出する1つ以上のインタフェースを含む。入力部20は、例えば、物理キー、静電容量キー、および表示装置16と一体的に設けられたタッチスクリーンを含んでよい。本実施形態においては、入力部20はタッチスクリーンである。
 記憶部21は、例えば、RAM(Random Access Memory)およびROM(Read Only Memory)など、任意の記憶デバイスを含む。記憶部21は、制御部22を機能させる多様なプログラム、および制御部22が用いる多様な情報を記憶する。
 制御部22は、1以上のプロセッサおよびメモリを含む。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、および特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けIC(ASIC;Application Specific Integrated Circuit)を含んでよい。プロセッサは、プログラマブルロジックデバイス(PLD;Programmable Logic Device)を含んでよい。PLDは、FPGA(Field-Programmable Gate Array)を含んでよい。制御部22は、1つまたは複数のプロセッサが協働するSoC(System-on-a-Chip)、およびSiP(System In a Package)のいずれかであってもよい。
 制御部22は、画像に含まれる物体の推定を行う。制御部22による、物体の推定について、以下に詳細に説明する。制御部22は、通信部19が取得した画像に対する認識処理により、画像に含まれる各物体および当該各物体のカテゴリを推定可能である。制御部22は、当該認識処理により、画像に含まれる各物体の状態、およびバウンディングボックスのような、単一の物体を囲繞する境界枠を推定可能であってよい。制御部22による、物体、カテゴリ、状態、および境界枠の推定について、以下に詳細に説明する。
 制御部22は、特徴点推定部23、境界推定部24、カテゴリ推定部25、状態推定部26、および物体推定部27として機能することにより、画像に含まれる物体の推定を行う。
 特徴点推定部23は、画像に基づいて、画像に含まれる特徴点を推定する。
 境界推定部24は、特徴点推定部23が推定した特徴点に基づいて、画像内の各物体を囲繞する境界枠を推定する。境界推定部24は、画像に複数の物体が含まれる場合、物体別に境界枠を推定する。
 カテゴリ推定部25は、特徴点推定部23が推定した特徴点に基づいて、境界枠内の物体のカテゴリを推定する。したがって、カテゴリ推定部25は、画像に複数の物体が含まれる場合、各物体を囲繞する各境界枠別に物体のカテゴリを推定してよい。物体のカテゴリは、例えば、カップ麺、袋入り即席麺、ペットボトル飲料、紙パック飲料、缶詰、袋入り菓子、書籍などの、包装状態も含めた物体の種類である。
 状態推定部26は、特徴点推定部23が推定した特徴点に基づいて、境界枠内の物体の状態を推定する。したがって、状態推定部26は、画像に複数の物体が含まれる場合、各物体を囲繞する各境界枠別に物体の状態を推定してよい。物体の状態は、例えば、画像における物体の向きである。
 物体推定部27は、特徴点推定部23が推定した特徴点に基づいて、境界枠内の物体を推定する。したがって、カテゴリ推定部25は、画像に複数の物体が含まれる場合、各物体を囲繞する各境界枠別に物体を推定してよい。物体の推定とは、例えば、取扱商品名の推定である。物体推定部27は、物体の推定とともに、当該推定の信頼度を算出する。推定の信頼度が閾値以上である場合、物体の推定は成功したとみなされる。推定の信頼度が閾値未満である場合、物体の推定は失敗したとみなされる。
 特徴点推定部23、境界推定部24、カテゴリ推定部25、状態推定部26、および物体推定部27は、例えば、多層構造のニューラルネットワークにより構成されている。特徴点推定部23、境界推定部24、カテゴリ推定部25、状態推定部26、および物体推定部27は教師あり学習により構築される。特徴点推定部23は、物体毎に、境界枠、カテゴリ、状態、および物体の名称をラベル付けした画像を用いて、学習することにより構築されている。
 制御部22は、上述の認識処理において、物体推定部27が物体の推定に失敗した場合、カテゴリ推定部25により推定された物体のカテゴリに基づいて、物体に関する指示を生成する。なお、一般的に、カテゴリは物体そのものより推定が容易である。それゆえ、物体の推定に失敗しても、カテゴリは高い信頼性で推定され得る。
 物体に関する指示は、物体の特定の向きへの姿勢の変更を示唆してよい。一般的に、物体のカテゴリにより、当該物体の推定に最適な面は変わる。例えば、物体のカテゴリがカップ麺、または書籍である場合、当該物体の推定に最適な面は上面である。例えば、物体のカテゴリがペットボトル飲料、紙パック飲料、または缶詰である場合、当該物体の推定に最適な面は側面である。例えば、物体のカテゴリが、袋入り菓子または袋入り即席麺である場合、当該物体の推定に最適な面は正面である。それゆえ、物体に関する指示は、物体のカテゴリがカップ麺である場合、「上面をカメラに向けてください」、またはカップ麺の上面を具体的に報知するように「蓋側をカメラに向けてください」などであってよい。また、物体に関する指示は、物体のカテゴリが書籍である場合、書籍の上面を具体的に報知するように「表紙をカメラ側に向けてください」などであってよい。また、物体に関する指示は、物体のカテゴリがペットボトル飲料などである場合、「側面をカメラに向けてください」、またはペットボトルの側面を具体的に報知するように「ラベルをカメラ側に向けてください」などであってよい。また、物体に関する指示は、物体のカテゴリが袋入り菓子などである場合、「正面をカメラに向けてください」などであってよい。
 制御部22は、物体推定部27が物体の推定に失敗した場合の物体に関する指示の生成を、状態推定部26により推定された物体の状態にも基づかせてよい。なお、一般的に、状態は物体そのものより推定が容易である。それゆえ、物体の推定に失敗しても、状態は高い信頼性で推定され得る。
 物体に関する指示は、さらに、推定された物体の状態である、物体の向きを基準とした、姿勢の変更を示唆してよい。物体に関する指示は、例えば、推定された物体の向きが底面側であり、当該物体の推定に最適な面が上面である場合、推定された向きである底面側から上面側への姿勢の変更を示唆してよい。さらに具体的には、当該場合において、物体に関する指示は、「ひっくり返してください」であってよい。また、物体に関する指示は、例えば、推定された物体の向きが底面側であり、当該物体の推定に最適な面が側面である場合、推定された向きである底面側から側面側への姿勢の変更を示唆してよい。さらに具体的には、当該場合において、物体に関する指示は、「倒してください」であってよい。
 上述のように、物体に関する指示は、カテゴリ別および状態別にあらかじめ定められており、記憶部21に記憶されている。制御部22は、カテゴリ推定部25が推定するカテゴリ、および状態推定部26が推定する状態に対応する物体に関する指示を記憶部21から読み出すことにより生成してよい。
 制御部22は、物体に関する指示を表示装置16に送信するように、通信部19を制御する。制御部22は、画像に複数の物体が含まれる場合、物体に関する指示がいずれの物体に対するものかを識別可能な態様で表示されるように、当該指示を生成してよい。例えば、制御部22は、認識処理を施した画像において、推定に失敗した物体を囲繞する境界枠に近接して、当該物体に関する指示が表示されるように当該指示を生成してよい。
 制御部22は、物体推定部27が物体の推定に成功した場合、推定した物体を示す情報を、サーバ12に送信するように、通信部19を制御する。制御部22は、推定した物体を示す情報の送信に対して、サーバ12から請求金額を示す情報を受信するとき、当該請求金額をユーザに提示する。制御部22は、例えば、当該請求金額の支払いを要求する画像を作成し、表示装置16に表示させることにより、ユーザに提示してよい。
 サーバ12は、例えば、物理サーバ、またはクラウドサーバで構成されている。サーバ12は、情報処理システム10から送信される推定した物体を示す情報に基づいて、当該情報処理システム10における載置台17に載置された物体を特定する。サーバ12は、データベースから当該物体の販売価格を読出すことにより当該情報処理システム10のユーザに対する請求金額を算出する。サーバ12は、当該請求金額を示す情報を情報処理システム10に送信する。
 サーバ12では、それぞれ更新される、特徴点推定部23、境界推定部24、カテゴリ推定部25、状態推定部26、および物体推定部27を構築するためのデータを有しており、当該データを情報処理システム10に送信してよい。
 次に、本実施形態において制御部22が実行する、物体推定処理について、図4のフローチャートを用いて説明する。物体推定処理は、撮像部14から1フレームの画像を受信するたびに開始する。
 ステップS100において、制御部22は、受信する画像に認識処理を施す。認識処理の実行後、プロセスはステップS101に進む。
 ステップS101では、制御部22は、境界枠に囲繞された物体のすべての推定に成功しているか否かを判別する。物体の推定に成功している場合、プロセスはステップS102に進む。物体の推定に成功せず失敗している場合、プロセスはステップS103に進む。
 ステップS102では、制御部22は、ステップS101において推定に失敗したと判別された物体別に、推定されたカテゴリおよび状態に対応する物体に関する指示を生成する。生成後、プロセスはステップS103に進む。
 ステップS103では、制御部22は、ステップS102において生成した物体に関する指示を表示装置16に送信するように通信部19を制御する。送信後、物体推定処理は終了する。
 ステップS104では、制御部22は、ステップS100の認識処理により推定に成功した全物体を示す情報をサーバ12に送信するように、通信部19を制御する。送信後、物体推定処理は終了する。
 以上のような構成の本実施形態の情報処理システム10は、画像に対する認識処理において物体の推定に失敗した場合、推定された物体のカテゴリに基づいて物体に関する指示を生成する。このような構成により、情報処理システム10では、物体そのものよりも推定が容易であるカテゴリに基づいて、物体の推定を容易にさせる、当該物体に関する指示をユーザに認識させ得る。したがって、情報処理システム10は、信頼性の高い物体の推定ができない場合であっても、適切な物体に関する指示を生成し得る。
 また、本実施形態の情報処理システム10は、認識処理により物体の状態を推定可能であり、物体の推定に失敗した場合、推定された物体の状態にも基づいて、物体に関する指示を生成する。このような構成により、情報処理システム10は、撮像された画像における物体の状態からどうすべきかの指示を生成し得る。したがって、情報処理システム10は、ユーザによる理解の容易な指示を生成し得る。
 また、本実施形態の情報処理システム10は、画像に含まれる複数の物体別に物体およびカテゴリを推定可能である。このような構成により、情報処理システム10は、画像に含まれる複数の物体の一部の推定に失敗した場合でも、当該一部の物体別に物体に関する指示を生成し得る。
 また、本実施形態の情報処理システム10では、制御部22は、画像に基づいて特徴点を推定する特徴点推定部23、特徴点に基づいて物体を囲繞する境界枠を推定する境界推定部24、特徴点に基づいて物体のカテゴリを推定するカテゴリ推定部25、特徴点に基づいて物体の状態を推定する状態推定部26、および特徴点に基づいて物体を推定する物体推定部27として機能する。このような構成により、情報処理システム10では、画像に基づいて物体を推定する構成よりも、ニューラルネットワークの構成がシンプルになり、メンテナンスおよび管理が容易である。
 本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。
 10 情報処理システム
 11 精算システム
 12 サーバ
 13 ネットワーク
 14 撮像部
 15 情報処理装置
 16 表示装置
 17 載置台
 18 支持柱
 19 通信部
 20 入力部
 21 記憶部
 22 制御部
 23 特徴点推定部
 24 境界推定部
 25 カテゴリ推定部
 26 状態推定部
 27 物体推定部
 us 上面

Claims (10)

  1.  撮像により画像を生成する撮像部と、
     前記画像に基づいて、該画像に含まれる物体の推定を行う制御部と、を備え、
     前記制御部は、
     前記画像に対する認識処理により、物体および該物体のカテゴリを推定可能であり、
     前記認識処理において該物体の推定に失敗した場合、推定された前記物体のカテゴリに基づいて、該物体に関する指示を生成する
     情報処理システム。
  2.  請求項1に記載の情報処理システムにおいて、
     前記制御部は、前記認識処理により物体の状態を推定可能であり、前記認識処理において該物体の推定に失敗した場合、推定された前記物体の状態に基づいて、前記物体に関する指示を生成する
     情報処理システム。
  3.  請求項2に記載の情報処理システムにおいて、
     前記物体の状態は、前記画像における該物体の向きを含む
     情報処理システム。
  4.  請求項3の記載の情報処理システムにおいて、
     前記物体に関する指示は、推定された前記物体の向きを基準とした、姿勢の変更を示唆する
     情報処理システム。
  5.  請求項1から4のいずれか1項に記載の情報処理システムにおいて、
     前記物体に関する指示は、前記カテゴリに対応する特定の向きへの、姿勢の変更を示唆する
     情報処理システム。
  6.  請求項1から5のいずれか1項に記載の情報処理システムにおいて、
     前記制御部は、前記画像に対する前記認識処理により、前記画像に含まれる複数の物体別に物体および該物体のカテゴリを推定可能である
     情報処理システム。
  7.  請求項1から6のいずれか1項に記載の情報処理システムにおいて、
     前記制御部は、
     前記撮像部が生成した画像に基づき該画像の特徴点を推定する特徴点推定部と、前記特徴点推定部が推定した特徴点に基づき該画像に含まれる物体の境界枠を推定する境界推定部と、前記特徴点推定部が推定する特徴点に基づき前記境界枠内の物体のカテゴリを推定するカテゴリ推定部と、前記特徴点推定部が推定する特徴点に基づき前記境界枠内の物体の状態を推定する状態推定部と、前記特徴点推定部が推定する特徴点に基づき前記境界枠内の物体を推定する物体推定部として機能する
     情報処理システム。
  8.  請求項7に記載の情報処理システムにおいて、
     前記特徴点推定部は、前記撮像部が生成した画像に対する、該画像に含まれる物体を囲繞する境界枠、該物体のカテゴリ、該物体の状態、および該物体の名称に基づいて学習されている
     情報処理システム。
  9.  撮像部から画像を取得する取得部と、
     前記画像に基づいて、該画像に含まれる物体の推定を行う制御部と、を備え、
     前記制御部は、
     前記画像に対する認識処理により、該画像内の物体および該物体のカテゴリを推定可能であり、
     前記認識処理において該物体の推定に失敗した場合、推定された前記物体のカテゴリに基づいて、該物体に関する指示を生成する
     情報処理装置。
  10.  撮像部に撮像による画像を生成させ、
     前記画像内の物体および該物体のカテゴリを推定可能な認識処理において、該物体の推定に失敗した場合、推定された前記物体のカテゴリに基づいて、該物体に関する指示を生成する
     情報処理方法。
     
PCT/JP2021/021093 2020-06-18 2021-06-02 情報処理システム、情報処理装置、および情報処理方法 Ceased WO2021256268A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202180042894.9A CN115720665A (zh) 2020-06-18 2021-06-02 信息处理系统、信息处理装置以及信息处理方法
US18/002,249 US20230177931A1 (en) 2020-06-18 2021-06-02 Information processing system, information processing device, and information processing method
EP21825287.2A EP4170617A4 (en) 2020-06-18 2021-06-02 INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-105633 2020-06-18
JP2020105633A JP7360997B2 (ja) 2020-06-18 2020-06-18 情報処理システム、情報処理装置、および情報処理方法

Publications (1)

Publication Number Publication Date
WO2021256268A1 true WO2021256268A1 (ja) 2021-12-23

Family

ID=79195766

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/021093 Ceased WO2021256268A1 (ja) 2020-06-18 2021-06-02 情報処理システム、情報処理装置、および情報処理方法

Country Status (5)

Country Link
US (1) US20230177931A1 (ja)
EP (1) EP4170617A4 (ja)
JP (2) JP7360997B2 (ja)
CN (1) CN115720665A (ja)
WO (1) WO2021256268A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2026059338A (ja) 2024-09-26 2026-04-07 富士通株式会社 情報処理プログラム,情報処理装置,及び情報処理システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256496A (ja) * 2000-03-13 2001-09-21 Toshiba Corp 顔画像認識装置及び顔画像認識方法
JP2009205504A (ja) * 2008-02-28 2009-09-10 Nec Software Kyushu Ltd 案内システム、サーバシステム、案内方法及びプログラム
JP2011165139A (ja) * 2010-02-15 2011-08-25 Toshiba Tec Corp コードシンボル読取装置及び制御プログラム
JP2018097883A (ja) 2018-01-09 2018-06-21 カシオ計算機株式会社 情報表示装置および誘導表示方法
WO2019106900A1 (ja) * 2017-12-01 2019-06-06 日本電気株式会社 処理システム、処理方法及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1202214A3 (en) * 2000-10-31 2005-02-23 Matsushita Electric Industrial Co., Ltd. Method and apparatus for object recognition
JP2004127013A (ja) * 2002-10-03 2004-04-22 Matsushita Electric Ind Co Ltd 販売時点情報管理装置
JP5437404B2 (ja) * 2012-01-16 2014-03-12 東芝テック株式会社 情報処理装置、店舗システム及びプログラム
US8687104B2 (en) * 2012-03-27 2014-04-01 Amazon Technologies, Inc. User-guided object identification
US8988556B1 (en) * 2012-06-15 2015-03-24 Amazon Technologies, Inc. Orientation-assisted object recognition
JP2015099549A (ja) * 2013-11-20 2015-05-28 東芝テック株式会社 商品認識装置及び商品認識プログラム
JP6220679B2 (ja) * 2014-01-08 2017-10-25 東芝テック株式会社 情報処理装置、店舗システム及びプログラム
JP6193897B2 (ja) * 2015-01-05 2017-09-06 東芝テック株式会社 情報処理装置、店舗システム及びプログラム
US10270965B2 (en) * 2015-12-04 2019-04-23 Ebay Inc. Automatic guided capturing and presentation of images
US9818038B2 (en) * 2016-01-06 2017-11-14 Toshiba Tec Kabushiki Kaisha Image recognition apparatus
JP7060230B2 (ja) * 2016-01-21 2022-04-26 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
JP6896401B2 (ja) * 2016-11-25 2021-06-30 東芝テック株式会社 物品認識装置
JP6412911B2 (ja) * 2016-12-05 2018-10-24 東芝テック株式会社 情報処理装置及びプログラム
EP3557861A4 (en) * 2017-01-31 2019-12-25 NTT DoCoMo, Inc. INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
CN110555356A (zh) * 2018-06-01 2019-12-10 财团法人工业技术研究院 自助结帐系统、方法与装置
WO2021192225A1 (ja) * 2020-03-27 2021-09-30 日本電気株式会社 教師データ変換装置、教師データ変換方法、及び、非一時的な記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256496A (ja) * 2000-03-13 2001-09-21 Toshiba Corp 顔画像認識装置及び顔画像認識方法
JP2009205504A (ja) * 2008-02-28 2009-09-10 Nec Software Kyushu Ltd 案内システム、サーバシステム、案内方法及びプログラム
JP2011165139A (ja) * 2010-02-15 2011-08-25 Toshiba Tec Corp コードシンボル読取装置及び制御プログラム
WO2019106900A1 (ja) * 2017-12-01 2019-06-06 日本電気株式会社 処理システム、処理方法及びプログラム
JP2018097883A (ja) 2018-01-09 2018-06-21 カシオ計算機株式会社 情報表示装置および誘導表示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4170617A4

Also Published As

Publication number Publication date
EP4170617A1 (en) 2023-04-26
JP2021197106A (ja) 2021-12-27
JP2023171458A (ja) 2023-12-01
JP7360997B2 (ja) 2023-10-13
EP4170617A4 (en) 2024-05-15
US20230177931A1 (en) 2023-06-08
CN115720665A (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
US10600043B2 (en) Automated checkout system through mobile shopping units
US12524890B2 (en) System and method for detecting a trigger event for identification of an item
US12524460B2 (en) System and method for selecting an item from a plurality of identified items based on a similarity value
US12536674B2 (en) System and method for identifying unmoved items on a platform during item identification
US12579665B2 (en) System and method for identifying moved items on a platform during item identification
US12586220B2 (en) System and method for camera re-calibration based on an updated homography
US12579783B2 (en) System and method for selecting an item from a plurality of identified items by filtering out back images of the items
US12579666B2 (en) System and method for search space reduction for identifying an item
US20240029390A1 (en) System and method for identifying an item based on an amount of image information in an image of the item
CN117203677A (zh) 使用计算机视觉的物品识别系统
US12536683B2 (en) System and method for confirming the identity of an item based on item height
JP2019526848A (ja) 畳み込みニューラルネットワーク画像認識技術による会計方法及び設備
US12567159B2 (en) System and method for identifying an item based on interaction history of a user
US12602938B2 (en) System and method for item identification using container-based classification
EP3293685A1 (en) Information processing apparatus that identifies an item based on a captured image thereof
CN111985517A (zh) 信息处理装置、物品识别装置及物品识别系统
JP2023171458A (ja) 情報処理システム、情報処理装置、および情報処理方法
JP2021103349A (ja) 情報処理システム、情報処理装置及び情報処理方法
WO2021256267A1 (ja) 情報処理システム、情報処理装置、及び、情報処理方法
JP2024081061A (ja) 情報処理装置及び情報処理方法
US20250299174A1 (en) Point of sale item prediction and validation
US20250037293A1 (en) Image analysis system, image analysis method, and non-transitory computer-readable medium
US12620228B2 (en) System and method for space search reduction in identifying items from images via item height
US20260127752A1 (en) System and method for search space reduction for identifying an item
US20240020978A1 (en) System and method for space search reduction in identifying items from images via item height

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21825287

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021825287

Country of ref document: EP

Effective date: 20230118

WWW Wipo information: withdrawn in national office

Ref document number: 2021825287

Country of ref document: EP