Pattern recognition

Japanese: パターン認識 - ぱたーんにんしき(英語表記)pattern recognition
Pattern recognition

It is the act of looking at pattern information such as characters, figures, images, and sounds, which are visual and auditory stimulus signals from the real world, and associating and identifying it with known characters, geometric figures, objects in a landscape, phonemes, etc. Examples include character recognition, which receives handwritten or printed characters and identifies what characters they are, and speech recognition, which listens to spoken voices and identifies what words are being spoken. More generally, pattern recognition is the operation of associating received pattern information with the (known) category to which it should belong based on given criteria.

Biological, physiological and psychological experiments are being conducted on the pattern recognition mechanisms of living organisms. The functions, roles and characteristics of nerve cells involved in the five senses of vision, hearing, touch, taste and smell are gradually being elucidated. In addition to sensors that mimic the mechanisms of vision and hearing, sensors that are modeled on the mechanisms of taste and smell have also been developed. However, there are still many points that remain unexplained, and no guiding theory that covers the entire recognition mechanism has yet been established.

In engineering, the main goal is to develop methods for implementing recognition functions using computers and other devices. Research is being conducted into the development of algorithms suited to the functions and configurations of existing computers, computer configuration methods suited to pattern recognition, and even specialized equipment incorporating simplified pattern recognition mechanisms. Computers are extremely powerful in areas such as numerical calculations, but it is difficult for them to imitate the pattern recognition that humans easily achieve through their five senses. Humans have excellent pattern recognition abilities, but this is one of the most difficult processes for computers.

[Shunichi Kato and Akio Munegami]

history

Engineering research into pattern recognition began in the 1950s, when computers first began to be used, and basic attempts were made to develop character readers and voice typewriters. The automatic reading of handwritten zip codes in Japan and voice recognition of numbers in the United States were among the earliest technologies to be put into practical use. Various types of optical character readers (OCR) began to be put into practical use in the 1970s, and the objects to be recognized expanded from printed characters to handwritten characters, and from numbers, alphabets, and katakana to kanji.

In the 1970s, more complex subjects such as the processing and recognition of general images such as photographs, and continuous speech recognition began to be studied. In applications to land information processing, remote sensing of Landsat images and aerial photographs was used to analyze land use, and in the military, technologies such as target shape recognition and automatic tracking were put to practical use.

In the 1980s, applications of vision to the recognition of the three-dimensional world became more common, and progress was made with the practical application of visually-enabled robots. Furthermore, the content of recognition is no longer limited to the classification and identification of pattern information; research is also thriving on pattern structure analysis and artificial intelligence-based pattern understanding.

Since the 1990s, research has been conducted on mechanisms that make criteria flexible based on the interests, concerns, and preferences of each individual user, as well as on the context of the user's intentions at the time, rather than on category classification based on fixed, unambiguous criteria. Research from this perspective is also called sensitivity information processing, and has become popular not only in the field of information processing, but also in fields such as product planning and design.

[Shunichi Kato and Akio Munegami]

Basic principles and technical challenges

Looking at the process of engineering pattern recognition in some detail, it can be divided into four steps: "observation (input) of target pattern → preprocessing → feature extraction → judgment." In actual pattern recognition, it is unlikely that an observed pattern will be exactly the same as a known pattern or standard (called a sample pattern). For example, when inputting using an observation device (an image input device such as a camera, or an audio input device such as a microphone), noise (instrumental noise) is superimposed during observation. Noise is also superimposed on the pattern to be observed, such as stains on paper on which characters have been written, or environmental noise around the microphone. For these reasons, preprocessing such as noise removal is required to make it easier to extract essential information from the observed pattern.

Generally, when patterns such as characters and voices are represented inside a computer, the amount of data becomes very large. In this case, instead of treating the pattern as it is, it is processed by substituting a relatively small number of numbers or a set of symbols that express the unique properties of the pattern. These are called feature parameters. Feature parameters differ depending on the object and purpose of recognition. For example, when identifying what word a certain word spoken by person A is (word recognition to distinguish it from other words), and when identifying who spoke it (speaker recognition to distinguish the voice of person B, person C, etc.), the feature parameters to be extracted are defined by focusing on the frequency and strength of vowels in the former case, and on the voice waveform in the latter case. How to define feature parameters according to the object and purpose is an important research topic in pattern recognition. Based on the feature parameters, the input pattern is judged to which category it belongs by comparing it with known standards. In pattern recognition judgment, it is difficult to select the feature parameters mentioned above, and the method of giving the judgment criteria and the judgment algorithm are complicated, so that even humans may not be able to clearly understand the judgment criteria. For example, humans can judge whether a well-written "a" is "a" or a poorly-written "a," but it is difficult to show this as a clear standard for judgment. Realizing a mechanism for advanced judgment that goes beyond simple numerical comparison is also an important challenge for realizing pattern recognition functions.

Pattern understanding is a technology that has developed from this type of pattern recognition. A feature of pattern understanding mechanisms is that they have the ability to automatically or semi-automatically learn criteria for judging a group of subjects by statistically analyzing various characteristics of the group.

[Shunichi Kato and Akio Munegami]

Application Areas

There are many different types of patterns, and the range of applications of pattern recognition is also wide. Patterns that are linked to our five senses based on direct stimuli from the real physical world include spatial patterns such as characters, figures, and images, and temporal patterns such as audio and video. In addition, abstract patterns include traffic patterns and economic trend patterns obtained from various measurement data.

In the field of engineering, applications include: (1) voice patterns, (2) two-dimensional patterns such as characters, figures, and photographs, (3) three-dimensional object arrangements, (4) multi-band image patterns such as Landsat images, and (5) pattern measurement of traffic conditions and temperature distribution. In recent years, research has also progressed into recognition technology for (6) personal authentication (biometrics). Some examples of applications are introduced below.

[Shunichi Kato and Akio Munegami]

Speech Recognition

Applications of pattern recognition to speech include speech recognition and speaker recognition. Speech recognition is the automatic extraction of the meaning of words from speech signals. Research is being conducted on word speech recognition, where speech is pronounced word by word, and continuous speech recognition, where speech is spoken naturally. Word speech recognition is used to control machines in factories and in telephone question-answering systems. Recently, technology has also been developed to estimate a speaker's psychological state by analyzing the placement of stress (accent) in continuous speech and the characteristics of changes in speech over time.

[Shunichi Kato and Akio Munegami]

Character Recognition

With the spread of word processors and personal computers, the number of documents that are primarily written in character code and can be processed by computers (machine readable) is increasing. However, there is still a great demand for computer processing of characters printed on paper or written notes.

The automatic reading of handwritten postal codes was one of the earliest technologies to be put to practical use, but it was successful because it only allowed 10 numbers within a set frame. Since then, research and commercialization of character reading devices has progressed, and it has become possible to recognize printed kanji characters and handwritten characters with a practical level of accuracy.

[Shunichi Kato and Akio Munegami]

Remote Sensing and Pattern Measurement

In image analysis in remote sensing, for example, an image area of ​​land with known properties is given as a typical example to be searched, and areas with similar properties (characteristic parameters such as infrared reflectance) are automatically searched for. Recognition technology is also used in counting blood cells by shape recognition in microscope images, and temperature control of equipment such as blast furnaces by temperature distribution patterns.

[Shunichi Kato and Akio Munegami]

Image Understanding

With the dramatic improvement in computer processing power, electrical circuit diagrams, mechanical drawings, plant diagrams, maps, and other items that contain a variety of symbol shapes and sizes have become targets for pattern recognition. For example, by performing pattern recognition on hand-drawn electrical circuit diagrams, the computer can manage the connections of elements and parts and the number of parts used. It is also possible to input the recognition results into a theoretical simulator that checks whether the designed circuit is valid, or to output a clean copy of the hand-drawn drawing.

There is active research into identifying not only two-dimensional images, but also the shapes and arrangements of machine parts and tools in three-dimensional space. It is possible to find parts of known objects in scenes input from television cameras, etc., and understand the relative positions of objects from their occlusion relationships. Such technology is the basis for robots to automatically recognize and control their surroundings, and is essential for making industrial robots more advanced.

[Shunichi Kato and Akio Munegami]

Biometrics

In recent years, new methods of personal authentication using an individual's biological characteristics (biometrics), which are difficult for others to steal, have been put to practical use. For example, speaker recognition identifies an individual by using information unique to that individual contained in a voice signal. Handwriting recognition identifies an individual by detecting the characteristics of writing habits that appear in handwritten characters such as signatures. In addition, there are also cases where body features such as fingerprints, palm patterns, palm veins, and irises are used.

Relationship with artificial intelligence technology

As mentioned in the basic principles, the process of pattern recognition is to classify an input pattern into one of several categories prepared in advance. The classification criteria and feature extraction mechanisms here are fixed, and mainly target only the pattern signal or feature parameters at a level close to the signal. Therefore, the patterns that can actually be recognized are often very limited, and it is not possible to deal with cases where the pattern fluctuates greatly or the judgment criteria are complex. For this reason, the concept of pattern understanding has been proposed, which can correct and build a description framework (model) of the target pattern according to the progress of the processing by learning and adaptation functions based on the results, as opposed to the fixed processing flow of "observation of the target pattern → preprocessing → feature extraction → judgment" in pattern recognition. The aim is to make it possible to use not only the input signal of the pattern, but also the structure and semantic information of the target pattern obtained from it.

In the narrow sense of artificial intelligence (AI) research, the main focus is on the semantic representation and knowledge representation of patterns. Therefore, pattern understanding is positioned as bridging the gap between the input and processing of actual signals and the knowledge, semantic representation, and utilization in AI.

[Shunichi Kato and Akio Munegami]

"Information Fundamentals - Fundamental Engineering of Communication and Processing" by Toshiyuki Sakai (1982, Corona Publishing)

[References] | Speech recognition devices | Artificial intelligence | Bioengineering | Remote sensing
Pattern Recognition Tree
Note: The matching scale is a measure of how closely the sample matches the model .

Pattern Recognition Tree


Source: Shogakukan Encyclopedia Nipponica About Encyclopedia Nipponica Information | Legend

Japanese:

現実の世界からの視覚的・聴覚的な刺激信号である文字、図形、映像、音声などのパターン情報を見て、これを既知の文字、幾何学的図形、風景中の事物、音韻などと対応づけ、識別すること。たとえば、手書きや印刷された文字を受けてこれがなんという文字であるかを識別する文字認識や、話声を聞いてなんという単語が発声されたかを識別する音声認識などがある。より一般的には、受け付けたパターン情報を、与えられた判定基準に基づいて、それが本来属すべき(既知の)カテゴリーに対応づける操作のことをパターン認識という。

 生体のパターン認識機構については、生物学、生理学、心理学的実験などが行われている。視覚、聴覚、触覚、味覚、嗅覚の五感にかかわる神経細胞の機能や役割、その特性が解明されつつある。視覚、聴覚の仕組みを模したセンサーに加えて、味覚、嗅覚の仕組みに学んだセンサーも開発されるようになった。しかし現状ではいまだ解明されていない点も多く、認識機構全体にわたる指導的理論の確立はみられない。

 工学的には、コンピュータなどによる認識機能の実現方法の開発が主要な目標である。既存のコンピュータの機能、構成に適したアルゴリズムの開発や、パターン認識に適したコンピュータの構成法、さらにはパターン認識の仕組みを簡略化して組み込んだ専用機器なども研究されている。コンピュータは数値計算などには非常な威力を発揮するが、人間が五感を通して容易に実現するパターン認識をまねることはむずかしい。人間のパターン認識の能力はきわめて優れているが、コンピュータにとってはもっとも苦手な処理の一つである。

[加藤俊一・棟上昭男]

歴史

工学的なパターン認識の研究は、コンピュータが使われだした1950年代から始められ、文字読取り装置や音声タイプライターの基礎的な試みがなされた。日本での手書き数字の郵便番号自動読取りや、アメリカでの数字音声認識装置はもっとも早く実用化した技術の一つである。各種の文字読取り装置(OCR)は1970年代に入って実用化が進み、認識対象も印刷文字から手書き文字へ、数字、アルファベット、片仮名から漢字へと広がった。

 1970年代に入り、より複雑な対象として写真などの一般の画像の処理と認識、連続音声の認識の問題が研究されるようになった。国土情報処理への応用では、ランドサット画像や航空写真でのリモートセンシングによる土地利用状況の解析、軍事面では標的の形状認識や自動追尾などの技術も実用化された。

 1980年代には三次元の世界の認識への応用も活発になり、視覚機能をもったロボットの実用化も進んできた。また、認識の内容もパターン情報の分類、識別にとどまらず、パターンの構造解析や人工知能的色彩の強いパターン理解の研究も盛んである。

 1990年代以降は、固定的、一義的な判定基準に基づくカテゴリー分類ではなく、利用者ひとりひとりの興味、関心、嗜好(しこう)や、そのときどきの意図などの文脈に基づいて判定基準を柔軟にする仕組みも研究されるようになった。このような観点からの研究は、感性情報処理ともよばれ、情報処理分野のみならず、商品企画、製品設計などの分野でも盛んになってきている。

[加藤俊一・棟上昭男]

基本原理と技術的課題

工学的なパターン認識の過程をやや詳しくみると、「対象パターンの観測(入力)→前処理→特徴抽出→判定」の四つのステップに分けられる。実際のパターン認識では、既知のパターンや基準(標本パターンとよぶ)とまったく同じものが観測されるとは考えにくい。たとえば、観測装置(カメラなどの画像入力装置、マイクロホンなどの音声入力装置)で入力する場合、観測時に雑音(機器ノイズ)が重畳する。また、文字を記入した用紙上の汚れや、マイクロホンの周囲の環境雑音など、観測すべきパターンにも雑音が重畳している。このような理由から、観測されたパターンから本質的な情報を抽出しやすくするために、雑音除去などの前処理が必要とされる。

 一般に、文字や音声などのパターンをコンピュータ内部で表現すると、そのデータ量は非常に大きくなる。この場合、パターンをそのまま扱うかわりに、そのパターン特有の性質を表現する比較的少数の数値や記号の組で代用して処理する。これを特徴パラメーターとよぶ。特徴パラメーターは、認識する対象や目的によって異なる。たとえば、Aさんが発声したある単語に対して、それがなんという単語であるかを識別する場合(別の単語と区別する単語認識)と、だれが発声したかを識別する場合(Bさんの声、Cさんの声などと区別する話者認識)では、抽出する特徴パラメーターは、前者は母音の周波数と強さ、後者は音声波形に注目して定義される。対象や目的に応じてどのように特徴パラメーターを定義するかは、パターン認識の重要な研究課題である。特徴パラメーターに基づいて入力パターンがどのカテゴリーに属するか、既知の基準と比較して判定する。パターン認識における判定では、前述の特徴パラメーターの選択がむずかしいうえに、判定基準の与え方や判定のアルゴリズムが複雑で、人間にすら判定基準が明確にいえない場合がある。たとえば、人間は、上手に書いた「あ」も下手に書いた「あ」もともに「あ」と判定できるが、これを明確な判定基準として示すことはむずかしい。単純な数値の比較だけではない高度な判定のメカニズムの実現も、パターン認識機能実現のための重要な課題である。

 このようなパターン認識を発展させた技術として、パターン理解pattern understandingがある。パターン理解の仕組みでは、対象群の種々の特徴を統計的に分析するなどして、対象群にあわせて判定する基準を自動的あるいは半自動的に学習する機能をもつ点が特徴である。

[加藤俊一・棟上昭男]

応用分野

パターンにはいろいろな種類があり、パターン認識の応用範囲も広い。現実の物理的な世界からの直接的な刺激に基づくわれわれの五感に結び付いたパターンとして、文字、図形、映像などの空間的なパターンや、音声、動画のような時間的なパターンなどがある。また、抽象的なパターンとして、各種の測定データから求められる交通状態のパターン、経済動向パターンなどが考えられる。

 工学分野では、(1)音声パターン、(2)文字、図形、写真などの二次元パターン、(3)三次元での物体の配置、(4)ランドサット画像のようなマルチバンドの画像パターン、(5)交通状態や温度分布などを対象とするパターン計測などの分野への応用がみられる。また、近年では、(6)個人認証(バイオメトリクスbiometrics)のための認識技術の研究も進んでいる。応用例のいくつかを次に紹介する。

[加藤俊一・棟上昭男]

音声認識

音声へのパターン認識の応用としては、音声認識と話者認識がある。音声認識は、音声信号のなかからことばの意味内容を自動的に抽出することである。単語単位にくぎって発音する場合の単語音声認識、自然な状態で話した場合の連続音声認識などが研究されている。単語音声認識は工場などでの機械の制御や、電話での質問応答システムに利用されている。また、最近では、連続音声中のストレス(アクセント)の置き方や発話の時間変化の特徴を分析して、話者の心理状態を推定する技術も開発されてきた。

[加藤俊一・棟上昭男]

文字認識

ワードプロセッサーやパーソナルコンピュータの普及により、始めからコンピュータ処理できる(機械可読)文字コード主体の文書が増えてきている。しかしながら、紙の上に印刷あるいはメモ書きされた文字を、コンピュータ処理したいという需要も依然多い。

 手書き数字の郵便番号自動読取りは、もっとも早く実用化された技術の一つであるが、これは、定められた枠内に10種の数字だけを許すことで成功したといえる。その後、文字読取り装置の研究、実用化が進み、印刷された漢字や手書き文字なども、実用的な精度で認識ができるようになってきている。

[加藤俊一・棟上昭男]

リモート・センシングとパターン計測

リモート・センシングにおける画像解析では、たとえば既知の性質の土地の画像領域を探索すべき典型的な実例として与え、これと同様の性質(赤外線反射率などの特徴パラメーター)をもつ領域を自動的に捜し出すなどの処理形態が多い。顕微鏡画像での形状認識による血球の計数や、溶鉱炉などの装置の温度分布パターンによる温度管理などにも、認識技術が利用されている。

[加藤俊一・棟上昭男]

画像理解

コンピュータの処理能力の飛躍的な向上により、出現する記号の形状やサイズの多様な電気回路図、機械製図、プラント図、地図などがパターン認識可能な対象となってきた。たとえば、手書きの電気回路図をパターン認識すると、素子、部品の接続関係や何個使用されているかをコンピュータで管理できる。また、認識結果を、設計された回路が妥当かを検査する理論シミュレーターの入力としたり、手書きの図面を清書して出力することも可能となる。

 二次元の画像だけでなく、三次元空間での機械部品や工具の形状、配置を識別する研究も盛んである。テレビカメラなどから入力された風景のなかから、既知の物体の一部を発見し、それらの遮蔽(しゃへい)関係から物体相互の位置関係を理解する。このような技術は、ロボットがその周囲の状況を自動的に認識し制御するための基礎となり、産業用ロボットをより高度化するために不可欠である。

[加藤俊一・棟上昭男]

バイオメトリクス

近年、個人認証の新しい方法として、他人が盗むことの難しい、本人の生体的な特徴を用いる手法(バイオメトリクス)が実用化されてきている。たとえば、話者認識は、音声信号に含まれる本人特有の情報を利用して個人識別を行うものである。筆跡認識は、署名などの手書き文字に現れる書き癖の特徴を検出して個人識別を行うものである。このほか、指紋、掌紋(しょうもん)、手のひらの静脈、虹彩などの身体そのものを利用する場合もある。

人工知能技術との関係

基本原理で述べたように、パターン認識の過程は、入力されたパターンを、事前に用意したいくつかのカテゴリーのいずれかに分類することである。ここでの分類の基準や特徴抽出の機構は固定的で、パターンの信号や、信号に近いレベルでの特徴パラメーターのみをおもに対象としていた。したがって、実際に認識できるパターンはきわめて限定されることが多く、パターンの変動が大きい場合や判定基準が複雑な場合には対処できない。このような理由から、パターン認識での「対象パターンの観測→前処理→特徴抽出→判定」の固定的な処理の流れに対して、学習やその結果に基づく適応化機能により、処理の進みぐあいに応じて対象パターンの記述の枠組み(モデル)を修正、構築できるパターン理解の概念が提唱された。パターンの入力信号だけでなく、それから得られる対象パターンの構造や意味的な情報も、利用可能にしようとするものである。

 狭義の人工知能(AI)研究は、おもにパターンの意味表現や知識表現を対象としている。したがって、パターン理解は、実際の信号レベルの入力、処理と、人工知能における知識や意味表現と利用の間を埋めるものと位置づけられる。

[加藤俊一・棟上昭男]

『坂井利之著『情報基礎学――通信と処理の基礎工学』(1982・コロナ社)』

[参照項目] | 音声認識装置 | 人工知能 | 生体工学 | リモート・センシング
パターン認識の系統図
注:マッチング尺度は、手本とどれくらい合っているかを表す尺度©Shogakukan">

パターン認識の系統図


出典 小学館 日本大百科全書(ニッポニカ)日本大百科全書(ニッポニカ)について 情報 | 凡例

<<:  Bataan Peninsula - Bataan Peninsula (English spelling)

>>:  Patanjali - Patanjali (English spelling)

Recommend

Lens orientalis (English spelling)

… [Mitsuru Hotta]... *Some of the terminology tha...

Okuetsu

...In the age of high-speed transportation, its i...

chroma

...The brightness of an object's color is spe...

50 sounds - Gojuonzu

A chart showing 50 kana characters arranged verti...

Differential form

A differential form is nothing other than a genera...

Paiṇṇa (English spelling) Painna

The 12 Aṅgas were compiled from the memories of t...

Permit Principle - Kyokashugi

...Public interest corporations require permissio...

Scale insects - Scale insects

A general term for insects belonging to the superf...

Clark cell

… E = 1.01864 - 4.06 x 10 -5 ( t - 20) - 9.5 x 10...

Ashrama (English spelling)

In Sanskrit, it means a period of life. In ancient...

Athos (English spelling)

The name refers to the Aktí Peninsula, the most no...

Saburo Hasegawa

Western-style painter. Born in Chofu, Yamaguchi P...

European oyster

...European oyster Ostrea edulis (English name: E...

Kusa Senri

Grassland in Mt. Aso, Kumamoto Prefecture. Also kn...

Cawdrey, R.

… Throughout the 16th century, English borrowed f...