Hearing is basically the sensory function of sensing sound through vibrations (compression waves) that travel through the air. Therefore, the physical stimulus given when the hearing phenomenon occurs is a compression wave that travels through the air, that is, a sound wave. The sensory organ that functions to convert sound waves into nerve signals is the hearing organ, commonly known as the ear. [The Establishment and Role of Hearing] In the terrestrial environment, living organisms are surrounded by elastic media such as water and air. This is the environment that existed when the ancestors of mammals lived in water. In this environment, vibrations (mutations) occurring at a single point also deform the surrounding medium and propagate to the surrounding area as compressional waves. By sensing these propagating vibrations, organisms can detect changes in their surroundings and obtain information for adaptive behavior. It is believed that the prototype of hearing first developed as such a vibration detector, and even after organisms moved onto land, the organs used to detect compressional waves traveling through the water evolved to adapt to detect compressional waves traveling through the atmosphere, which is the perceptual modality that is considered to be human hearing. [Auditory stimulus] When we have an auditory impression, sound waves must be reaching the sense of hearing. These sound waves are generated by some kind of deformation of an object in the outside world. In other words, the mere presence of an object does not create an auditory stimulus; an auditory stimulus occurs when an event occurs. This contrasts with visual stimuli, where a stimulating effect can be created by the mere presence of an object, even if no event occurs. The frequency response characteristics of materials and cavities involved in the propagation process result in differences in the efficiency of propagation according to frequency, and the effectiveness of the vibrations transmitted to the auditory organs differs. Sound waves in a frequency range with a significantly low efficiency do not become auditory stimuli. The frequency range that is effective as an auditory stimulus is the audible range, which is estimated to be approximately 20Hz to 20kHz for humans. Auditory stimuli are often categorized according to their physical properties. Periodic sounds, non-periodic sounds, and transient sounds are often used. Periodic sounds are sounds that have a clear repetition in the time waveform, and the power spectrum obtained by the Fourier transform of this sound has a harmonic structure consisting of components with a fundamental frequency and its integer multiples (harmonic components). A sound that is composed only of sine components with this harmonic structure is called a harmonic complex sound, while a sound that is composed of a sine wave of a single frequency is called a pure tone. Furthermore, a complex sound that is composed of sine components that are not in a harmonic relationship is called a non-harmonic complex sound. The term overtones is sometimes used for components that are not integer multiples of the fundamental frequency. When the duration of existence as a sound stimulus is limited, it is called a transient sound. Naturally, a transient sound is not a periodic sound, but can be considered as one of the non-periodic sounds. However, there are cases where a non-periodic sound is not considered to be transient. For example, a pulse, which is a transient sound, contains all frequency components in equal proportions, but white noise, which has the same amplitude spectrum, is not a transient sound. There is a difference in the phase spectrum between a pulse and white noise; the former is said to have a cosine phase and the latter to have a random phase. [Perceptual Dimension] When changes in psychological quantities occur systematically in response to physical changes in auditory stimuli, these changes in sensory quantities form a perceptual dimension. The first dimension that has been considered and investigated is loudness, or the dimension of sound volume. Loudness ( L ) is basically considered a psychological quantity that changes in response to the intensity of an auditory stimulus. Intensity ( I ) is the product of sound pressure ( P ) and particle velocity ( v ), and particle velocity is calculated by dividing sound pressure by the product of air density (ρ) and the speed of sound ( c ): If density and sound speed are considered to be approximately constant, intensity is proportional to the square of the sound pressure. The dynamic range of appropriate intensity for auditory stimulation is very wide, approximately 10 -12 W/m 2 to 10 3 W/m 2 when expressed in energy (unit W/m 2 : watts per square meter). Therefore, it is customary to use the intensity level or sound pressure level when describing the presentation level of auditory stimulation. Intensity level is , the sound pressure level is The unit is dB. Here, I 0 and P 0 are the reference intensity and reference sound pressure, which are 10 -12 W/m 2 and 20 μPa (Pa: Pascal, the unit of pressure). Strictly speaking, intensity level and sound pressure level are different, but in practice there is not a large difference between the two values, so either intensity level or sound pressure level can be used to describe the presentation level of auditory stimuli. In actual physical measurements, most transducers (microphones) measure sound pressure, so sound pressure level is used overwhelmingly more often. When associating loudness with intensity, it is necessary to take into account the frequency transfer characteristics of the outer and middle ears, and the nonlinear characteristics of the basilar membrane vibration and auditory nerve firing in the inner ear. The former is the main reason why the efficiency of transmitting vibration to the inner ear varies depending on the frequency (the number of times per second when the sound pressure fluctuates periodically) even when a pure tone signal of the same physical intensity is given. The latter is the background to the fact that doubling the intensity does not double the loudness, and that the relationship L = kI 0.3 (where k is a proportionality constant) is approximately established, as known as Stevens' power law. This frequency dependence and nonlinearity of loudness are expressed in the equal loudness curves shown in Figure 1. The equal loudness curves are obtained by presenting a 1000Hz pure tone at each sound pressure level and matching the sound pressure level of the pure tone at each frequency so that the loudness is subjectively equal to that of the 1000Hz pure tone. For example, when the loudness of a 1000Hz, 40dB pure tone is equivalent, each sound is expressed as having a loudness level of 40 phon. The fact that this equal loudness curve is not flat on the frequency axis can be roughly explained by the frequency transfer characteristics of the outer ear and middle ear. In addition, the valley of the curve tends to become shallower as the loudness level increases, reflecting the nonlinear response of the auditory system. The loudness level expressed in units of phon is not a measure of the amount of sensation. In other words, an increase of 10 phon does not mean an increase in loudness equivalent to 10dB (10 times). Within the range where Stevens' power law applies, an increase in intensity of 10dB is approximately twice the increase in loudness. The unit of this loudness sensory scale is sone. The relationship between loudness level and sone value is shown in Figure 2 (the unit of the horizontal axis is dB SL, but this is the loudness level value with the absolute threshold for each listener set to 0dB). The symbol marks in Figure 2 represent data from various research studies. Along with loudness, pitch, or the dimension of the height of a sound, has a long history of research. In the case of pure tones, pitch can be said to be a perceptual dimension that corresponds to the frequency of a physical signal. However, for complex tones, some reservations are necessary. First, complex tones are composed of multiple frequency components, so there is the question of which of these frequencies the pitch corresponds to. Furthermore, complex tones may or may not have a harmonic structure, and the latter generally have a less clear sense of pitch than the former. Most sounds that exist in nature and have a clear pitch can be considered harmonic complex tones. They are composed of a fundamental frequency and its integer multiple harmonic components, and their pitch is approximately equal to the pitch of a pure tone of the fundamental frequency. According to the place theory, which is one of the theories of hearing, it is predicted that the pitch of a complex tone is determined by the lowest frequency of the components frequency-analyzed by the auditory system. However, it is known that in reality, even when the fundamental frequency component is missing (missing fundamental), the pitch of the complex tone is often perceived to be equal to the pitch of the (missing) fundamental frequency. This was considered to be evidence in favor of the time theory of hearing. For example, when sine wave components of 800Hz, 1000Hz, and 1200Hz are present, only the 4th, 5th, and 6th harmonics of a harmonic complex tone with a fundamental frequency of 200Hz are present, and in that case the perceived pitch corresponds to 200Hz, not 800Hz. According to the idea adopted by most currently reliable hearing models, the basis for such perception is the frequency decomposition in the basilar membrane of the cochlea and the existence of a 5-millisecond (the inverse of 200Hz) periodicity in the signal, which is triggered by the neural signal sending it to the central nervous system showing a time pattern of activity locked to the phase of the basilar membrane vibration. It is known that the clarity of such pitch decreases when the stimulus frequency exceeds 3-4kHz, while physiological experiments using mammals have confirmed that the upper limit of the frequency of phase locking is also around 3-4kHz. [Pitch scale and musical pitch] As with the Son scale for loudness, the Mel scale has been estimated as a sensory scale for pitch, and its correspondence with frequency is shown in Figure 3. There are musical scales for pitch, and musicians are thought to have a sense of pitch intervals such as semitones and whole tones. Semitones and whole tones are in a relationship where the frequency is proportional, and when the frequency is expressed on a logarithmic scale, they have equal widths. However, the musical scale itself was not necessarily created to guarantee a subjectively equal-width pitch movement. Since musicians' sense of intervals may be learned, care was taken not to use musical intervals when constructing the Mel scale. As a result, the Mel scale has a different relationship from the musical scale. If the Mel scale were consistent with the musical scale, Figure 3 would be linear. There is room for debate as to what kind of sensation the Mel scale specifically reflects. For musical pitches, that is, pitches that can play melodies, octave equivalence and even transposability hold. This musical pitch exists only in a part of the audible range (20Hz to 20kHz), approximately 30Hz to 4kHz. Octave equivalence corresponds to a sound with twice the frequency being referred to musically by the same note name. It is difficult to find the basis for the establishment of such a structure in the frequency decomposition of the basilar membrane, and it is thought to be caused by the phase locking of neural activity reflecting periodicity. In terms of periodicity, a sound one octave higher gives a half-cycle, but also has a common periodicity with the base sound. A circulatory structure reflecting such periodicity has been proposed as a double helix structure model of pitch as shown in Figure 4, and it has been confirmed that it also appears in the perceptual space of pitch using multidimensional scaling. In other words, pitch is not a simple one-dimensional perceptual attribute corresponding to the fundamental frequency, but it can be considered to have multidimensionality itself. [Timbre] It doesn't take much thought to realize that the difference between loudness and pitch is not a difference in sound. In our daily lives, we experience sounds that are almost equal in pitch and loudness but clearly different, and we refer to these differences as differences in timbre. The definition of timbre in the ISO (International Organization for Standardization) and JIS (Japan Industrial Standards) is similar, but in reality, reservations are needed when it comes to saying that timbre is a perceptual attribute on a par with loudness and pitch. This is not because the existence of differences in timbre is doubtful, but because the concept referred to as differences in timbre is ambiguous. In fact, pioneering research on timbre has shown that timbre is multidimensional using factor analysis and multidimensional scaling, but it is unclear whether there is a commonality between the estimated dimensions. When an auditory stimulus is given, loudness can be said to correspond to the total amount of excitement for that stimulus, and pitch to correspond to the dominant periodicity, while timbre can only be said to correspond to the auditory spectral pattern. The concept of pattern is by no means a one-dimensional quantity, and therefore treating timbre as a perceptual attribute on the same level as loudness and pitch is conceptually flawed. In this context, it has been suggested that the scale of the resonator is one of the factors that creates differences in spectral patterns. The scale of the resonator, i.e., the dimensions of the cavity, is important in estimating objects in the outside world from auditory information, so it is not surprising that such dimensions exist in addition to loudness and pitch. [Frequency resolution and masking] The function of the auditory organ is to convert vibrations into neural signals. In order to precisely encode the difference in vibration frequency, a mechanism was developed during the evolution of mammals that changes the physical resonance characteristics of the basilar membrane on which the inner hair cells, the receptor cells, sit to respond to different frequencies depending on the location on the basilar membrane. This mechanical frequency analysis function of the basilar membrane, demonstrated by observations by Békésy and G.von, provides sufficient justification for considering the function of the basilar membrane as a set of bandpass filters (filter circuits that pass only frequencies within a specific range). While human cadavers and laboratory animals are used to estimate the characteristics of this filter, various methods have been proposed to estimate the characteristics of living humans through psychophysical experiments, which are known as auditory detection masking experiments. Auditory masking is generally a phenomenon in which the presence of one sound makes it difficult to hear another sound. In masking experiments, a specific target sound is used as a masker, and the detection threshold (masking threshold) is measured in the presence of an interfering sound, i.e., a masker. The starting point of this series of research was the proposal of the rectangular filter model and the concept of the critical band by Fletcher, H. In this model, it was assumed that the mechanical properties of a certain part of the basilar membrane could be modeled as a bandpass filter with an approximately rectangular passband, and that the bandwidth could be estimated from the critical point of the masking effect. For example, when masking a pure tone centered on a certain frequency using band noise, the masking effect should increase as the noise bandwidth is expanded while the bandwidth of the band noise is smaller than the critical band. However, when the noise bandwidth exceeds the critical band, the power of the noise that falls outside the critical band has no effect on masking, so the increase in the masking effect should plateau. The initial masking experiments were conducted based on this logic. However, because the purpose of masking experiments is to estimate the frequency response characteristics at each location on the basilar membrane, different masking experiments have been devised one after another. In the process, the assumption that the frequency response characteristics are rectangular has been critically examined. Experiments that do not assume the shape of the frequency response characteristics from the beginning and instead determine the response characteristics based on experimental results are known as experiments to obtain psychophysical tuning curves. In a typical experiment, a target frequency (i.e., the center frequency of the auditory filter) is determined, and the level of a pure tone masker required to mask a pure tone of that frequency presented at 10 dB above the threshold is examined. The lower the level at which masking occurs, the greater the gain of the filter. The logic is that the frequency response characteristics of the filter at the target center frequency can be estimated by supplementing the levels required for masking obtained at several masker frequencies. There are two main problems with this method. First, when two pure tones with different frequencies are presented simultaneously to mask a pure tone, a beat is heard, and the masking effect cannot be measured purely. Beats are a sensation of temporal fluctuation in the input, and when the stimulus sound has a sense of temporal fluctuation, the listener can determine that a maskee is being presented. The second problem is the possibility of a listening strategy called detuned listening. The experimenter wants to estimate the characteristics of a filter with a center frequency of the pure tone set as the target sound. However, the listener cannot consciously control which filter output of his/her auditory system he/she refers to and answers, and the optimal strategy is to refer to the state of the filter with the highest S/N ratio. At this time, there are many filters with center frequencies of several frequencies around the target frequency in parallel, and in terms of S/N ratio, a filter with a center frequency slightly shifted from the target frequency may have a better S/N ratio. To solve these two problems, the notch noise masking method was devised. In this method, a pure tone of the frequency for which the filter shape is to be estimated is used as a masker, as in the case of obtaining a psychophysical tuning curve. As a masker, noise is presented on both sides to avoid this frequency and to place a notch at that position (Figure 5). This ensures that the filter with the center at this target frequency always has the best S/N ratio, and furthermore, because the masker is noise, it is impossible to detect the masker using the beat as a clue. The power of the masker when it is detected is considered to be proportional to the masker power at the foot of the mountain of the filter in question, so that the basilar membrane filter shape can be estimated from this value. The filter shape estimated by this model is as shown in Figure 6, and is not rectangular as suggested by physiological experiments. Since it is difficult to find a discontinuity that assumes a rectangular filter even in the perception phenomenon, the critical band is currently treated as a concept that refers to the effective bandwidth of a filter. [Auditory scene analysis] The advantage of hearing as a perceptual modality is that its effective range is the second longest after vision. In the case of vision, one point on the retina corresponds to one point in the outside world, and it can be considered a rare case, with the exception of transparent vision, where light rays arriving from two places simultaneously stimulate the same sensory cell. In contrast, in hearing, the atmospheric pressure fluctuations that cause compressional waves are additive, and the effects of sound waves arriving from multiple sound sources are added to one observation point (for example, the eardrum). Although such mixing can also occur in taste, smell, and touch, the effective distance for these is shorter than that of hearing, so it can be assumed that basically one stimulus source is always processed. What we can see from the above is that in order to correctly estimate the surrounding situation through hearing, it is necessary to properly analyze the pressure that is applied through interference into those originating from each sound source. A series of studies centered on the keyword ``auditory scene analysis'' is addressing this issue. A central topic in auditory scene analysis is the phenomenon of auditory stream segregation, which is one of the problems of perceptual organization. When two pure tones with different frequencies are presented alternately, there is a view that this is the most primitive state of melody. In the case of melody, the order of the pitches of the two tones is very important, and we usually perceive a close relationship between the two tones. In other words, the two tones are heard as if they come from the same sound source and are connected as a continuous stream. However, when the pitch distance between the two tones becomes large, the sense of perceptual connection between the two tones becomes weak, and the impression changes to two parallel streams of high and low tones that are intermittent independently of each other. The auditory stream is a concept that refers to the perceptual image that corresponds to one stream at this time. There are two types of auditory stream segregation: primitive segregation and schema-dependent segregation. Primitive segregation is when segregation occurs as a result of a bottom-up process, for example when a listener tries to hear two sounds alternating as a single sound stream, but the difference in pitch between the two sounds is large, resulting in the sound stream naturally being segregated into two sound streams. In contrast, schematic segregation is when a listener tries to pick out one of the sounds and is successful. In the case of primitive segregation, it has been reported that not only the pitch distance between the two sounds but also the speed at which the two sounds alternate is an important factor influencing how segregation occurs. In addition to the simple case of two pure tones, we know that there are several main factors that determine the perceptual organization between multiple component tones. These include harmonicity and synchrony. When describing the physical characteristics of auditory stimuli, one simple puzzlement when encountering the concept of Fourier analysis is that what has been treated as one sound perceptually up until now is actually a sine wave with multiple frequencies. Even if multiple identical frequency components exist, if there is no harmonic structure between them, there is a low tendency to perceive them as one sound. For example, if there is a deviation of about 4% from the harmonic structure, that component will be perceived as a different sound stream from the other sine components. On the other hand, if the synchronization of the sine wave components is shifted by about 30 milliseconds, it will be perceived as coming from a different sound source. Considering a physical vibrating body, there is a natural constraint that multiple sine wave components that follow a harmonic structure appear almost simultaneously from a sound source that vibrates periodically, and it can be thought that our auditory system has evolved in a direction that internalizes these physical models. →Hearing theory →Hearing area →Hearing space [Minoru Tsuzaki] (Moore, BCJ, 2008) Figure 6. The notch noise method estimates... Fs indicates the sampling frequency (Oxen-ham, AJ, & Wojtczak, M., 2010) Figure 5. Notch noise masker and auditory f… (Acoustical Society of Japan, ed., New Edition, Acoustical Terminology Dictionary, Corona Publishing, 2003) Figure 4. Double helix structure model of pitch (Gulick, W. L. et al., 1989) Figure 3. Pure tone frequency and mel value "> Figure 2. Relationship between loudness level and son value (Figures 1 and 2 are partially modified from Epstein, M., & Marozean, J., 2010.) Figure 1 Equal loudness contours Latest Sources Psychology Encyclopedia Latest Psychology Encyclopedia About Information |
聴覚とは基本的には大気中を伝わる振動(疎密波compression wave)を通して音を感じる知覚機能のことである。したがって,聴覚現象が生じる際に与えられる物理刺激は大気中を伝わる疎密波,すなわち音波sound waveである。また,音波を神経信号に変換する際に機能する感覚器が聴覚器であり,一般的には耳として知られる器官である。 【聴覚の成立と役割】 地球上の環境では,生物の周囲は水や空気などの弾性を備えた媒体で満たされている。これは哺乳類の祖先が水中に棲息していたころから成立していた環境である。このような環境では,ある1点に生じた振動(変異)はそれを取り囲む媒体も変形させ,疎密波としてその周辺に伝播していく。この伝播してきた振動を感知することによって,生物は周辺の変化を検知して,適応的な行動を取る際の情報を得ることができる。聴覚の原型は,まずこのような振動検出器として発生したと考えられており,生物が陸上へ進出した後も水中を伝わる疎密波の検知に使用していた器官を,大気を伝わる疎密波の検知に合うように適応進化させた形態が,ヒトの聴覚として考えられている知覚様相である。 【聴覚刺激auditory stimulus】 聴覚的印象をもつ場合には音波が聴覚に到来しているはずである。この音波は外界に存在する物体になんらかの変形が加わることによって発生する。つまり,物体が存在するだけでは聴覚刺激は生まれず,事象が生起したときに聴覚刺激が生じる。この点が,視覚刺激と好対照をなす。視覚刺激の場合,事象の生起がなくても物体の存在だけで刺激作用は生まれうるからである。伝播過程に介在する物質や空洞の周波数応答特性により,周波数に応じた伝播の効率の違いが生じ,聴覚器に伝わる振動の有効性が異なってくる。この効率が著しく低い周波数領域の音波は聴覚刺激とはならない。聴覚刺激としての有効性をもつ周波数帯域が可聴帯域であり,ヒトの場合はおよそ20㎐から20k㎐であると推定されている。 聴覚刺激はその物理的な性質に応じて,種別分けされて参照されることが多い。まず,周期音periodic sound,非周期音non-periodic sound,過渡音transient soundの種別がよく使われる。周期音は時間波形に明確な繰り返しが観察される音であり,この音のフーリエ変換によって得られるパワースペクトルは基本周波数とその整数倍の周波数をもつ成分(調波成分)から成り立つ調波構造となる。この複数の調波構造をもった正弦成分のみで構成される音が調波複合音であり,これに対して単一の周波数の正弦波で構成される音を純音pure toneとよぶ。さらに複合音で,調波関係にならない正弦成分から構成される場合が非調波複合音ということになる。基本周波数の整数倍にならない成分に対して,上音という用語を用いる場合もある。音刺激としての存在期間が限定されている場合は過渡音といわれる。過渡音は当然ながら周期音ではなく,非周期音の一つと考えることもできる。ただし,非周期音であっても過渡的とは考えにくい場合も存在する。たとえば,過渡音であるパルスはすべての周波数成分を等しい割合で含むが,同じ振幅スペクトルをもつ白色雑音は過渡音とはならない。パルスと白色雑音との間には位相スペクトルの違いがあり,前者はコサイン位相であり,後者はランダム位相であるという。 【知覚的次元】 聴覚刺激の物理的な変化に対して心理量の変化が系統的に生じる場合,それら感覚量の変化は知覚的次元を形成する。まず,第1に考えられ調査されてきた次元はラウドネスloudness,すなわち音の大きさの次元である。ラウドネス(L)は基本的には聴覚刺激の強度に対応して変化する心理量と考えられる。強度(I)は音圧(P)と粒子速度(v)の積であり,粒子速度は音圧を大気の密度(ρ)と音速(c)の積で割った関係が成り立つ。密度と音速とをほぼ一定とみなせば,強度は音圧の2乗に比例する。聴覚刺激として適正な強度のダイナミック・レンジは非常に広く,エネルギー(単位W/m2:ワット毎平方メートル)で表わすとおおよそ10-12W/m2から103W/m2となる。そのため,聴覚刺激の呈示レベルを記述する際には強度レベルないし音圧レベルを使用する慣例がある。強度レベルは,音圧レベルはで算出し,単位は㏈を使用する。ただし,ここでI0,P0はそれぞれ基準強度,基準音圧であり,10-12W/m2,20μPaである(Pa:圧力の単位パスカル)。強度レベルと音圧レベルは厳密には異なるものであるが,実際上は両者の値に大きな差が生じることはなく,聴覚刺激の呈示レベルを記述するにあたって強度レベル,音圧レベルのいずれを用いてもかまわない。実際の物理的な測定では,大半のトランスデューサ(マイクロフォン)が音圧を測定するものであるため音圧レベルが使用される場合が圧倒的に多い。 ラウドネスと強度の対応づけをする際には,外耳・中耳などの周波数伝達特性と内耳の基底膜振動や聴神経発火に備わる非線形特性を考慮する必要がある。前者は物理的には同じ強度の純音信号を与えた場合でも,周波数frequency(音圧が周期的に変動するとき,この変動が毎秒繰り返される回数)に依存して内耳に振動を伝える効率が異なってくることの主たる原因を作る。後者は,強度を2倍にしてもラウドネスが2倍とはならず,スティーブンスStevens,S.S.のベキ法則として知られるようにL=kI0.3の関係がほぼ成立する(ただし,kは比例定数)ことの背景となっている。このラウドネスの周波数依存性と非線形性は図1に示す等ラウドネス曲線に表現されている。等ラウドネス曲線は1000㎐の純音をそれぞれの音圧レベルで呈示し,それとラウドネスが主観的に等しくなるように各周波数の純音の音圧レベルをマッチングすることによって求める。たとえば1000㎐,40㏈の純音とラウドネスが等価となる場合,それぞれの音は40ホンphonのラウドネス・レベルをもつと表現する。この等ラウドネス曲線が周波数軸に対して平坦にならないのは,外耳や中耳における周波数伝達特性によっておおよそ説明可能である。また,ラウドネス・レベルが上昇するにつれて曲線の谷は浅くなる傾向が観察されるのは,聴覚系の非線形応答を反映している。ホンの単位で表示されるラウドネス・レベルは,感覚量を表わす尺度ではない。すなわち10ホンの増加が10㏈(10倍)相当のラウドネスの増加を意味するものではない。スティーブンスのベキ法則が成り立つ範囲では,10㏈の強度の増加はラウドネスのおよそ2倍の増加となる。このラウドネスの感覚尺度の単位はソンsoneとなる。ラウドネス・レベルとソン値の関係は図2(横軸の単位はdB SLであるが,これは聴取者ごとの絶対閾を0dBとしたラウドネス・レベル値である)のようになる。なお図2の中のシンボルマークは,さまざまな研究のデータを表わす。 ラウドネスと並んで研究の歴史をもつのがピッチpitch,すなわち音の高さの次元である。ピッチは純音の場合は物理信号の周波数に対応した知覚次元であると言える。しかし,複合音については若干の留保が必要となる。まず,複合音は複数の周波数成分から成り立つのでその中のどの周波数に対応するのかという問題がある。さらに,複合音には調波構造をもつ場合ともたない場合があり,後者は前者に比べて一般にピッチ感は不明瞭になる。自然界に存在する明確なピッチをもつ音の大半は,調波複合音とみなしてかまわない。それは基本周波数とその整数倍の調波成分から構成され,そのピッチは基本周波数の純音のピッチとほぼ一致する。聴覚説の一つである場所説に従うと,複合音のピッチは聴覚系で周波数分析された成分のうちの最低の周波数によって決定されるという予想が導かれる。しかし,実際には基本周波数成分が欠落した場合(ミッシング・ファンダメンタル)にも,その複合音に対するピッチは(欠落している)基本周波数のピッチと等しいと知覚される場合が多いことが知られている。これは聴覚説のうちの時間説にとって有利な証拠とされた。たとえば,800㎐,1000㎐,1200㎐の正弦波成分が存在する場合,それは基本周波数200㎐の調波複合音の第4次,第5次,第6次の高調波だけが出ていることになるが,その場合に知覚されるピッチは200㎐に相当するものとなり,800㎐相当とはならない。現時点での信頼度が高い聴覚モデルの大半が採用している考え方に従うと,このような知覚が生じる基本は蝸牛の基底膜における周波数分解と,それを中枢に送る神経信号が基底膜振動の位相に固定した活動の時間パターンを示すことにより,信号に備わる5ミリ秒(200㎐の逆数)の周期性の存在を手がかりにしているということになる。このようなピッチの明確さは,刺激の周波数が3~4k㎐を超える辺りから低下することが知られており,その一方で位相固定性の周波数の上限も3~4k㎐辺りであることが哺乳類を用いた生理実験により確認されている。 【ピッチの尺度と音楽的なピッチ】 ラウドネスのソン尺度と同様に,ピッチについての感覚尺度としてメルmel尺度が推定されており,周波数との対応は図3に示すようになっている。ピッチについては音楽的な音階も存在しており,音楽家は半音や全音などの音程pitch intervalの感覚をもっていると考えられる。半音や全音は周波数が等比的になる関係であり,周波数を対数尺度で表現したときにその上で等幅となる。ただし,音階自体は主観的に等幅のピッチの移動を保証するために作られたものとは必ずしもいえない。音楽家のもつ音程感とは学習性のものである可能性があるため,メル尺度の構成にあたっては,あえて音楽的な音程を使わないような配慮がなされた。その結果として,メル尺度は音階とは異なる関係となった。仮にメル尺度が音階と一致するものならば,図3は直線状になるはずである。メル尺度が具体的にどのような感覚を反映しているのかについては議論の余地が残る。 音楽的なピッチ,すなわち旋律を奏でることのできるピッチについてはオクターブ等価性が成り立ち,さらには移調可能性が成り立つ。この音楽的なピッチが成立するのは可聴帯域(20㎐~20k㎐)の一部に限定され,およそ30㎐~4k㎐である。オクターブ等価性とは,周波数が2倍になった音は音楽的には同じ音名で参照されることに対応する。このような構造の成立は,基底膜における周波数分解にその根拠を求めることは難しく,周期性を反映した神経活動の位相固定性が起因となっていると考えられる。周期性のうえでは1オクターブ上の音は半分の周期を与える一方で,基の音と共通の周期性も備えているからである。このような周期性を反映した循環構造は,図4に示すようなピッチの二重らせん構造モデルとして提案され,多次元尺度法を用いたピッチの知覚空間へも出現することが確認されている。つまり,ピッチは基本周波数に対応した単純な1次元の知覚属性ではなく,それ自体が多次元性を備えているとも考えられる。 【音色timbre】 ラウドネスとピッチの違いが音の違いでないことは,それほど熟慮を労することなくわかる。われわれはピッチとラウドネスがほとんど等しいけれども明らかに異なる音が存在することを日常でも体験しており,その違いについては音色の違いであるということにしている。ISO(国際標準化機構)やJIS(日本工業規格)の音色の定義もそのようなものとなっているが,実際には音色がラウドネス,ピッチに並ぶ知覚的な属性であるというには留保が必要である。その理由は,音色の違いの存在が疑わしいというからではなく,音色の違いとして参照される概念が多義的であるからである。実際に音色に関する先駆的な研究は因子分析や多次元尺度法を用いて音色が多次元的なものであることを示している反面で,推定された各次元については共通性があるのかないのか判然としていない。聴覚刺激が与えられた場合,ラウドネスはその刺激に対する興奮の総量に対応し,ピッチは支配的な周期性に対応するといえるのに対して,音色は聴覚的なスペクトル・パターンに対応しているということしかいえない。パターンという概念は1次元の量では決してなく,したがって音色をラウドネス,ピッチと同列の知覚属性として扱うことは概念規定上も破綻している。その中で,スペクトル・パターンの違いを生む一要因として共鳴体のスケールがあることが示唆されている。共鳴体のスケール,すなわち空洞の寸法は聴覚的な情報から外界に存在する物体を推定するにあたって重要なものであり,ラウドネス,ピッチ以外にこのような次元が存在していても不思議はない。 【周波数分解能とマスキング】 聴覚器の機能は,振動を神経信号へ変換するものである。その際に振動の周波数の違いを精度よく符号化するために,受容細胞である内有毛細胞が乗っている基底膜の物理的な共振特性を変えて基底膜上の場所に応じて異なる周波数に反応するようなしくみが,哺乳類へと進化する段階で生まれていく。ベケシーBékésy,G.vonによる観察で実証されたこの基底膜による機械的周波数分析機能は,バンドパスフィルタ(特定の範囲の周波数のみを通すフィルタ回路)の集合として基底膜の機能を考えることへ十分な根拠を与えている。このフィルタの特性を推定するため人間の屍体を用いたり,実験動物を用いるなどする一方で,心理物理学的な実験によって生きている人間の特性を推定する手法がいろいろと提案され,それらは聴覚的な検出マスキング実験として知られている。聴覚マスキングauditory maskingとは,一般的には一つの音の存在が別の音を聞こえにくくする現象である。マスキング実験ではある特定の対象音をマスキーとして,妨害音すなわちマスカーが存在する状態での検出閾(マスキング閾)を測定する。 一連の研究の発端はフレッチャーFletcher,H.による矩形フィルタ・モデルの提案と臨界帯域の概念の提唱であった。このモデルでは,基底膜のある場所の機械特性はほぼ矩形の通過幅をもつバンドパスフィルタとして模擬できると仮定し,そのバンド幅はマスキング効果の臨界点によって推定できるとした。たとえば,ある周波数を中心として純音のマスキングを帯域ノイズによって行なう場合,帯域ノイズのバンド幅が臨界帯域よりも小さいうちはノイズのバンド幅を広げるにつれてマスキング効果は上昇していくはずである。しかし,ノイズのバンド幅が臨界帯域を超えると臨界帯域外に落ちるノイズのパワーはマスキングには関係しないため,マスキング効果の上昇はそこで頭打ちとなるはずである。当初のマスキング実験はこのような論理のもとに行なわれた。 しかし,そもそもマスキング実験を行なう目的は基底膜の各場所の周波数応答特性を推定するということにあるため,異なった手法のマスキング実験が次々と考案されていく。その過程でまず周波数応答特性が矩形であるという仮定自体についても批判的に検討がされていく。最初から周波数応答特性の形状を仮定することなく,実験結果に従って応答特性を求めるタイプの実験は,心理物理学的同調曲線を求める実験として知られている。典型的な実験では目標とする周波数(つまり聴覚フィルタの中心周波数)を一つ定め,その周波数の純音を閾上10㏈で呈示したものをマスキングするために要する純音マスカーのレベルを調べる。より少ないレベルでマスキングが生じるほどそのフィルタでのゲインが大きいと考えることができ,何点かのマスカー周波数で得たマスキングに必要なレベルを補完することによって,目標とした中心周波数のフィルタの周波数応答特性が推定できるという論理である。 この手法には主に二つの問題点が存在している。一つは,純音を純音によってマスクするために同時に2種類の周波数をもつ純音を呈示することでうなりが聞こえてしまい,マスキング効果が純粋に測定できないというものである。うなりは時間的に入力に変動感を感じる感覚であり,聴取者は刺激音に時間変動感があるときにはマスキーが呈示されていると判断できてしまう。二つ目の問題点は,離調聴取とよばれる聴取方略の可能性である。実験を実施する側としては,目標音として設定した純音の周波数を中心周波数とするフィルタの特性を推定したい。しかし,聴取者側にすれば,自分の聴覚系のどのフィルタの出力を参照して解答するなどという意識的な制御ができるわけではなく,最もS/N比が高くなるフィルタの状態を参照するのが最適方略である。この時,目標周波数の周辺にはいくつかの周波数を中心周波数にもつフィルタが平行して多数存在しており,S/N比という観点では目標周波数とは若干ずれた周波数を中心周波数とするフィルタの方が良好なS/N比となる可能性がある。 これら二つの問題点を解消するためにノッチ・ノイズ・マスキング手法が考案された。この手法では,心理物理学的同調曲線を求める場合と同様に,フィルタ形状を推定しようとする周波数の純音をマスキーとする。マスカーとしてはこの周波数を避けて,その位置にノッチが来るようなノイズを両側に呈示する(図5)。これによって最良のS/N比となるのはつねにこの目標周波数を中心とするフィルタであることが担保され,さらにマスカーがノイズであることによってうなりを手がかりとしたマスキーの検出はできなくなる。検出されたときのマスキーのパワーは注目したフィルタの山の裾野にかかるマスカー・パワーに比例すると考えられるので,その値から基底膜フィルタ形状の推定が可能となる。このようなモデルで推定されたフィルタの形状は図6に示すようなものとなり,生理学的な実験が示唆していたように矩形ということはなく,知覚現象のうえでも矩形フィルタを前提とするような不連続点を見いだすことは難しいため,現在では臨界帯域は一つのフィルタの実効的なバンド幅を指す概念として取り扱われている。 【聴覚情景分析auditory scene analysis】 聴覚という知覚様相の有利な点は,その有効範囲が視覚に次いで長いということにある。視覚の場合は,網膜上の1点は外界の1点に対応しており,2ヵ所から到来する光線が同一の感覚細胞を同時に刺激するということは透明視の事態を例外とする,まれな事例と考えてよい。対して,聴覚では疎密波をもたらす大気の圧力の変動には加算性が成り立ち,1ヵ所の観測点(たとえば鼓膜)には複数の音源から到来する音波の影響が足し込まれている。このような混入は味覚,嗅覚,触覚でも生じうるものの,それらについては有効距離が聴覚に比べて短いために,基本的にはつねに一つの刺激源を処理していると前提してかまわない。以上からわかることは,聴覚を通して周囲の状況を正しく推定するには,混信して与えられる圧力を適切にそれぞれの音源由来のものへと分析する必要があるということである。聴覚情景分析というキーワードを核とする一連の研究は,この問題に取り組んでいる。 聴覚情景分析の中でも中心的な話題は音脈分凝auditory stream segregationの現象であり,知覚的体制化の問題の一つである。二つの周波数をもつ純音が交替して呈示される場合を考えると,これを旋律の最も原始的な状態であるというとらえ方がまず存在する。旋律の場合は二つの音の高さがどのような順であるかは大きな意味をもち,その二つの音の間には密接な関係を通常知覚する。つまり2音は同じ音源から到来したものとして一連の流れとしてつなげて聴かれる。ところがこの2音の高さの距離が大きくなると2音の間の知覚的なつながり感は希薄となり,それぞれ独立に断続する高い音と低い音の二つの流れが並行しているような印象に変化する。音脈auditory streamとは,この時に一つの流れに相当する知覚像に言及する概念である。音脈分凝には原始的分凝とスキーマ依存的分凝の2種類がある。原始的分凝とはボトム・アップな過程の結果として分凝が生じる場合で,たとえば聴取者が2音の交替をなるべく一連の音脈として聴こうとしているにもかかわらず,2音間の高さの違いが大きいことにより自然に二つの音脈に分凝するような場合を指す。反対にスキーマ的な分凝とは,なるべくどちらか一方を聴き出そうとして成功する場合を指す。原始的な分凝の場合は,2音間の高さの距離だけでなく,2音の交替速度も分凝の仕方に影響を与える重要な要因であることが報告されている。 以上のような二つの純音を想定した単純な場合だけでなく,複数の成分音間の知覚的体制化がどのようなものになるかを規定する要因の主要なものはいくつかわかっている。調波性,同期性などがそれである。聴覚刺激についてその物理的な特性を記述するにあたり,フーリエ分析の概念に触れたときの素朴な当惑は,これまで知覚的には一つの音として取り扱っていたものが複数の周波数をもつ正弦波であることである。同じ複数の周波数成分が存在している場合でも,それらの間に調波構造が成立しなければ,一つの音にまとめて知覚する傾向は低くなる。たとえば調波構造から約4%の逸脱が生じると,その成分は他の正弦成分とは異なる音脈として「飛び出て」知覚されるようになる。一方,正弦波成分の同期が約30ミリ秒程度ずれることにより,それは異なる音源から到来するように知覚される。物理的な振動体を考えると,周期的な振動をする音源からは調波構造に従った複数の正弦波成分がほぼ同時に出現するという自然界の制約が存在しており,われわれの聴覚系はそれらの物理モデルを内在化するような方向で進化したと考えることができる。 →聴覚説 →聴覚領野 →聴空間 〔津﨑 実〕 (Moore, B.C. J., 2008)"> 図6 ノッチ・ノイズ法によって推定され… Fsはサンプリング周波数を示す(Oxen-ham, A. J., & Wojtczak, M., 2010)"> 図5 ノッチ・ノイズ・マスカーと聴覚フ… (日本音響学会編『新版 音響用語辞典』コロナ社,2003)"> 図4 ピッチの二重らせん構造モデル (Gulick, W. L. et al., 1989)"> 図3 純音の周波数とメル値 "> 図2 ラウドネス・レベルとソン値との関… (図1・2はEpstein, M., & Marozean, J., 2010を一部改変)"> 図1 等ラウドネス曲線 出典 最新 心理学事典最新 心理学事典について 情報 |
<<: Jang Hyuk-ju - Choukakuchu
…Rental bookstores are the most common and unique...
A city in southeastern Saitama Prefecture. It was ...
...A kingdom that arose in the Wadai (Ouaddai) re...
…Winchester College, said to be the oldest public...
...Its name is Akamutsu because of its red body c...
…An Italian Quattrocento (15th century High Renai...
A British rock group. Yes, along with King Crimso...
Author and mountaineer. Born in Daishoji-cho, Ish...
...But then in 1978, it was revived as a monthly ...
A silver coin that circulated in Islamic society a...
〘 noun 〙 (café)⸨ Coffee⸩① Coffee. ※Beio Kairan Jit...
…In the annual motion of the sun on the celestial...
…[Hiroshi Aramata]. … *Some of the terminology th...
… [Masako Sakamoto] [current situation] Before Wo...
A great peasant revolt lasted for about 10 years ...