Reliability - Shinraisei (English spelling) reliability

Japanese: 信頼性 - しんらいせい(英語表記)reliability
Reliability - Shinraisei (English spelling) reliability
In test theory, reliability is the proportion of true score variability in test scores when test scores are divided into true scores and error. This definition indicates that the higher the reliability, the higher the quality of the test. The true score is the average test score obtained by administering the same test repeatedly (theoretically an infinite number of times). The same test refers to tests that have a common property (construct) that they are intended to measure and have the same true score. Even if the true score is the same, the test scores obtained each time the same test is administered will be different values ​​because the error portion will vary.

[Estimating reliability] To estimate reliability, we use the fact that the correlation coefficient between two tests in which the true scores are the same, the error portion is independent of the true scores, and the magnitude of the variance is the same across subjects, is equal to the reliability coefficient. Two tests in which the true scores are the same and the error variances are equal are called parallel tests. It can be said that the basic method for estimating the reliability coefficient is to obtain the correlation coefficient between two parallel tests, but there are several specific methods for doing so. That is,

⑴Parallel test estimation method Two tests are developed to be parallel tests, and then administered to appropriate samples to obtain a correlation coefficient. This method requires a lot of effort to create the tests, and is often difficult to implement. The following method is simpler than the method of creating two parallel tests.

⑵Test-retest estimation method The same test is administered twice and the correlation coefficient between the two results is obtained. This is an easy-to-understand method, but it is based on the premise that the results of the first test do not affect the second test. For example, if remembering the answers to the first test has an advantageous effect, or if taking the first test allows the test subject to learn about the test content, then the two tests cannot be considered parallel tests. Despite these drawbacks, the test-retest method has the advantage of being able to evaluate the degree to which test scores fluctuate over time, i.e., temporal stability.

⑶ Split-half estimation method The items that make up the test are divided into two homogeneous groups so that they become two parallel tests, and the correlation coefficient between them is calculated. However, this correlation coefficient is the reliability coefficient of the two tests, and the reliability coefficient of the original test must be restored using the Spearman-Brown formula. In other words, when the correlation coefficient between the split tests is r h , the reliability coefficient r is

r =

In particular, when there is no particular pattern in the arrangement of the items, the sum of the odd-numbered items and the sum of the even-numbered items may be regarded as two separate tests. Although the split-half method is divided into two parallel tests, it is also possible to divide it into three, four, or more parallel tests. When divided into n partial tests, the reliability coefficient of the original test is given by the following when the correlation between each partial test is the same (let's call it r p ):

r =

This method is a generalization of the method explained above and is called the Spearman-Brown formula 21.

It is possible to divide a test into several parallel tests, but in reality, this is difficult. Even if the tests are not parallel, it is possible to estimate the reliability coefficient if certain conditions are met. Representative assumptions that generalize the rigor of parallel tests are the tau-linear assumption and the essential tau-linear assumption. The tau-linear assumption states that there is a linear correlation between the true score of partial test jj ) and the true score of test kk ), as follows:



This refers to cases where there is a relationship such as:

The essentially tau-linear assumption further extends the relationship between the two tests:



This refers to the case where a linear relationship exists between two true scores. When a subtest satisfies the assumption of essential tau, Cronbach's α coefficient gives an estimate of the reliability coefficient. When the assumption of essential tau is not met, this coefficient often gives a lower value as an estimate of reliability. In that sense, Cronbach's α coefficient can be said to be a conservative and cautious estimate of the reliability coefficient.

The requirement for parallelism is sometimes further relaxed than the assumption of essential tau, and the assumption is made that the two tests are explained by a common factor. This is nothing other than a factor analysis model. According to this definition, the degree of reliability of a test is indicated by the factor analysis communality estimate. In other words, the greater the communality, the higher the reliability. Neither the alpha coefficient nor the factor analysis communality is an assessment of reliability in the sense of whether it is stable over time, but rather an indicator of the homogeneity of the tests.

[Standard error for measurement] We have mainly explained the reliability coefficient as an indicator of the reliability of a test, but the standard deviation of error is sometimes used to indicate reliability. This is called the standard error of measurement. Standard error is also a term that indicates the standard deviation of statistics such as estimated values ​​and predicted values, so it is specifically called the "standard error of measurement" to differentiate it. However, it is sometimes simply called the standard error. The standard error of measurement is assumed to be constant for each subject. In other words, it is assumed that the standard error of measurement corresponding to any true value is the same.

On the other hand, by using item response theory, also known as modern test theory, as opposed to classical test theory, it is possible to estimate the standard error of measurement given each of the various true scores.

[Generalizability] Generalizability is a concept that indicates the extent to which safety is maintained. Statistically, the true score model and the analysis of variance model are similar models. That is, the true score model is the same as the one-way analysis of variance model, and the meaningful parameter is the true score for each individual. In the context of the analysis of variance model, the problem of estimating the reliability coefficient is the problem of estimating the variance of a simple measurement model (one-way). The measured value x in the kth repetition for individual i can be divided into the true score τ and error ε and written as follows.



In the model above, we estimate the variances of τ i and ε ik and use the relationship σ 2 x = σ 2 τ + σ 2 ε to calculate r = σ 2 τ2 x . However, just as multiple factors may be involved in experimental design using analysis of variance, there are times when the factors that affect the variance in test scores are not just the individual's true score, but multiple other factors as well. For example, if there are multiple raters for an essay test, and each rater gives a different evaluation, then the kth result x ijk of subject i scored by rater j is given by: (Here, β j is the effect of the rater, and γ ij indicates the interaction between the individual and the rater). If the bias of the rater is considered to be the residual, reliability can be estimated by estimating the variance components using two-way analysis of variance, and the ratio of the variance of τ to the variance of x is taken as the estimated reliability coefficient. The true score is defined as the expected value, but this expected value is the average of repeated tests under the same conditions for the same subject. However, the expected value differs when the conditions are different. In the example above, the rater was assumed to be a meaningful parameter that can be obtained stably in addition to the subject's true score, but other factors can also be assumed. The method of assuming an appropriate analysis of variance model and asking how much of the variance of the test score is explained by the variance of the sum of the assumed parameters that should be considered as the true score is called the theory of generalizability. This is more useful information for creating practical tests in accordance with the situation in which the test score will be used than in the case of a simple estimation of the reliability coefficient. →Item response theory →Classical test theory →Validity [Shigemasu Kazuo]

Latest Sources Psychology Encyclopedia Latest Psychology Encyclopedia About Information

Japanese:
テスト理論における信頼性とは,テスト得点を真の得点と誤差に分けたとき,テスト得点のばらつきのうち,真の得点のばらつきが占める割合のことである。この定義により,信頼性が高ければ高いほどテストの質は高いことがわかる。真の得点true scoreとは,同じテストを何度も(理論的には無限回)繰り返し実施して得られたテスト得点の平均である。同じテストとは,測定の目的とする性質(構成概念)が共通であり,かつ真の得点が同じであるテストを指す。同じテストの繰り返しのそれぞれにおいて得られるテスト得点は,真の得点が同じでも,誤差の部分が変動するため,異なる値を取る。

【信頼性の推定】 信頼性の推定のために,真の得点が同じで誤差の部分は真の得点と独立であり,その分散の大きさは被験者を通して等しい二つのテストの相関係数が信頼性係数に等しいという事実を利用する。真の得点が同じで,誤差の分散が等しいような二つのテストを平行テストparallel testという。信頼性係数を推定する方法の基本は,二つの平行テストの間の相関係数を得る方法であるといってもよいが,そのための具体的方法にはいくつかの種類がある。すなわち,

⑴平行テスト法parallel test estimation method 二つのテストを平行テストになるように開発し,適切なサンプルに実施して相関係数を得る。この方法は,テストを作るための労力が大きく,しばしば実現が困難である。以下の方法は,平行テストを二つ作る方法より簡便である。

⑵再テスト法test-retest estimation method 同じテストを2回実施して,その二つの結果の相関係数を得る。これは,わかりやすい方法であるが,1回目のテストの結果が2回目のテストに影響を与えないことが前提である。たとえば,1回目のテストの答えを記憶していることが有利な影響を与える場合や,1回目の受験によって,テスト内容に関して学習できる場合には,この2回のテストは平行テストであるとはいえない。このような欠点はあるが,再テスト法は,テスト得点が時間の経過によってどの程度の変動を生じるか,すなわち時間的安定性を評価できる利点がある。

⑶折半法split-half estimation method テストを構成する項目を二つの平行テストになるように,二つの等質な群に分け,その間の相関係数を計算する。ただし,この相関係数は,二つに分けられたテストの信頼係数であり,もともとのテストの信頼性係数は,スピアマン-ブラウンの公式によって復元される必要がある。すなわち折半されたテスト間の相関係数をhとするとき,信頼性係数は,

 

となる。とくに,項目の並び方に特段の規則性がない場合に,奇数番目の項目と偶数番目の項目それぞれの合計を別の二つのテストとみなすことがある。折半法は二つの平行テストに分けたが,三つや四つ,あるいはそれ以上の平行テストに分けることも可能である。個の部分テストに分けた場合に,もともとのテストの信頼性係数は,それぞれの部分テスト間の相関が同じであるとき(pとおく),

 

によって得られる。この方法は,先に説明した方法の一般化であり,スピアマン-ブラウン21の方法Spearman-Brown formula 21とよばれる。

 テストをいくつかの平行テストに分けることは可能であるが,可能ではあっても現実には難しい。平行テストではなくても,いくつかの条件を満たせば信頼性係数の推定を行なうことができる。平行テストの厳密性を一般化した仮定の代表的なものは,タウ線形とよばれる仮定と,本質的タウ線形と呼ばれる仮定である。タウ線形の仮定は,部分テストの真の得点(τj)とテストの真の得点(τk)の間に,

 

という関係がある場合をいう。

 本質的タウ線形の仮定は二つのテストの間の関係をさらに拡張し,

 

というように,二つの真の得点間に線形関係が成立する場合を指す。部分テストが,本質的タウの仮定を満たす場合に,信頼性係数の推定値を与えるのが,クロンバックのα係数Cronbach's α coefficientである。この係数は,本質的タウの仮定を満たさないときには,信頼性の推定値としては低めの値を与えることが多い。その意味では,クロンバックのα係数は,信頼性係数の評価として保守的で慎重な推定値であるといえる。

 本質的タウの仮定よりも平行性の要件をさらに緩め,二つのテストが共通の因子によって説明されるという仮定をおくことがある。これは因子分析モデルにほかならない。この定義に従ってどの程度の信頼性をテストがもつかについては,因子分析の共通性の推定値が指標になる。すなわち共通性が大きいほど,信頼性が高いということになる。α係数も因子分析における共通性も,時間的に安定しているかどうかの意味での信頼性の評価値にはなりえず,テストの等質性の指標である。

【測定の標準誤差standard error for measurement】 テストの信頼性を示す指標として,信頼性係数を中心として説明してきたが,信頼性を示すために,誤差の標準偏差を用いることがある。これを測定の標準誤差という。標準誤差は,推定値や予測値などの統計量の標準偏差を示す用語でもあるので,差異化するためにとくに「測定の標準誤差」という。ただし,単に標準誤差とよばれることもある。測定の標準誤差は,各被験者に対して一定であることを仮定している。言い換えれば,どのような真の値に対応する測定の標準誤差も同じであることを仮定している。

 一方,古典的テスト理論に対して,現代的テスト理論とも称される項目反応理論を利用すれば,さまざまな真の得点のそれぞれを所与として測定の標準誤差を推定することができる。

【一般化可能性generalizability】 一般化可能性とは,どの程度の範囲内で安全性を保つかを示す概念である。統計学的には,真の得点のモデルと分散分析モデルは類似したモデルである。すなわち真の得点のモデルは,分散分析の一元配置モデルと同じであり,意味のあるパラメータは,各個人ごとの真の得点である。分散分析モデルの文脈においては,信頼性係数の推定の問題は,単純な測定モデル(一元配置的)の分散の推定の問題である。個人に対する回目の繰り返しにおける測定値は真の得点τと誤差εに分け,次のように書くことができる。

 

上の式のモデルにおいて,τiとεikの分散を推定してσ2x=σ2τ+σ2εという関係を利用して,=σ2τ/σ2xを計算する。ところで,分散分析が用いられる実験計画法において,複数の要因が関与する場合があるように,テスト得点のばらつきに影響する要因が個人の真の得点だけではなく,ほかにも複数の要因があるときがある。たとえば,論述試験に対して,複数の評定者がおり,それぞれの評定者によって評価が違うとすると,被験者を評定者が採点した番目の結果ijkは,となる(ここで,βjは評定者の効果。γijは,個人と評定者との交互作用を示す)。信頼性は,評定者の偏りを残差とみなすならば,二元配置分散分析によって,分散成分を推定し,の分散のうち,τの分散との分散の比を取って,信頼性係数の推定値とする。真の得点を期待値として定義したが,この期待値は,同じ被験者に対して同じ条件における繰り返しにおける平均である。しかし,条件が異なると期待値も異なる。先述の例では,被験者の真の得点以外に安定して得られる意味のあるパラメータとして評定者を想定したが,そのほかの要因も想定できる。適切な分散分析モデルを仮定し,想定したパラメータのうち,真の得点とみなすべきパラメータの和の分散が,テスト得点の分散のうちどの程度を説明するかを問う手法を一般化可能性の理論とよぶ。単純な信頼性係数の推定の場合よりも,テスト得点がどのような状況で使われるのかに対応して実際的なテスト作製のために有用な情報となる。 →項目反応理論 →古典的テスト理論 →妥当性
〔繁桝 算男〕

出典 最新 心理学事典最新 心理学事典について 情報

<<:  Reliability - ShinRide

>>:  Shin Yodogawa

Recommend

Gimbutas, M.

...In the study of ancient records of Baltic myth...

Chloroacetic acid - Chlorosaxan

It is equivalent to the chlorine substitution pro...

Sake and Tea Theory - Shucharon

This is a type of comic literature in which differ...

Gerrit Thomas Rietveld

Dutch architect and designer. Born in Utrecht. Bo...

Light color - Light color

〘noun〙① The name of a dye. A pale purple or a pale...

Su Qin

A Chinese politician and lobbier during the Warri...

Bhakra Dam

A multipurpose dam built by damming the Sutlej Riv...

Escargottiere - Escargottiere

… [Tadashige Habe] [cooking] There is no custom o...

Martial Arts Beginners' Collection

A book of instruction and bushido. Three volumes,...

Li Tong (English spelling)

1093‐1163 A Chinese thinker from the Southern Song...

Italian Communist Party (English spelling) Partito Comunista Italiano

An Italian communist party. Abbreviated as PCI. F...

Kasukabe Inn

…The Fuji (Tokuten) on Ushijima in the eastern pa...

Valerius(?) Babrios

Date of birth and death unknown. A Greek fable po...

Ottawa - Otawa (English spelling)

The capital of Canada. It is located at the confl...

Tukulor

...He resisted the French army as a national hero...