Factor analysis

Japanese: 因子分析 - いんしぶんせき(英語表記)factor analysis
Factor analysis
Factor analysis is an analytical method that explains the correlation structure between observed variables, and is one of the multivariate analyses that attempt to infer latent factors. In psychology, it is used in the process of exploring factors that explain the correlation structure between scales in intelligence tests and factors that explain the structure of personality questionnaires in the theory of intelligence. It is based on a model that correlation between observed variables is caused by the influence of an unknown latent variable called a common factor or simply factor. This method aims to explain the correlation between observed variables by interpreting the meaning and content of the common factor from the relationship between the observed variables and the common factor. Latent variables are a statistical model that realizes constructs in psychology, and the factor analysis model is a representative latent variable model. It is also positioned as one of the submodels of the structural equation model, along with the path analysis model.

[History and purpose of factor analysis] Factor analysis was proposed by Spearman, C. at the beginning of the 20th century as a method to explain the structure of intelligence. Spearman analyzed the correlation coefficient matrix of test scores in six subjects and proposed the two-factor theory of intelligence, which states that intelligence consists of two types of factors: a general factor and a specific factor. While the general factor is a factor common to all subjects, the specific factor is a factor specific to each individual subject and corresponds to the error term in a statistical model. In today's terms, Spearman's two-factor model is a one-factor model that assumes that there is one common factor that is common to all observed variables. However, as can be easily imagined, when there are a large number of tests, the one-factor model cannot fully explain the correlation between observed variables. Burt, C. and others therefore considered that intelligence has a hierarchical structure consisting of a general factor as well as group factors that affect only some tests, ranging from major to minor factors. In response to this, Thurstone, LL did not assume such a hierarchical structure and proposed the multiple factor model, which assumes that there are multiple common factors. In the case of multifactor models, the problem of factor rotation described below arose because it was not possible to uniquely estimate the model from the data. Thurston derived seven factors that make up intelligence: spatial, perception, number, language, memory, word fluency, and reasoning.

With the advent of computers and their development, the large amount of calculations required for factor analysis became easier, and factor analysis has been applied to various areas of psychology, leading to new findings. For example, research on personality factor analysis has shown that personality can be explained by five factors, known as the Big Five (five major personality factors). On the other hand, the high-speed computing power of computers has made it possible to think freely without being restricted by the amount of calculation required, and has influenced research on the theoretical aspects of factor analysis. Thanks in part to the contributions of mathematical statisticians, theories of statistical inference such as maximum likelihood estimation of parameters and hypothesis testing have been developed under the assumption that observed variables follow a multivariate normal distribution. Various methods of factor rotation have also been developed. Since its inception, factor analysis has been used exclusively for exploring hypotheses, but in the early 1970s, Jöreskog, KG, opened the way for its use as a method for verifying hypotheses.

When viewed as a statistical model, the factor analysis model is a linear regression model with observed variables as dependent variables and common factors as independent variables, and the value of a set of observed variables is determined by a small number of common factors and the error values ​​associated with each observed variable. Its characteristic is that the common factors, which are the independent variables, are unobservable latent variables. As the name suggests, common factors are fluctuation factors common to all observed variables. In contrast, errors are called unique factors, and represent fluctuations unique to each observed variable. Let p be the number of observed variables and m be the number of common factors. In a factor analysis model, p + m latent variables are introduced to explain the values ​​of p observed variables.

The mean and variance of the common factor, which is a latent variable, and the correlation coefficient between different common factors are arbitrary. For this reason, it is common to assume that the common factor is standardized to a mean of 0 and a variance of 1. Therefore, the population covariance matrix and population correlation coefficient matrix of the common factor are the same. When it is assumed that different common factors are uncorrelated with each other, it is called an orthogonal model, and when correlation is recognized, it is called an oblique model. The orthogonal model and the oblique model can be converted into each other.

In factor analysis, the regression coefficient of the observed variables for the common factors is called the factor loading, and the variance of the unique factors is called the unique variance. A matrix whose elements are the factor loadings is called the factor pattern, and a matrix whose elements are the covariance between the observed variables and the common factors is called the factor structure. Factor patterns are generally used to interpret factors. In the case of an orthogonal model, the factor pattern and the factor structure match. However, in the case of an oblique model, the values ​​and positive/negative signs of the corresponding elements in the factor pattern and the factor structure do not necessarily match, so they must be distinguished. It is assumed that common factors and unique factors are uncorrelated, and that different unique factors are uncorrelated with each other. In a factor analysis model, since common factors and unique factors are uncorrelated, the variance of each observed variable is decomposed into the sum of the part explained by the common factors and the part explained by the unique factors, i.e., the unique variance. The proportion of the variance of each observed variable that is explained by the common factors is called the communality, and the proportion of the unique variance is called the uniqueness. The sum of commonality and uniqueness is 1. The commonality of each observed variable is nothing but the square of the multiple correlation coefficient between that observed variable and the m common factors, that is, the coefficient of determination.

The contribution from all factors is the sum of the variances of the observed variables minus the sum of the unique variances. The portion of the total variance of the observed variables that is explained by a factor is called the contribution of that factor. In the case of an orthogonal model, the contribution from all factors is uniquely decomposed into the sum of the contributions of each factor. However, in the case of an oblique model, there are several methods for decomposition. The contribution rate of a factor can be defined as the ratio to the total variance of the observed variables, or as the ratio to the contribution from all factors.

The scale level of the observed variables is either ratio scale or interval scale. When the observed variables are interval scale, the origin has no meaning. Even if the data is ratio scale, it is more convenient to make the dispersion uniform when observed variables in various units are mixed. Factor loadings in which the mean of each observed variable is standardized to 0 and the variance to 1 are called standardized factor loadings.

In the case of a standardized factor loading matrix, comparing the elements of a row will tell you which factor most strongly influences the observed variable corresponding to that row, and comparing the elements of a column will tell you which common factor most strongly influences the observed variable corresponding to that column.

When the observed variables are standardized, the factor structure corresponds to the correlation coefficient matrix between the observed variables and the common factors. Therefore, the values ​​of the elements of the factor structure fall within the range of -1 to 1. However, the values ​​of the standardized factor loadings do not necessarily fall within that range.

In the factor analysis model, the population covariance matrix of the observed variables is a function of the parameter values, the factor loadings, the unique variances, and the covariances of the common factors, and is decomposed into the sum of a rank m non-negative definite matrix and a positive definite diagonal matrix with the unique variances as diagonal elements. However, even if the population covariance matrix of the observed variables and a diagonal matrix with the unique variances as diagonal elements are given, the factor loadings and the covariances of the common factors cannot be uniquely determined. When this lack of uniqueness is resolved by specifying some factor loading values ​​based on prior information, it is called confirmatory factor analysis, and when it is not, it is called exploratory factor analysis. In the case of exploratory factor analysis, an operation called factor rotation, which will be described later, is performed to obtain a factor loading matrix that is easy to interpret.

In the case of an orthogonal model, the square of the ( i , k ) element of the factor loading matrix is ​​the portion of the variance of the i- th observed variable that is explained by the k- th common factor. Therefore, the sum of squares of the elements in a column of the factor loading matrix is ​​the contribution of the common factor corresponding to that column, and the sum of squares of the elements in a row is the portion of the variance of the observed variable corresponding to that row that is explained by the m common factors. In the case of an orthogonal model, the sum of squares of the elements in a row of a standardized factor loading matrix is ​​the communality of the observed variable corresponding to that row. Note that the contribution rate calculated from a standardized factor loading matrix generally does not match the contribution rate calculated from a non-standardized factor loading matrix.

Principal component analysis is a method similar to factor analysis. However, while factor analysis is oriented toward covariance (correlation), principal component analysis is oriented toward variance, and the two methods are quite different in concept. Factors are latent variables introduced into a factor analysis model to explain the correlation between observed variables, and one of the assumptions in a factor analysis model is that the effect of factors is linear. In addition, even if the model parameters are known, there is factor score indeterminacy, which means that the value of a factor cannot be uniquely determined from certain data. In contrast, principal components are defined as linear combinations of observed variables, and are synthetic variables derived based on the criterion of explaining as much of the total variance of the observed variables as possible. Therefore, principal components are not latent variables in the same sense as common factors, and they are not indeterministic.

The process of calculating the principal components involves the calculation of eigenvalues ​​and eigenvectors by spectral decomposition of the covariance matrix or correlation coefficient matrix, which is similar to certain estimation methods in factor analysis.

[Estimation method] In the case of exploratory factor analysis, the model is uncertain, and estimates of the parameters cannot be uniquely determined using only information from the data. Therefore, in the first step, estimates of the parameters are obtained under an orthogonal model. However, even in the case of an orthogonal model, there is uncertainty about orthogonal rotation. Therefore, estimates of the factor loading matrix are obtained under appropriate constraints depending on the estimation method. This is sometimes called the initial solution. Estimation of parameters in factor analysis is often called factor extraction. Under a factor analysis model, the population covariance matrix of the observed variables consists of factor loadings, which are the parameters, and unique variances. Therefore, estimates of the covariance matrix based on a factor analysis model consist of estimates of factor loadings and unique variances. In contrast, a sample covariance matrix calculated from data does not have this structure.

The parameter estimation method is to minimize the value of the discrepancy function, which measures the degree of discrepancy between the estimated value of the covariance matrix based on the factor analysis model and the sample covariance matrix. When estimating the parameters, the sample correlation coefficient matrix is ​​often used instead of the sample covariance matrix to obtain the standardized factor loading estimate.

The least squares method is based on the criterion of minimizing the sum of squares of the difference (residual) between the estimated value of the covariance matrix based on the model and the corresponding elements of the sample covariance matrix. In contrast, the generalized least squares method is based on a criterion that also takes into account the correlation between the residuals. In addition, the maximum likelihood method can be used under the assumption that the distribution of the observed variables follows a multivariate normal distribution. In the case of the maximum likelihood method, minimizing the discrepancy function is equivalent to maximizing the likelihood function. The difference between these estimation methods corresponds to the difference in the discrepancy function, and the nature of the estimator is determined by the discrepancy function. The estimate is calculated by numerically minimizing the value of the discrepancy function using an optimization algorithm that uses the first and second derivatives of the discrepancy function and fitting the model. In practice, optimization is performed by an iterative method starting from appropriate initial values.

However, there is no guarantee that such an iterative method will obtain the minimum value of the discrepancy function. Non-convergence, where the iterative method does not meet the stopping criterion within a predetermined number of iterations, may occur. Even if the stopping criterion is met, an improper solution may be obtained where the unique variance at that point is negative. Simulation studies and other methods have shown that improper solutions and non-convergence are likely to occur when there are problems with the model or data, such as an excessive number of factors or insufficient sample size. It is also known from experience that the maximum likelihood method is more prone to improper solutions and non-convergence than the least squares method. In actual analysis, it is difficult to deal with improper solutions and non-convergence when they occur.

There are also methods for estimating parameters that do not rely on minimizing the discrepancy function. Now, assuming that estimates of communality or uniqueness have been obtained by some method, there is a series of methods for estimating standardized factor loadings by spectrally decomposing a matrix consisting of these and a sample correlation coefficient matrix, and using the obtained eigenvalues ​​and eigenvectors. Such methods include the principal factor method, canonical factor analysis, and alpha factor analysis. The difference between the calculation procedures of principal component analysis and the principal factor method is whether the matrix to be spectrally decomposed is a correlation coefficient matrix or a matrix whose diagonal elements have been replaced with estimates of communality.

In these methods, the initial estimate of communality and the estimate of communality calculated from the estimated standardized factor loadings generally do not match. Therefore, the calculation of the estimate of communality and the calculation of the standardized factor loadings using the result may be repeated alternately. This method of iteratively estimating communality is called the iterative principal factor method. When the iterative estimation of communality is performed and the condition for stopping the iterative calculation is met, the principal factor method gives the same estimate as the least squares method, and the canonical factor analysis gives the same estimate as the maximum likelihood method, unless it is a local solution. However, such iterative methods converge more slowly than methods that minimize the discrepancy function.

[How to determine the number of factors] In the case of exploratory factor analysis, the number of factors is generally unknown, so an appropriate number of factors must be determined by some method. Under a factor analysis model, the elements of the covariance matrix and correlation coefficient matrix of the observed variables are expressed with a smaller number of parameters. The difference in the number of free parameters when the factor analysis model is assumed and when it is not is d = {( p - m ) 2 - ( p + m )}/2 for both the orthogonal model and the oblique model, and this is independent of whether the observed variables are standardized or not. Since the parameters of the factor analysis model are estimated based on the sample covariance matrix or sample correlation coefficient matrix, this d must be non-negative. Here, the condition d ≥ 0 leads to the inequality m ≤ {2 p + 1 - (8 p + 1) 1/2 }, which is the upper limit of the number of factors. On the other hand, the minimum number of factors is 0. This corresponds to a model in which each observed variable is uncorrelated with each other.

As a criterion for the number of factors, the eigenvalues ​​of the sample correlation coefficient matrix are used. One of these is the Kaiser-Guttman criterion, which uses the number of eigenvalues ​​of the sample correlation coefficient matrix that are greater than 1 as the number of factors. This criterion is based on the property that, under a factor analysis model, the number of eigenvalues ​​of the parent correlation coefficient matrix that are greater than 1 is the lower limit of the number of factors. The parent correlation coefficient matrix is ​​replaced by its estimated value, the sample correlation coefficient matrix, and this is used as the criterion for the number of factors.

When a line graph called a scree plot is created with the magnitude of the eigenvalues ​​of the sample correlation coefficient matrix on the vertical axis and the rank of the magnitude on the horizontal axis, in many cases the magnitude of the eigenvalues ​​decreases rapidly up to a certain rank, after which the decrease becomes more gradual. The method of determining the number of factors up to the rank where the magnitude decreases rapidly based on a comprehensive visual judgment is called the scree method or scree test. The Kaiser-Guttman criterion and the scree method can be used without calculating estimates of the parameters of the factor analysis model.

In the case of the maximum likelihood method, the theory of likelihood ratio testing allows for a test of the goodness of fit with a factor analysis model as the null hypothesis. Under the null hypothesis, the likelihood ratio test statistic follows a chi-squared distribution with d degrees of freedom. If the significance level is α, then the null hypothesis is rejected if the value of the calculated likelihood ratio test statistic is greater than the upper 100α% point of the chi-squared distribution with d degrees of freedom. If the null hypothesis is rejected for a certain number of factors, the number of factors is increased by one, the model is fitted, and the likelihood ratio test statistic is calculated. The smallest number of factors at which the null hypothesis is not rejected is then adopted.

Another method is to use information criteria such as Akaike's information criterion (AIC) or Schwarz, G.'s Bayesian information criterion (BIC) to select the number of factors that minimizes these values. In addition, various goodness of fit indices such as GFI, AGFI, and RMSEA, which were developed for model evaluation in structural equation modeling, can also be used.

Another method is to use the method for selecting the number of principal components in principal component analysis to adopt the number of factors whose contribution is equal to or greater than a certain value. In the case of factor analysis of a correlation coefficient matrix, since the variance of the observed variables is 1, the number of factors whose contribution is equal to or greater than 1 is often adopted, since the contribution of the factors must be greater than the variance of the observed variables. Alternatively, there is also a method of taking the ratio of the sum of the contributions of the factors to the sum of the variances of the observed variables, and using a certain value (such as 90%) as the criterion. However, it should be noted that factor analysis is a method for explaining the correlation between observed variables, and is not a method that aims to explain the variance of the observed variables like principal component analysis. In any case, when deciding the number of factors, it is necessary to consider both theoretical considerations and findings from the data, rather than deciding mechanically according to the above criteria.

[Factor rotation] Factor rotation refers to the operation of transforming current factors to obtain new factors in order to obtain a factor loading matrix that is easy to interpret. Usually, the transformation is performed so that the variance of the new factors after the factor rotation is also 1. Geometrically, rotation means rotating the coordinate axes of the space describing the main part of the observed variable vector, and mathematically, the rotated factor loading matrix is ​​obtained by multiplying the pre-rotation factor loading matrix from the right by a regular matrix. Factor rotation can be broadly divided into orthogonal rotation, in which the rotated factors are uncorrelated with each other, and oblique rotation, in which the rotated factors are correlated.

Factors are easier to interpret if the relationship between observed variables and factors is simplified, such as each observed variable showing high loadings on a small number of factors, preferably only one, and loadings on other factors being as close to zero as possible. Thurston organized the conditions that a factor loading matrix after rotation should satisfy as a simple structure. A factor loading matrix that has only one non-zero element in each row and has a completely simple structure is called a complete cluster solution or an independent cluster solution. Oblique rotation, unlike orthogonal rotation, does not have the constraint that the rotated factors must be uncorrelated with each other, making it easier to get closer to a simple structure. The rotation method that optimizes (minimizes or maximizes) a function that is an index of a simple structure is called analytic rotation and is widely used.

Well-known analytical orthogonal rotation methods include quartimax rotation and varimax rotation by Kaiser HF. Quartimax rotation is a method that maximizes the sum of the variances of the squared elements of a certain row of a factor loading matrix for all rows. In contrast, varimax rotation is a method that maximizes the sum of the variances of the squared elements of a certain column of a factor loading matrix for all columns. In other words, with these methods, the larger the variance of the squared factor loadings, the more simplified that row or column is.

Quartimax rotation is the maximization of the sum of simplicity indices for rows (observed variables), and does not take into account simplification for columns (common factors). For this reason, it is known that the results of Quartimax rotation tend to have factor loadings with large absolute values ​​concentrated in certain columns of the rotated factor loading matrix. In contrast, Varimax rotation is said to give good results in many cases. Varimax rotation is the most successful analytical rotation method.

Methods that include varimax and quartimax rotations are collectively called orthomax rotations. Orthomax rotations include methods such as equamax, parsimax, and factor parsimony. They also include biquartimax rotation, which has intermediate characteristics between quartimax and varimax rotations.

Well-known analytical oblique rotation methods include quartimin rotation and covarimin rotation. When a factor loading matrix is ​​close to a simple structure, if we focus on two distinct columns, the rows with elements with large absolute values ​​are different, and the two columns are considered to be dissimilar to each other. When considering a matrix whose elements are the squared factor loadings, the cortimin rotation is a method to minimize the sum of the inner products of the two distinct columns, and the covarimin rotation is a method to minimize the sum of the covariances. In other words, the degree of similarity between two distinct columns of a matrix whose elements are the squared factor loadings is measured by the inner product in the cortimin rotation and by the covariance in the covariance, and the sum of the similarity between the two distinct columns is minimized. It is known that the results of the cortimin rotation tend to increase the value of the correlation coefficient between factors. In contrast, the results of the covarimin rotation are known to decrease the value of the correlation coefficient between factors, and are not very different from the results of the orthogonal rotation. Methods that include the cortimin rotation and the covarimin rotation are collectively called oblimin rotation. Oblimin rotation also includes biquartimin rotation, which has intermediate properties between cortimin and covalimin rotation.

Since the factor loadings after analytical rotation maximize or minimize a function that is an index of a simple structure, they satisfy the condition for the stationary point of that function. By combining this with a method for calculating the asymptotic variance of the constrained maximum likelihood estimator, the standard error of the maximum likelihood estimate of the factor loadings after analytical rotation can be calculated numerically. In analytical rotation, whether orthogonal or oblique, the row length of the factor loading matrix before rotation affects the results of the rotation. Therefore, to avoid this effect, adjustments are sometimes made by adjusting the row length. This operation is called normalization.

A method other than analytical rotation is Procrustes rotation, which approaches a target matrix constructed based on a hypothesis as closely as possible in a least squares sense. Procrustes rotation also comes in orthogonal and oblique rotations. Promax rotation, which is often used as a method of oblique rotation, is a method in which the factor loading matrix obtained by varimax rotation is cubed to construct a target matrix that emphasizes simple structure, and then oblique Procrustes rotation is performed to approach this target matrix.

After factor rotation, the contributions of all factors, the unique variances, and the commonalities of each observed variable do not change. Also, the fit of the model to the data does not change. In the case of orthogonal rotation, the contributions of each factor change before and after rotation, but even after rotation, the contributions of all factors can be uniquely decomposed into the sum of the contributions of each factor. However, after oblique rotation, there is no single way to decompose the contributions of all factors into the sum of the contributions of each factor.

[Estimation of factor scores] Based on the results of factor analysis, it is sometimes necessary to estimate the factor values, i.e., the factor scores, for each of the n individuals used in the analysis. Methods for estimating factor scores include the regression method, which uses linear regression of factors onto observed variables, and Bartlett's method, which makes the estimator conditionally unbiased. In these methods, the variance calculated from the estimates of factor scores for n individuals is smaller than 1 in the regression method, whereas it is larger than 1 in the Bartlett's method. Even in the case of an orthogonal model, the correlation coefficients between different factors calculated from the estimates of factor scores do not always equal zero, and generally the estimates of the correlation coefficient matrix between factors do not equal the correlation coefficient matrix calculated from the estimates of factor scores. In the case of the Anderson-Rubin's method, the estimates of the correlation coefficient matrix between factors equal the correlation coefficient matrix calculated from the estimates of factor scores for n individuals.

[Other Techniques] Factor analysis has been applied to a variety of data. In this way, various ways of using it have been devised depending on the nature of the data. Usually, the data subject to factor analysis is expressed in each row to an individual, and each column is expressed in a matrix with each column corresponding to an observed variable. Factor analysis can also be positioned as a descriptive method for decomposition of data matrices and reducing dimensions. For this reason, when data consisting of many variable values ​​for each individual and wants to type individuals based on this, factor analysis may be performed by swapping the rows and columns of the data matrix. This method is sometimes called Q technique, and the usual method is sometimes called R technique, R technique.

When factors that are not uncorrelated with each other are obtained through oblique rotation, factor analysis may be applied to the correlation coefficient matrix between factors. This is called the higher order factor analysis. The factor that explains the correlation between observed variables is called the first order factor, and the factor that explains the correlation between first order factors is called the second order factor. Higher order factors can be assumed, such as the cubic factor that explains the correlation of second order factors. → Structural equation model → Principal component analysis → Personality test → Correlation coefficient → Multivariate analysis → Test [Ichikawa Masayoshi]

Latest Sources Psychology Encyclopedia Latest Psychology Encyclopedia About Information

Japanese:
因子分析は観測変数の間の相関の構造を説明する分析法で,潜在的な因子を推論しようとする多変量解析の一つである。心理学的には,知能の理論において知能テストの尺度間の相関構造を説明する因子や,性格の質問紙の構造を説明する因子を探求する過程などにおいて用いられる。観測変数間の相関は,それらがともに共通因子common factorあるいは単に因子factor とよばれる未知の潜在変数latent variableから影響を受けていることによるというモデルに基づいている。観測変数と共通因子との関係から共通因子の意味・内容についての解釈を行ない,観測変数間の相関関係を説明することを目的とする方法である。潜在変数は,心理学における構成概念を統計モデルとして実現したものであり,因子分析モデルは代表的な潜在変数モデルである。また,パス解析モデルなどとともに,構造方程式モデルの下位モデルの一つとして位置づけられる。

【因子分析の歴史と目的】 因子分析は,20世紀の初めにスピアマンSpearman,C.により,知能の構造を説明するための方法として提案された。スピアマンは6科目のテスト得点の相関係数行列を分析し,知能は一般因子と特殊因子の2種類の因子からなるとする知能の2因子説を唱えた。一般因子がすべての科目に共通な要因であるのに対して,特殊因子は個々の科目に固有な要因であり,統計モデルにおける誤差項に相当するものである。スピアマンの2因子モデルは,今日の用語では,すべての観測変数に共通な要因である共通因子が一つであるとする1因子モデルということになる。しかし,容易に想像されるように,テストの数が多い場合などには1因子モデルでは観測変数間の相関関係を十分に説明できない。そこでバートBurt,C.らは,知能は一般因子のほかに主要なものから微細なものに至るまで,いくつかのテストにのみ影響する群因子からなる階層的な構造をもつと考えた。これに対してサーストンThurstone,L.L.は,こうした階層性を仮定せず,共通因子の数が複数個あるとする多因子モデルmultiple factor modelを提案した。多因子モデルの場合には,データからモデルを一意に推定することができないために,後述する因子の回転の問題が生じた。サーストンは,知能を構成する因子として空間,知覚,数,言語,記憶,語の流ちょうさ,推理の7因子を得た。

 コンピュータの登場とその発達により,因子分析で必要とされる大量の計算が容易になったことから,心理学のさまざまな領域で因子分析が適用され,新たな知見が得られるようになった。たとえば,性格の因子分析による研究では,性格は五つの因子で説明できるとされ,それらはビッグ・ファイブBig Five(性格の5大因子)とよばれている。一方,コンピュータの高速な計算能力は,計算量の制約にとらわれない自由な発想をも可能にし,因子分析の理論面の研究にも影響を与えた。数理統計学者の貢献もあり,観測変数が多変量正規分布に従うという仮定のもとで,母数の最尤推定や仮説検定などの統計的推測の理論が整備されていった。また,さまざまな因子の回転の方法が開発された。その誕生以来,因子分析はもっぱら仮説の探索のための方法であったが,1970年代の初めに,ヨレスコフJöreskog,K.G.により仮説の検証の方法としての利用に道が開かれた。

 統計モデルとして見た場合,因子分析モデルは観測変数を従属変数とし,共通因子を独立変数とする線形回帰モデルであり,一組の観測変数の値が少数個の共通因子と各観測変数に付随する誤差の値により定まる,というものである。その特徴は,独立変数である共通因子が観測不能な潜在変数であることである。共通因子はその名のとおりにすべての観測変数に共通な変動要因である。これに対して誤差は独自因子unique factorとよばれ,個々の観測変数に固有な変動を表わしている。観測変数の数をとし,共通因子の数をとする。因子分析モデルでは,個の観測変数の値を説明するために,p+m個の潜在変数を導入していることになる。

 潜在変数である共通因子の平均と分散ならびに相異なる共通因子間の相関係数は任意である。このことから,共通因子は平均が0で分散が1に標準化されているものとするのが一般的である。したがって,共通因子の母共分散行列と母相関係数行列が一致する。相異なる共通因子が互いに無相関であると仮定する場合を直交モデルorthogonal modelとよび,相関を認める場合を斜交モデルoblique modelとよぶ。直交モデルと斜交モデルは相互に変換が可能である。

 因子分析では,観測変数の共通因子に対する回帰係数を因子負荷量factor loadingとよび,独自因子の分散を独自分散unique varianceとよぶ。因子負荷量を要素とする行列のことを因子パターンfactor patternとよび,観測変数と共通因子との共分散を要素とする行列を因子構造factor structureとよぶことがある。因子の解釈には,因子パターンを用いるのが一般的である。直交モデルの場合には,因子パターンと因子構造が一致する。しかし斜交モデルの場合には,因子パターンと因子構造の対応する要素の値や正負の符号が一致するとは限らないので,区別する必要がある。共通因子と独自因子は無相関であること,ならびに相異なる独自因子は互いに無相関であることが仮定される。因子分析モデルでは,共通因子と独自因子が無相関であることから,各観測変数の分散は共通因子によって説明される部分と独自因子によって説明される部分,すなわち独自分散との和に分解される。各観測変数の分散のうち,共通因子によって説明される部分の割合を共通性communalityとよび,独自分散の割合を独自性uniquenessとよぶ。共通性と独自性の和は1である。各観測変数の共通性は,その観測変数と個の共通因子との重相関係数の2乗,すなわち決定係数にほかならない。

 観測変数の分散の総和から独自分散の総和を引いたものが,すべての因子による寄与である。観測変数の分散の総和のうち,ある因子によって説明される部分を,その因子の寄与とよぶ。直交モデルの場合には,すべての因子による寄与は各因子の寄与の和に一意に分解される。しかし斜交モデルの場合には,分解にいくつかの方法がある。因子の寄与率については,観測変数の分散の総和に対する比率で定義する場合と,すべての因子による寄与に対する比率で定義する場合とがある。

 観測変数は,尺度の水準では比尺度(比率尺度)または間隔尺度である。観測変数が間隔尺度の場合には,その原点は意味をもたない。また,比尺度であっても,さまざまな単位の観測変数が混在しているデータの場合には,散布度をそろえた方が便利である。各観測変数の平均を0に,分散を1に標準化した因子負荷量を,標準化した因子負荷量standardized factor loadingという。

 標準化した因子負荷量行列の場合には,ある行の要素を比べることによって,その行に対応する観測変数がどの因子から最も強く影響を受けているかがわかる。また,ある列の要素を比べることによって,その列に対応する共通因子がどの観測変数に最も強く影響しているかがわかる。

 観測変数が標準化されている場合,因子構造は観測変数と共通因子の相関係数行列に一致する。したがって,因子構造の要素の値は-1から1までの範囲に収まる。しかし,標準化した因子負荷量の値はその範囲に収まるとは限らない。

 因子分析モデルのもとで,観測変数の母共分散行列は,母数である因子負荷量,独自分散,共通因子の共分散の関数であり,階数mの非負定値行列と独自分散を対角要素とする正定値対角行列の和に分解される,という構造をもつ。しかし,観測変数の母共分散行列と独自分散を要素とする対角行列が与えられても,因子負荷量と共通因子の共分散を一意に定めることはできない。事前の情報により,いくつかの因子負荷量の値が指定されることなどによってこの一意性の欠如が解消している場合を確認的因子分析,あるいは検証的因子分析confirmatory factor analysisといい,そうでない場合を探索的因子分析exploratory factor analysisという。探索的因子分析の場合には,解釈の容易な因子負荷量行列を得るために,後述する因子の回転とよばれる操作が行なわれる。

 直交モデルの場合には,因子負荷量行列の()要素の2乗は,番目の観測変数の分散のうち,番目の共通因子によって説明される部分である。したがって,因子負荷量行列の列の要素の2乗和が,その列に対応する共通因子の寄与となり,行の要素の2乗和が,その行に対応する観測変数の分散のうち,個の共通因子によって説明される部分となる。直交モデルの場合,標準化された因子負荷量行列の行の要素の2乗和は,その行に対応する観測変数の共通性となる。なお,一般に標準化された因子負荷量行列から計算された寄与率は,標準化されない因子負荷量行列から計算された寄与率と一致しない。

 因子分析に類似した方法として主成分分析principal component analysisがある。しかし,因子分析が共分散(相関)志向であるのに対して,主成分分析は分散志向であり,両者は考え方のうえではかなり異なるものである。因子は観測変数間の相関関係を説明するために因子分析モデルに導入された潜在変数であり,因子の効果が線形であることは,因子分析モデルにおける仮定の一つである。また,モデルの母数が既知の場合でも,あるデータから因子の値は一意に定められないという因子得点の不定性factor score indeterminacyがある。これに対して主成分は,観測変数の線形結合として定義され,観測変数の分散の総和をできる限り多く説明するという基準で導出された合成変数である。したがって,主成分は共通因子と同じ意味での潜在変数ではなく,不定性もない。

 主成分の計算の過程には,共分散行列あるいは相関係数行列のスペクトル分解による固有値・固有ベクトルの計算が含まれている。これは因子分析におけるある推定方法と類似している。

【推定方法】 探索的因子分析の場合にはモデルに不定性があり,データからの情報だけでは母数の推定値を一意に定めることができない。そこで,第一段階として直交モデルのもとで母数の推定値を求める。ただし,直交モデルの場合でも直交回転の不定性がある。そこで,推定方法に応じて適当な制約条件のもとで因子負荷量行列の推定値を求める。これを初期解initial solutionとよぶことがある。因子分析における母数の推定は,しばしば因子の抽出factor extractionとよばれる。因子分析モデルのもとでは,観測される変数の母共分散行列は,母数である因子負荷量と独自分散から構成される。したがって,因子分析モデルに基づく共分散行列の推定値は,因子負荷量と独自分散の推定値から構成される。これに対して,データから計算される標本共分散行列は,こうした構造をもたない。

 母数の推定方法としては,因子分析モデルに基づく共分散行列の推定値と標本共分散行列との不一致の程度を測る不一致度関数discrepancy functionの値を最小化する方法が用いられる。なお,母数の推定に際しては,標本共分散行列ではなく標本相関係数行列を用い,標準化した因子負荷量の推定値を求めることが多い。

 最小2乗法least squares methodは,モデルに基づく共分散行列の推定値と標本共分散行列の対応する要素との差(残差)の2乗和を最小化するという基準に基づく方法である。これに対して一般化最小2乗法generalized least squares methodは,残差間の相関をも考慮した基準に基づく方法である。また,観測変数の分布が多変量正規分布に従うという仮定のもとでは,最尤法maximum likelihood methodが利用できる。最尤法の場合,不一致度関数の最小化は,尤度関数の最大化と同値である。これらの推定方法の違いは不一致度関数の違いに対応し,推定量の性質は不一致度関数によって決まる。不一致度関数の1階微分や2階微分を利用した最適化のアルゴリズムを用いて不一致関数の値を数値的に最小化し,モデルの当てはめを行なうことにより推定値が計算される。実際には,適当な初期値から出発する反復法によって最適化を行なう。

 しかし,こうした反復法によって不一致度関数の最小値が得られるという保証があるわけではない。反復法があらかじめ決められた回数内で停止基準を満たさない非収束が生じることがある。また,停止基準を満たしても,その点における独自分散の値が負になる不適解improper solutionが得られることがある。シミュレーションによる研究などにより,不適解や非収束は過大な因子数や標本の大きさの不足など,モデルやデータに問題がある場合に発生しやすいことが知られている。また,最尤法は最小2乗法に比べると不適解や非収束が生じやすいことが経験的に知られている。実際の分析において,不適解や非収束が生じた場合の対処法は難しい。

 母数の推定方法として,不一致度関数の最小化によらない方法もある。今,なんらかの方法により,共通性あるいは独自性の推定値が得られているものとすると,それらと標本相関係数行列から構成される行列をスペクトル分解し,得られた固有値と固有ベクトルを用いることにより,標準化した因子負荷量の推定値を求める一連の方法がある。こうした方法としては,主因子法principal factor method,正準因子分析canonical factor analysis,アルファ因子分析alpha factor analysisなどがある。主成分分析と主因子法の計算手順の違いは,スペクトル分解の対象となる行列が相関係数行列かそれともその対角要素を共通性の推定値で置き換えた行列であるかの違いである。

 これらの方法では,最初に用いた共通性の推定値と,得られた標準化因子負荷量の推定値から計算された共通性の推定値が一般に一致しない。そこで共通性の推定値の計算と,その結果を用いた標準化因子負荷量の計算を交互に繰り返す場合がある。このような共通性の反復推定を行なう方法は,反復主因子法などとよばれる。共通性の反復推定を行ない,反復計算停止の条件を満たした場合には,それが局所解でない限り主因子法は最小2乗法と,正準因子分析は最尤法と同一の推定値を与える。ただし,こうした反復法は,不一致度関数の最小化による方法に比べると収束が遅い。

【因子数の決め方】 探索的因子分析の場合には,一般に因子数は未知であるから,なんらかの方法によって適切な因子数を決めなければならない。因子分析モデルのもとでは,観測変数の共分散行列や相関係数行列の要素は,より少数個の母数で表わされる。因子分析モデルを仮定した場合とそうでない場合との自由な母数の数の差は,直交モデルと斜交モデルのいずれの場合にも={(2-()}/2であり,これは観測変数が標準化されているか否かにも無関係である。因子分析モデルの母数は,標本共分散行列あるいは標本相関係数行列に基づいて推定されるから,このが非負でなければならない。ここでd≧0という条件から≦{2+1-(8+1)1/2}という不等式が導かれ,これが因子数の上限ということになる。一方,因子数の最小値は0である。これは,各観測変数が互いに無相関であるというモデルに対応する。

 因子数の基準として,標本相関係数行列の固有値を用いるものがある。その一つは,標本相関係数行列の1より大きい固有値の数を因子数とするカイザー-ガットマン基準Kaiser-Guttman criterionである。この基準は,因子分析モデルのもとで,母相関係数行列の1より大きい固有値の数が因子数の下限であるという性質に基づいている。母相関係数行列を,その推定値である標本相関係数行列で置き換え,因子数の基準とするものである。

 標本相関係数行列の固有値の大きさを縦軸に,大きさの順位を横軸に取ったスクリープロットscree plotとよばれる折れ線グラフを作成すると,多くの場合に,ある順位までは固有値の大きさが急激に減少し,そこから先は減少の仕方が緩やかになる。視覚による総合的な判断により,大きさが急速に減少する順位までを因子の数とする方法は,スクリー法scree methodあるいはスクリー・テストscree testとよばれる。カイザー-ガットマン基準やスクリー法は,因子分析モデルの母数の推定値を計算することなく利用できる。

 最尤法の場合には,尤度比検定の理論により,因子分析モデルを帰無仮説とする適合度の検定が利用できる。帰無仮説のもとで,尤度比検定統計量は自由度がdのカイ2乗分布に従う。有意水準をαとすると,計算された尤度比検定統計量の値が,自由度dのカイ2乗分布の上側100α%点より大きい場合には帰無仮説を棄却する。ある因子数で帰無仮説が棄却されたならば,因子数を一つ増やしてモデルの当てはめを行ない,尤度比検定統計量を計算する。そうして帰無仮説が棄却されない最小の因子数を採用する。

 そのほかの方法としては,赤池情報量規準Akaike's information criterion(AIC)やシュバルツSchwarz,G.のベイズ情報量規準Bayesian information criterion(BIC)などの情報量規準により,これらの値が最小になる因子数を採用する方法もある。また,構造方程式モデリングにおけるモデル評価のために開発されたGFI,AGFI,RMSEAなど各種の適合度指標goodness of fit indexも利用可能である。

 また,主成分分析における主成分の数の選択方法を利用し,寄与の大きさが一定の値以上となる因子の数を採用する方法がある。相関係数行列の因子分析の場合には,観測される変数の分散が1であるから,因子の寄与が観測される変数の分散よりも大きくなるという要請から,寄与が1以上となる因子の数を採用することが多い。あるいは,因子の寄与の総和と観測変数の分散の総和の比率を取り,それが一定の値(たとえば90%など)となることを基準とする方法もある。ただし,因子分析は観測される変数間の相関関係を説明するための方法であり,主成分分析のように観測変数の分散を説明することを目的とした方法ではないことに注意する必要がある。いずれにしても,因子数を決める際には上記の基準により機械的に決めるのではなく,理論的考察とデータからの知見の双方を考慮する必要がある。

【因子の回転factor rotation】 因子の回転とは,解釈の容易な因子負荷量行列を得るために,現在の因子を変換して新しい因子を得る操作を指す。通常は,因子の回転後の新しい因子の分散も1となるように変換する。回転とは,幾何学的には観測変数ベクトルの主要部分を記述する空間の座標軸を回転することであり,数式的には回転前の因子負荷量行列の右側から正則な行列をかけることにより,回転後の因子負荷量行列が得られる。因子の回転は,回転後の因子が互いに無相関である直交回転orthogonal rotationと,回転後の因子に相関を認める斜交回転oblique rotationに大別される。

 各観測変数が少数,できれば一つの因子のみに高い負荷を示し,他の因子に対する負荷ができる限り0に近いなど,観測変数と因子との関係が単純化されていると因子の解釈が容易である。サーストンは,回転後の因子負荷量行列が満たすべき条件を単純構造simple structureとよんで整理した。各行に0でない要素が一つしかなく,完全な単純構造をもつ因子負荷量行列を完全クラスター解complete cluster solution,あるいは独立クラスター解independent cluster solutionとよぶ。斜交回転は直交回転と異なり,回転後の因子が互いに無相関であるという制約がないことから,より単純構造に近づけやすい。単純構造の指標となる関数を最適化(最小化または最大化)する回転の方法は,解析的回転analytic rotationとよばれて広く用いられている。

 解析的な直交回転の方法としては,コーティマックス回転quartimax rotationやカイザーKaiser,H.F.によるバリマックス回転varimax rotationがよく知られている。コーティマックス回転は,因子負荷量行列のある行の要素を2乗したものの分散をすべての行について加えたものを最大化する方法である。これに対してバリマックス回転は,因子負荷量行列のある列の要素を2乗したものの分散をすべての列について加えたものを最大化する方法である。すなわち,これらの方法では,因子負荷量を2乗したものの分散が大きいほど,その行あるいは列が単純化されている。

 コーティマックス回転は,行(観測変数)についての単純さの指標の和の最大化であり,列(共通因子)についての単純化が考慮されていない。このため,コーティマックス回転の結果は,回転後の因子負荷量行列のある列に絶対値の大きい因子負荷量が集まりやすいことが知られている。これに対して,バリマックス回転は,多くの場合に良好な結果を与える,とされている。バリマックス回転は,最も大きな成功を収めた解析的回転の方法といえる。

 バリマックス回転やコーティマックス回転を含む方法は,オーソマックス回転orthomax rotationと総称されている。オーソマックス回転には,エカマックスequamax,パーシマックスparsimax,因子パーシモニーfactor parsimonyなどの方法が含まれる。また,コーティマックス回転とバリマックス回転の中間的な性格をもつバイコーティマックス回転biquartimax rotationも含まれる。

 解析的な斜交回転の方法としては,コーティミン回転quartimin rotationやコバリミン回転covarimin rotationがよく知られている。因子負荷量行列が単純構造に近い場合にその相異なる2列に着目すると,絶対値の大きい要素のある行は異なり,その2列は互いに似ていないと考えられる。因子負荷量の2乗を要素とする行列を考えた場合,コーティミン回転は,その相異なる2列の内積の和を,コバリミン回転は共分散の和を最小化する方法である。すなわち,因子負荷量の2乗を要素とする行列の相異なる2列の似ている程度をコーティミン回転では内積で,コバリミン回転では共分散で測り,相異なる2列の似ている程度の和を最小化するのである。コーティミン回転の結果は,因子間の相関係数の値が大きくなる傾向があることが知られている。これに対して,コバリミン回転の結果は,因子間の相関係数の値が小さくなり,直交回転の結果とあまり変わらないことが知られている。コーティミン回転やコバリミン回転を含む方法はオブリミン回転oblimin rotationと総称される。オブリミン回転には,コーティミン回転とコバリミン回転の中間的な性格のバイコーティミン回転biquartimin rotationも含まれる。

 解析的回転後の因子負荷量は,単純構造の指標となる関数を最大化あるいは最小化するものであるから,その関数の停留点の条件を満たす。このことと,制約付き最尤推定量の漸近分散の計算方法を組み合わせることにより,解析的回転後の因子負荷量の最尤推定量の標準誤差を数値的に計算できる。解析的回転では,直交と斜交のいずれの場合にも,回転前の因子負荷量行列の行の長さが回転の結果に影響を及ぼす。そこで,その影響を回避するために行の長さによる調整を行なうことがある。この操作を規準化normalizationという。

 解析的回転以外の方法としては,仮説に基づいて構成された目標行列target matrixに最小2乗法的な意味でできる限り近づけるプロクラステス回転Procrustes rotationがある。プロクラステス回転にも直交回転と斜交回転がある。斜交回転の方法としてよく利用されるプロマックス回転promax rotationは,バリマックス回転により得られた因子負荷量行列を3乗して単純構造を強調した目標行列を構成し,それに近づけるように斜交プロクラステス回転を行なう方法である。

 因子の回転後もすべての因子による寄与や各独自分散や各観測変数の共通性は変化しない。また,モデルのデータへの適合度も変化しない。直交回転の場合には,回転の前後で各因子の寄与は変化するが,回転後もすべての因子による寄与を各因子の寄与の和に一意に分解できる。しかし斜交回転後は,すべての因子による寄与を各因子の寄与の和に分解する方法が一通りではない。

【因子得点の推定】 因子分析の結果に基づき,分析に用いた個の個体のそれぞれについて因子の値,すなわち因子得点を推定したい場合がある。因子得点の推定方法としては,因子の観測変数への線形回帰による回帰法regression methodや,推定量が条件付き不偏になるバートレットの方法Bartlett's methodがある。これらの方法では,個の個体についての因子得点の推定値から計算された分散は,回帰法の場合には1より小さくなるのに対して,バートレットの方法の場合には1より大きくなる。また,直交モデルの場合でも,因子得点の推定値から計算された相異なる因子間の相関係数がゼロにならないなど,一般に,因子間の相関係数行列の推定値と因子得点の推定値から計算された相関係数行列が一致しない。アンダーソン-ルービンの方法Anderson-Rubin's methodの場合には,因子間の相関係数行列の推定値と,個の個体についての因子得点の推定値から計算された相関係数行列が一致する。

【その他の技法】 因子分析は,さまざまなデータに適用されてきた。そうした中で,データの性質に応じてさまざまな利用方法が工夫されてきた。通常,因子分析の対象となるデータは,各行が個体に,各列が観測変数に対応する行列として表わされる。因子分析は,データ行列の分解と次元の縮小のための記述的な方法として位置づけることもできる。このことから,各個体についての多数の変数の値からなるデータがあり,それに基づいて個体の類型化を行ないたい場合には,データ行列の行と列を入れ替えて因子分析を行なうことがある。こうした方法をQ技法Q techniqueとよび,これに対して通常の方法をR技法R technique とよんで区別する場合がある。

 斜交回転により,互いに無相関ではない因子が得られた場合,因子間の相関係数行列に対して因子分析を適用することがある。これが高次因子分析higher order factor analysisとよばれるものである。観測される変数間の相関関係を説明する因子を1次因子,1次因子の相関関係を説明する因子を2次因子とよぶ。2次因子の相関関係を説明する3次因子というように,より高次の因子を想定することができる。 →構造方程式モデル →主成分分析 →性格検査 →相関係数 →多変量解析 →テスト
〔市川 雅教〕

出典 最新 心理学事典最新 心理学事典について 情報

<<:  Hermit - Inja

>>:  Yin-zhi-lu (English spelling)

Recommend

Umberto Eco

Italian critic, aesthetician, semiotician, and no...

international usage

…This refers to an external state action that is ...

Centrifuge (art) - entanglement

...In Russian, it is called futurizm. Four main g...

Hodgkinson, E.

…Completed in 1850. Designed by R. Stephenson, W....

Human Hole - Human Hole

A cave found at the foot of a volcano. It was form...

Kinkoryu

The name of a shakuhachi school. Its founder was ...

Hadad

…Originally a Western Semitic god of storms and t...

Air spinning frame; open end spinning frame

Used in the process of twisting to make yarn. A sp...

Trinitrotoluene - Torinitorotoruen (English spelling) trinitrotoluene

A high-performance military explosive known as TN...

Maitake (Maitake) - Grifola frondosa

Basidiomycetes, order Aphyllosteganaceae, family P...

Praxiteles

Date of birth and death unknown. Ancient Greek sc...

Pingjiang City Hall Map - Heikou Jobōzu (English)

A stone monument engraved with a city map of Suzho...

Novum organum

A work by F. Bacon. It was first published in 1620...

Frederik

…During his 16 months in office, he issued about ...

Finally (ageku)

A term used in renga and haikai. Refers to the fin...