RESUMO
Researchers dealing with the task of estimating locations of individuals on continuous latent variables may rely on several statistical models described in the literature. However, weighting costs and benefits of using one specific model over alternative models depends on empirical information that is not always clearly available. Therefore, the aim of this simulation study was to compare the performance of seven popular statistical models in providing adequate latent trait estimates in conditions of items difficulties targeted at the sample mean or at the tails of the latent trait distribution. Results suggested an overall tendency of models to provide more accurate estimates of true latent scores when using items targeted at the sample mean of the latent trait distribution. Rating Scale Model, Graded Response Model, and Weighted Least Squares Mean- and Variance-adjusted Confirmatory Factor Analysis yielded the most reliable latent trait estimates, even when applied to inadequate items for the sample distribution of the latent variable. These findings have important implications concerning some popular methodological practices in Psychology and related areas. (AU)
Pesquisadores interessados em estimar a localização de indivíduos em variáveis latentes contínuas podem se beneficiar de diversos modelos estatísticos disponíveis na literatura. Entretanto, ponderar os custos e os benefícios de usar um modelo em detrimento de outros depende de informações empíricas que nem sempre estão diretamente disponíveis. Em virtude disso, o objetivo deste estudo foi comparar o desempenho de sete modelos estatísticos populares quanto a proporcionar adequadas estimativas de traço latente em condições de itens com dificuldades condizentes com a distribuição latente amostral versus apenas condizentes com as caudas dessa distribuição. Os resultados sugeriram uma tendência de todos os modelos de proporcionar estimativas mais precisas ao serem usados itens adequados para o nível de traço latente da amostra. Os modelos da Teoria de Resposta ao Item Rating Scale e Graded Response e a análise fatorial confirmatória com estimação Weighted Least Squares Mean- and Variance-adjusted forneceram as estimativas mais fidedignas de traço latente, mesmo quando os itens utilizados, de fato, correspondiam ao nível latente de poucos casos da amostra. Os resultados possuem importantes implicações no que diz respeito a algumas práticas metodológicas populares na Psicologia e em áreas próximas. (AU)
Assuntos
Psicometria , Estatística como Assunto , Análise FatorialRESUMO
O equilíbrio de Hardy-Weinberg é um dos principais assuntos estudados pela Genética de populações. Neste contexto, o presente trabalho aborda a análise e a comparação bayesiana de modelos utilizando o coeficiente de desequilíbrio (D A). Para isso, realizou-se um estudo de simulação no qual as seguintes distribuições a priori foram consideradas: Dirichlet (modelo 1); beta - função degrau uniforme (modelo 2); uniforme - função degrau uniforme (modelo 3); e as prioris independentes uniformes (modelo 4). Exemplos de aplicação a dados reais de grupos raciais também são apresentados e discutidos. As amostras das distribuições marginais a posteriori para os parâmetros de interesse foram obtidas mediante o algoritmo Metropolis-Hastings, o qual foi implementado no software livre R. A convergência das cadeias geradas por este algoritmo foi monitorada pelos critérios de Geweke e Gelman & Rubin, os quais estão implementados no pacote BOA do R. Quanto às comparações entre os modelos, efetuadas por meio do fator de Bayes, observa-se que, para os dados simulados, o modelo 4 é o mais indicado para os casos de D A=0,146, D A=0,02 e D A=-0,02 com n=200; o modelo 2 é o mais indicado para D A=-0,02 e n=50 e o modelo 3 é o mais indicado para D A=-0,02 e n=1000. Para os dados reais, em cada caso analisado, nota-se uma grande diferenciação na escolha de modelos, em que apenas o modelo 1 não é recomendado.
One of the main subjects studied by population genetics is the Hardy-Weinberg equilibrium. In this context, this paper addresses the analysis and comparison of bayesian models used in its evaluation by the coefficient of disequilibrium. For this, it was carried out a simulation study in which the following prior distributions were considered: Dirichlet (model 1), beta - uniform step function (model 2), uniform - uniform step function (model 3) and independent uniform priors (model 4). Examples of application to real data for racial groups are presented and discussed. Samples from the marginal posterior distributions for parameters of interest were obtained by Metropolis-Hastings algorithm, which was implemented in the software R. The convergence of the chains generated by this algorithm was monitored by criteria of Geweke and Gelman & Rubin, which are implemented in the BOA package R. Regarding comparisons between models, performed using the Bayes factor, it was observed that model 4 is the most suitable for the cases of D A=0.146, D A=0.02 and D A=-0.02 with n=200, the model 2 is the most suitable for D A=-0.02 with n=50 and the model 3 is the most suitable for D A=-0.02 and n=1000. For real data, in each case examined, there is a large difference in choice of models, where model 1 is the only one not recommended.
RESUMO
One of the main subjects studied by population genetics is the Hardy-Weinberg equilibrium. In this context, this paper addresses the analysis and comparison of bayesian models used in its evaluation by the coefficient of disequilibrium. For this, it was carried out a simulation study in which the following prior distributions were considered: Dirichlet (model 1), beta - uniform step function (model 2), uniform - uniform step function (model 3) and independent uniform priors (model 4). Examples of application to real data for racial groups are presented and discussed. Samples from the marginal posterior distributions for parameters of interest were obtained by Metropolis-Hastings algorithm, which was implemented in the software R. The convergence of the chains generated by this algorithm was monitored by criteria of Geweke and Gelman & Rubin, which are implemented in the BOA package R. Regarding comparisons between models, performed using the Bayes factor, it was observed that model 4 is the most suitable for the cases of D A=0.146, D A=0.02 and D A=-0.02 with n=200, the model 2 is the most suitable for D A=-0.02 with n=50 and the model 3 is the most suitable for D A=-0.02 and n=1000. For real data, in each case examined, there is a large difference in choice of models, where model 1 is the only one not recommended.
O equilíbrio de Hardy-Weinberg é um dos principais assuntos estudados pela Genética de populações. Neste contexto, o presente trabalho aborda a análise e a comparação bayesiana de modelos utilizando o coeficiente de desequilíbrio (D A). Para isso, realizou-se um estudo de simulação no qual as seguintes distribuições a priori foram consideradas: Dirichlet (modelo 1); beta - função degrau uniforme (modelo 2); uniforme - função degrau uniforme (modelo 3); e as prioris independentes uniformes (modelo 4). Exemplos de aplicação a dados reais de grupos raciais também são apresentados e discutidos. As amostras das distribuições marginais a posteriori para os parâmetros de interesse foram obtidas mediante o algoritmo Metropolis-Hastings, o qual foi implementado no software livre R. A convergência das cadeias geradas por este algoritmo foi monitorada pelos critérios de Geweke e Gelman & Rubin, os quais estão implementados no pacote BOA do R. Quanto às comparações entre os modelos, efetuadas por meio do fator de Bayes, observa-se que, para os dados simulados, o modelo 4 é o mais indicado para os casos de D A=0,146, D A=0,02 e D A=-0,02 com n=200; o modelo 2 é o mais indicado para D A=-0,02 e n=50 e o modelo 3 é o mais indicado para D A=-0,02 e n=1000. Para os dados reais, em cada caso analisado, nota-se uma grande diferenciação na escolha de modelos, em que apenas o modelo 1 não é recomendado.
RESUMO
One of the main subjects studied by population genetics is the Hardy-Weinberg equilibrium. In this context, this paper addresses the analysis and comparison of bayesian models used in its evaluation by the coefficient of disequilibrium. For this, it was carried out a simulation study in which the following prior distributions were considered: Dirichlet (model 1), beta - uniform step function (model 2), uniform - uniform step function (model 3) and independent uniform priors (model 4). Examples of application to real data for racial groups are presented and discussed. Samples from the marginal posterior distributions for parameters of interest were obtained by Metropolis-Hastings algorithm, which was implemented in the software R. The convergence of the chains generated by this algorithm was monitored by criteria of Geweke and Gelman & Rubin, which are implemented in the BOA package R. Regarding comparisons between models, performed using the Bayes factor, it was observed that model 4 is the most suitable for the cases of D A=0.146, D A=0.02 and D A=-0.02 with n=200, the model 2 is the most suitable for D A=-0.02 with n=50 and the model 3 is the most suitable for D A=-0.02 and n=1000. For real data, in each case examined, there is a large difference in choice of models, where model 1 is the only one not recommended.
O equilíbrio de Hardy-Weinberg é um dos principais assuntos estudados pela Genética de populações. Neste contexto, o presente trabalho aborda a análise e a comparação bayesiana de modelos utilizando o coeficiente de desequilíbrio (D A). Para isso, realizou-se um estudo de simulação no qual as seguintes distribuições a priori foram consideradas: Dirichlet (modelo 1); beta - função degrau uniforme (modelo 2); uniforme - função degrau uniforme (modelo 3); e as prioris independentes uniformes (modelo 4). Exemplos de aplicação a dados reais de grupos raciais também são apresentados e discutidos. As amostras das distribuições marginais a posteriori para os parâmetros de interesse foram obtidas mediante o algoritmo Metropolis-Hastings, o qual foi implementado no software livre R. A convergência das cadeias geradas por este algoritmo foi monitorada pelos critérios de Geweke e Gelman & Rubin, os quais estão implementados no pacote BOA do R. Quanto às comparações entre os modelos, efetuadas por meio do fator de Bayes, observa-se que, para os dados simulados, o modelo 4 é o mais indicado para os casos de D A=0,146, D A=0,02 e D A=-0,02 com n=200; o modelo 2 é o mais indicado para D A=-0,02 e n=50 e o modelo 3 é o mais indicado para D A=-0,02 e n=1000. Para os dados reais, em cada caso analisado, nota-se uma grande diferenciação na escolha de modelos, em que apenas o modelo 1 não é recomendado.
RESUMO
Este trabalho tem como objetivo realizar uma análise bayesiana de modelos, por meio do fator de Bayes, para o desequilíbrio de Hardy-Weinberg. Pretende-se também testar a metodologia por meio da simulação de dados e aplicá-la a um conjunto de dados reais. Na definição dos modelos, utilizaram-se as prioris Dirichlet (modelo 1), Beta - função degrau Uniforme (modelo 2), Uniforme - função degrau Uniforme (modelo 3) e as prioris independentes Uniformes (modelo 4) relacionadas aos parâmetros coeficiente de endogamia e proporção alélica. Foi implementado um algoritmo no software livre R para realizar a amostragem pelo Metropolis-Hastings das distribuições condicionais a posteriori dos parâmetros dos modelos. A convergência das cadeias foram monitoradas por meio de procedimentos implementados no pacote BOA do software livre R. As comparações entre os modelos indicaram que o mais adequado, ou seja, o que melhor descreve o fenômeno em estudo, é o modelo 1, em comparação aos demais, tanto para os dados simulados, quanto para os dados reais. Em virtude dos resultados apresentados, pode-se atestar que a abordagem Bayesiana apresentou bons resultados, ou seja, por meio das distribuições a posteriori condicionais completas, foram verificadas a confiabilidade e a precisão da metodologia na comparação dos modelos.
The aim of this research is to perform a Bayesian characterization of the Hardy-Weinberg disequilibrium through the Bayes factor. The methodology is tested by using both simulation study and actual data. It was used the following priors for the Bayesian models: Dirichlet (model 1), beta - step uniform function (model 2), uniform - step uniform function (model 3) and independent uniforms for the inbreeding coefficients and allele frequencies (model 4). Metropolis-Hasting algorithms were implemented using the software R to simulate multiple draws from the posterior distribution. Convergence of the Metropolis-Hasting algorithms was assessed by many methods available at R package BOA. Results showed that the model 1 presents the best performance for both simulation study and actual data. The results also showed that the Bayesian approach provides models that are useful for the analysis of the Hardy-Weinberg disequilibrium and inbreeding coefficient.
RESUMO
The aim of this research is to perform a Bayesian characterization of the Hardy-Weinberg disequilibrium through the Bayes factor. The methodology is tested by using both simulation study and actual data. It was used the following priors for the Bayesian models: Dirichlet (model 1), beta - step uniform function (model 2), uniform - step uniform function (model 3) and independent uniforms for the inbreeding coefficients and allele frequencies (model 4). Metropolis-Hasting algorithms were implemented using the software R to simulate multiple draws from the posterior distribution. Convergence of the Metropolis-Hasting algorithms was assessed by many methods available at R package BOA. Results showed that the model 1 presents the best performance for both simulation study and actual data. The results also showed that the Bayesian approach provides models that are useful for the analysis of the Hardy-Weinberg disequilibrium and inbreeding coefficient.
Este trabalho tem como objetivo realizar uma análise bayesiana de modelos, por meio do fator de Bayes, para o desequilíbrio de Hardy-Weinberg. Pretende-se também testar a metodologia por meio da simulação de dados e aplicá-la a um conjunto de dados reais. Na definição dos modelos, utilizaram-se as prioris Dirichlet (modelo 1), Beta - função degrau Uniforme (modelo 2), Uniforme - função degrau Uniforme (modelo 3) e as prioris independentes Uniformes (modelo 4) relacionadas aos parâmetros coeficiente de endogamia e proporção alélica. Foi implementado um algoritmo no software livre R para realizar a amostragem pelo Metropolis-Hastings das distribuições condicionais a posteriori dos parâmetros dos modelos. A convergência das cadeias foram monitoradas por meio de procedimentos implementados no pacote BOA do software livre R. As comparações entre os modelos indicaram que o mais adequado, ou seja, o que melhor descreve o fenômeno em estudo, é o modelo 1, em comparação aos demais, tanto para os dados simulados, quanto para os dados reais. Em virtude dos resultados apresentados, pode-se atestar que a abordagem Bayesiana apresentou bons resultados, ou seja, por meio das distribuições a posteriori condicionais completas, foram verificadas a confiabilidade e a precisão da metodologia na comparação dos modelos.
RESUMO
The aim of this research is to perform a Bayesian characterization of the Hardy-Weinberg disequilibrium through the Bayes factor. The methodology is tested by using both simulation study and actual data. It was used the following priors for the Bayesian models: Dirichlet (model 1), beta - step uniform function (model 2), uniform - step uniform function (model 3) and independent uniforms for the inbreeding coefficients and allele frequencies (model 4). Metropolis-Hasting algorithms were implemented using the software R to simulate multiple draws from the posterior distribution. Convergence of the Metropolis-Hasting algorithms was assessed by many methods available at R package BOA. Results showed that the model 1 presents the best performance for both simulation study and actual data. The results also showed that the Bayesian approach provides models that are useful for the analysis of the Hardy-Weinberg disequilibrium and inbreeding coefficient.
Este trabalho tem como objetivo realizar uma análise bayesiana de modelos, por meio do fator de Bayes, para o desequilíbrio de Hardy-Weinberg. Pretende-se também testar a metodologia por meio da simulação de dados e aplicá-la a um conjunto de dados reais. Na definição dos modelos, utilizaram-se as prioris Dirichlet (modelo 1), Beta - função degrau Uniforme (modelo 2), Uniforme - função degrau Uniforme (modelo 3) e as prioris independentes Uniformes (modelo 4) relacionadas aos parâmetros coeficiente de endogamia e proporção alélica. Foi implementado um algoritmo no software livre R para realizar a amostragem pelo Metropolis-Hastings das distribuições condicionais a posteriori dos parâmetros dos modelos. A convergência das cadeias foram monitoradas por meio de procedimentos implementados no pacote BOA do software livre R. As comparações entre os modelos indicaram que o mais adequado, ou seja, o que melhor descreve o fenômeno em estudo, é o modelo 1, em comparação aos demais, tanto para os dados simulados, quanto para os dados reais. Em virtude dos resultados apresentados, pode-se atestar que a abordagem Bayesiana apresentou bons resultados, ou seja, por meio das distribuições a posteriori condicionais completas, foram verificadas a confiabilidade e a precisão da metodologia na comparação dos modelos.
RESUMO
Neste estudo, utilizou-se a metodologia Bayesiana para estimar o coeficiente de endogamia e a taxa de fecundação cruzada de uma população diplóide por meio do modelo aleatório de COCKERHAM para freqüências alélicas. Um sistema de simulação de dados foi estruturado para validar a metodologia utilizada. O algoritmo Gibbs Sampler foi implementado no software R para obter amostras das distribuições marginais a posteriori para o coeficiente de endogamia e para a taxa de fecundação. O método Bayesiano mostrou-se eficiente na estimação dos parâmetros, pois os valores paramétricos utilizados na simulação encontravam-se dentro do intervalo de credibilidade de 95 por cento em todos os cenários considerados. A convergência do algoritmo Gibbs Sampler foi verificada, validando assim os resultados obtidos.(AU)
The Bayesian methodology was used to estimate the inbreeding coefficient and outcrossing rate in diploid populations by COCKERHAM random model to allelic frequency. The proposed methodology was evaluated by data simulation. The Gibbs Sampler algorithm was implemented in the R statistical software to obtain the random samples of the inbreeding coefficient and outcrossing rate posteriors marginal distributions. The Bayesian method showed good results, because the 95 percent credible intervals contained the true parameter values to all of the selected scenes. The Gibbs Sampler convergence was checked and this validated the estimation results.(AU)
Assuntos
Endogamia , Testes GenéticosRESUMO
Neste estudo, utilizou-se a metodologia Bayesiana para estimar o coeficiente de endogamia e a taxa de fecundação cruzada de uma população diplóide por meio do modelo aleatório de COCKERHAM para freqüências alélicas. Um sistema de simulação de dados foi estruturado para validar a metodologia utilizada. O algoritmo Gibbs Sampler foi implementado no software R para obter amostras das distribuições marginais a posteriori para o coeficiente de endogamia e para a taxa de fecundação. O método Bayesiano mostrou-se eficiente na estimação dos parâmetros, pois os valores paramétricos utilizados na simulação encontravam-se dentro do intervalo de credibilidade de 95 por cento em todos os cenários considerados. A convergência do algoritmo Gibbs Sampler foi verificada, validando assim os resultados obtidos.
The Bayesian methodology was used to estimate the inbreeding coefficient and outcrossing rate in diploid populations by COCKERHAM random model to allelic frequency. The proposed methodology was evaluated by data simulation. The Gibbs Sampler algorithm was implemented in the R statistical software to obtain the random samples of the inbreeding coefficient and outcrossing rate posteriors marginal distributions. The Bayesian method showed good results, because the 95 percent credible intervals contained the true parameter values to all of the selected scenes. The Gibbs Sampler convergence was checked and this validated the estimation results.
RESUMO
Studies of genetic control in plants are carried out to characterize genetic effects and detect the existence of a major gene and/or genes of minor effects (polygenes). If the trait of interest is continuous, the likelihood can be constructed based on a model with mixtures of normal densities. Once exact tests are not evident with such models, the likelihood ratio test is generally used, using the chi-square approximation. This work aimed at evaluating such test statistic using computer simulation. Data sets were simulated using generations typical in plant studies, under two conditions of null hypothesis, without a major gene, and without polygenes. The power of the test was evaluated with both types of genes present. Different sample sizes and values of heritability were considered. Results showed that, although the empirical densities of the test statistic departed significantly from a chi-square distribution, under null hypotheses, there was a reasonable control of type I error, with a significance level of 5%. The power of the test was generally high to detect polygenes and major genes. Power is low to detect a major gene only when it explains a low fraction of genetic variation.
Estudos de herança genética em plantas são realizados para caracterizar os efeitos genéticos e verificar a existência de um gene de efeito maior e/ou de genes de pequeno efeito (poligenes). Quando a característica de interesse é contínua, a verossimilhança é baseada em modelos de misturas de densidades normais. Uma vez que não há testes exatos evidentes para julgar a existência de um gene de efeito maior, a razão de verossimilhança generalizada é em geral utilizada, considerando a aproximação de qui-quadrado. Este trabalho objetivou avaliar esta estatística de teste através de simulação em computador. Dados foram simulados, considerando particularidades de genealogia típicas de tais estudos, e duas condições sob a hipótese de nulidade, ou seja, sem a presença de um gene de efeito maior e sem a presença de genes de pequeno efeito (poligenes), para avaliar o controle do erro tipo I. O poder do teste foi avaliado com ambos presentes. No processo de simulação, foram variados o tamanho de amostra e valores do coeficiente de herdabilidade. Resultados indicaram que, embora a distribuição empírica da razão de verossimilhança tenha se desviado significativamente da distribuição de qui-quadrado, houve controle do erro tipo I, considerando um nível de significância nominal de 5%. O poder é elevado para detectar poligenes e gene de efeito maior, em geral. O poder é baixo para detectar ge
RESUMO
Studies of genetic control in plants are carried out to characterize genetic effects and detect the existence of a major gene and/or genes of minor effects (polygenes). If the trait of interest is continuous, the likelihood can be constructed based on a model with mixtures of normal densities. Once exact tests are not evident with such models, the likelihood ratio test is generally used, using the chi-square approximation. This work aimed at evaluating such test statistic using computer simulation. Data sets were simulated using generations typical in plant studies, under two conditions of null hypothesis, without a major gene, and without polygenes. The power of the test was evaluated with both types of genes present. Different sample sizes and values of heritability were considered. Results showed that, although the empirical densities of the test statistic departed significantly from a chi-square distribution, under null hypotheses, there was a reasonable control of type I error, with a significance level of 5%. The power of the test was generally high to detect polygenes and major genes. Power is low to detect a major gene only when it explains a low fraction of genetic variation.
Estudos de herança genética em plantas são realizados para caracterizar os efeitos genéticos e verificar a existência de um gene de efeito maior e/ou de genes de pequeno efeito (poligenes). Quando a característica de interesse é contínua, a verossimilhança é baseada em modelos de misturas de densidades normais. Uma vez que não há testes exatos evidentes para julgar a existência de um gene de efeito maior, a razão de verossimilhança generalizada é em geral utilizada, considerando a aproximação de qui-quadrado. Este trabalho objetivou avaliar esta estatística de teste através de simulação em computador. Dados foram simulados, considerando particularidades de genealogia típicas de tais estudos, e duas condições sob a hipótese de nulidade, ou seja, sem a presença de um gene de efeito maior e sem a presença de genes de pequeno efeito (poligenes), para avaliar o controle do erro tipo I. O poder do teste foi avaliado com ambos presentes. No processo de simulação, foram variados o tamanho de amostra e valores do coeficiente de herdabilidade. Resultados indicaram que, embora a distribuição empírica da razão de verossimilhança tenha se desviado significativamente da distribuição de qui-quadrado, houve controle do erro tipo I, considerando um nível de significância nominal de 5%. O poder é elevado para detectar poligenes e gene de efeito maior, em geral. O poder é baixo para detectar ge