RESUMO
The CART algorithm has been extensively applied in predictive studies, however, researchers argue that CART produces variable selection bias. This bias is reflected in the preference of CART in selecting predictors with large numbers of cutpoints. Considering this problem, this article compares the CART algorithm to an unbiased algorithm (CTREE), in relation to their predictive power. Both algorithms were applied to the 2011 National Exam of High School Education, which includes many categorical predictors with a large number of categories, which could produce a variable selection bias. A CTREE tree and a CART tree were generated, both with 16 leaves, from a predictive model with 53 predictors and the students' writing essay achievement as the outcome. The CART algorithm yielded a tree with a better outcome prediction. This result suggests that for large data sets, called big data, the CART algorithm might give better results than the CTREE algorithm.(AU)
O algoritmo CART tem sido aplicado de forma extensiva em estudos preditivos. Porém, pesquisadores argumentam que o CART apresenta sério viés seletivo. Esse viés aparece na preferência do CART pelos preditores com grande número de categorias. Este artigo considera esse problema e compara os algoritmos CART e CTREE, este considerado não enviesado, tomando como resultado seu poder preditivo. Os algoritmos foram aplicados no Exame Nacional do Ensino Médio de 2011, no qual estão incluídos vários preditores nominais e ordinais com muitas categorias, o que pode produzir um viés seletivo. Foram geradas uma árvore do CTREE e outra do CART, ambas com 16 folhas, provenientes de um modelo com 53 variáveis preditoras e a nota da redação, como desfecho. A árvore do algoritmo CART apresentou uma melhor predição. Para grandes bancos de dados, possivelmente o algoritmo CART é mais indicado do que o algoritmo CTREE.(AU)
El algoritmo CART es ampliamente utilizado en análisis predictivos. Sin embargo, los investigadores argumentan que el CART presenta un fuerte sesgo de selección. Este sesgo se refleja en el CART en la preferencia de seleccionar predictores con elevado número de categorías. Teniendo en cuenta este problema, el presente artículo compara el algoritmo CART y un algoritmo imparcial (CTREE) con relación a su poder predictivo. Ambos algoritmos se aplicaron en el Examen Nacional de la Enseñanza Secundaria de 2011, incluyendo predictores nominales y ordinales con diversas categorías, un escenario susceptible de producir el sesgo de selección de variables mencionado. Fueron generados un árbol CTREE y un árbol CART, ambos con 16 hojas, provenientes de un modelo predictivo con 53 variables y la nota del comentario de texto. El árbol del algoritmo CART presentó mejor predicción. Para grandes bases de datos el algoritmo CART puede proporcionar mejores resultados que el CTREE.(AU)
Assuntos
Algoritmos , Árvores de Decisões , Ensino Fundamental e Médio , Avaliação Educacional , Viés de Seleção , Valor Preditivo dos TestesRESUMO
RESUMO Apesar das controvérsias sobre o conceito e a avaliação da inteligência, o desempenho cognitivo assume um papel fundamental no contexto educativo e são múltiplos os fatores que lhe estão associados. Este estudo toma uma amostra aleatória e representativa de 1201 crianças do 2.º ciclo do ensino básico de escolas públicas portuguesas, com idades entre 9 e 14 anos. Discute-se o impacto das variáveis sociofamiliares (profissão da mãe e do pai, escolaridade da mãe e do pai e meio de pertença urbano vs rural). Os resultados destacam a relevância dessas variáveis para a explicação do desempenho cognitivo dos alunos, especialmente a escolaridade da mãe e o meio urbano de proveniência. Apresentam-se considerações práticas voltadas à equidade do sistema educativo.
ABSTRACT Despite the controversies over the concept and evaluation of intelligence, cognitive achievement plays a fundamental role in educational context, and multiple factors are related to it. The current study uses a random and representative sample of 1201 2nd grade children from Portuguese public schools, between 9 and 14 years old. This study aims to discuss the impact of social and familial variables (mother and father's jobs, mother and father's educational level, and urban or rural environment of belonging). The results highlight the importance of social and familial variables as an explanation to students' cognitive achievement, with great relevance to mother's educational level and urban environment of belonging. Practical considerations aiming a better equity in educational system are presented.