An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil

Digital information generates the possibility of a high degree of redundancy in the data available for fitting predictive models used for Digital Soil Mapping (DSM). Among these models, the Decision Tree (DT) technique has been increasingly applied due to its capacity of dealing with large datasets....

Full description

Bibliographic Details
Main Authors: Alexandre ten Caten, Ricardo Simão Diniz Dalmolin, Fabrício de Araújo Pedron, Luis Fernando Chimelo Ruiz, Carlos Antônio da Silva
Format: Article
Language:English
Published: Sociedade Brasileira de Ciência do Solo 2013-04-01
Series:Revista Brasileira de Ciência do Solo
Subjects:
Online Access:http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-06832013000200007
_version_ 1819072166578094080
author Alexandre ten Caten
Ricardo Simão Diniz Dalmolin
Fabrício de Araújo Pedron
Luis Fernando Chimelo Ruiz
Carlos Antônio da Silva
author_facet Alexandre ten Caten
Ricardo Simão Diniz Dalmolin
Fabrício de Araújo Pedron
Luis Fernando Chimelo Ruiz
Carlos Antônio da Silva
author_sort Alexandre ten Caten
collection DOAJ
description Digital information generates the possibility of a high degree of redundancy in the data available for fitting predictive models used for Digital Soil Mapping (DSM). Among these models, the Decision Tree (DT) technique has been increasingly applied due to its capacity of dealing with large datasets. The purpose of this study was to evaluate the impact of the data volume used to generate the DT models on the quality of soil maps. An area of 889.33 km² was chosen in the Northern region of the State of Rio Grande do Sul. The soil-landscape relationship was obtained from reambulation of the studied area and the alignment of the units in the 1:50,000 scale topographic mapping. Six predictive covariates linked to the factors soil formation, relief and organisms, together with data sets of 1, 3, 5, 10, 15, 20 and 25 % of the total data volume, were used to generate the predictive DT models in the data mining program Waikato Environment for Knowledge Analysis (WEKA). In this study, sample densities below 5 % resulted in models with lower power of capturing the complexity of the spatial distribution of the soil in the study area. The relation between the data volume to be handled and the predictive capacity of the models was best for samples between 5 and 15 %. For the models based on these sample densities, the collected field data indicated an accuracy of predictive mapping close to 70 %.<br>Informações digitais tornam possível um elevado grau de redundância das informações disponíveis para o ajuste de modelos preditores aplicados ao Mapeamento Digital de Solos (MDS). Entre esses modelos, a técnica de Árvores de Decisão (AD) tem aplicação crescente, em razão da sua potência no tratamento de grandes volumes de dados. Objetivou-se com este trabalho avaliar o impacto do volume de dados utilizados para gerar os modelos por AD, na qualidade dos mapas de solos gerados pela técnica de MDS. Uma área de estudo com 889,33 km² foi escolhida na região do Planalto Médio do Rio Grande do Sul. As relações solo-paisagem foram obtidas a partir de reambulação da área de estudo e delineamento das unidades de mapeamento em cartas topográficas de escala 1:50.000. Seis covariáveis preditoras ligadas aos fatores de formação do solo, relevo e organismos, juntamente com os conjuntos de dados de um, três, cinco, 10, 15, 20 e 25 % do volume total de dados, foram usadas para gerar os modelos preditivos por AD no programa WEKA. Neste estudo, densidades de amostragem menores do que 5 % resultaram em modelos com menor poder de capturar a complexidade da distribuição espacial do solo da área estudada. Amostragens entre cinco e 15 % conduziram a uma melhor relação entre o volume de dados a ser manipulado e a capacidade preditiva dos modelos gerados. Dados coletados no campo indicaram acurácia dos mapas preditos próxima a 70 %, para os modelos oriundos dessas densidades de amostragem.
first_indexed 2024-12-21T17:33:24Z
format Article
id doaj.art-4279cc0ff8174474a09de2c7e6928ed3
institution Directory Open Access Journal
issn 0100-0683
1806-9657
language English
last_indexed 2024-12-21T17:33:24Z
publishDate 2013-04-01
publisher Sociedade Brasileira de Ciência do Solo
record_format Article
series Revista Brasileira de Ciência do Solo
spelling doaj.art-4279cc0ff8174474a09de2c7e6928ed32022-12-21T18:55:50ZengSociedade Brasileira de Ciência do SoloRevista Brasileira de Ciência do Solo0100-06831806-96572013-04-01372359366An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, BrasilAlexandre ten CatenRicardo Simão Diniz DalmolinFabrício de Araújo PedronLuis Fernando Chimelo RuizCarlos Antônio da SilvaDigital information generates the possibility of a high degree of redundancy in the data available for fitting predictive models used for Digital Soil Mapping (DSM). Among these models, the Decision Tree (DT) technique has been increasingly applied due to its capacity of dealing with large datasets. The purpose of this study was to evaluate the impact of the data volume used to generate the DT models on the quality of soil maps. An area of 889.33 km² was chosen in the Northern region of the State of Rio Grande do Sul. The soil-landscape relationship was obtained from reambulation of the studied area and the alignment of the units in the 1:50,000 scale topographic mapping. Six predictive covariates linked to the factors soil formation, relief and organisms, together with data sets of 1, 3, 5, 10, 15, 20 and 25 % of the total data volume, were used to generate the predictive DT models in the data mining program Waikato Environment for Knowledge Analysis (WEKA). In this study, sample densities below 5 % resulted in models with lower power of capturing the complexity of the spatial distribution of the soil in the study area. The relation between the data volume to be handled and the predictive capacity of the models was best for samples between 5 and 15 %. For the models based on these sample densities, the collected field data indicated an accuracy of predictive mapping close to 70 %.<br>Informações digitais tornam possível um elevado grau de redundância das informações disponíveis para o ajuste de modelos preditores aplicados ao Mapeamento Digital de Solos (MDS). Entre esses modelos, a técnica de Árvores de Decisão (AD) tem aplicação crescente, em razão da sua potência no tratamento de grandes volumes de dados. Objetivou-se com este trabalho avaliar o impacto do volume de dados utilizados para gerar os modelos por AD, na qualidade dos mapas de solos gerados pela técnica de MDS. Uma área de estudo com 889,33 km² foi escolhida na região do Planalto Médio do Rio Grande do Sul. As relações solo-paisagem foram obtidas a partir de reambulação da área de estudo e delineamento das unidades de mapeamento em cartas topográficas de escala 1:50.000. Seis covariáveis preditoras ligadas aos fatores de formação do solo, relevo e organismos, juntamente com os conjuntos de dados de um, três, cinco, 10, 15, 20 e 25 % do volume total de dados, foram usadas para gerar os modelos preditivos por AD no programa WEKA. Neste estudo, densidades de amostragem menores do que 5 % resultaram em modelos com menor poder de capturar a complexidade da distribuição espacial do solo da área estudada. Amostragens entre cinco e 15 % conduziram a uma melhor relação entre o volume de dados a ser manipulado e a capacidade preditiva dos modelos gerados. Dados coletados no campo indicaram acurácia dos mapas preditos próxima a 70 %, para os modelos oriundos dessas densidades de amostragem.http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-06832013000200007árvore de decisãopedometrialevantamento de solosunidade de mapeamentodecision treepedometrysoil surveymapping unit
spellingShingle Alexandre ten Caten
Ricardo Simão Diniz Dalmolin
Fabrício de Araújo Pedron
Luis Fernando Chimelo Ruiz
Carlos Antônio da Silva
An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil
Revista Brasileira de Ciência do Solo
árvore de decisão
pedometria
levantamento de solos
unidade de mapeamento
decision tree
pedometry
soil survey
mapping unit
title An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil
title_full An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil
title_fullStr An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil
title_full_unstemmed An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil
title_short An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil
title_sort appropriate data set size for digital soil mapping in erechim rio grande do sul brazil volume de dados adequado para o mapeamento digital de solos no municipio de erechim rio grande do sul brasil
topic árvore de decisão
pedometria
levantamento de solos
unidade de mapeamento
decision tree
pedometry
soil survey
mapping unit
url http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-06832013000200007
work_keys_str_mv AT alexandretencaten anappropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil
AT ricardosimaodinizdalmolin anappropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil
AT fabriciodearaujopedron anappropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil
AT luisfernandochimeloruiz anappropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil
AT carlosantoniodasilva anappropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil
AT alexandretencaten appropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil
AT ricardosimaodinizdalmolin appropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil
AT fabriciodearaujopedron appropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil
AT luisfernandochimeloruiz appropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil
AT carlosantoniodasilva appropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil