An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil
Digital information generates the possibility of a high degree of redundancy in the data available for fitting predictive models used for Digital Soil Mapping (DSM). Among these models, the Decision Tree (DT) technique has been increasingly applied due to its capacity of dealing with large datasets....
Main Authors: | , , , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Sociedade Brasileira de Ciência do Solo
2013-04-01
|
Series: | Revista Brasileira de Ciência do Solo |
Subjects: | |
Online Access: | http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-06832013000200007 |
_version_ | 1819072166578094080 |
---|---|
author | Alexandre ten Caten Ricardo Simão Diniz Dalmolin Fabrício de Araújo Pedron Luis Fernando Chimelo Ruiz Carlos Antônio da Silva |
author_facet | Alexandre ten Caten Ricardo Simão Diniz Dalmolin Fabrício de Araújo Pedron Luis Fernando Chimelo Ruiz Carlos Antônio da Silva |
author_sort | Alexandre ten Caten |
collection | DOAJ |
description | Digital information generates the possibility of a high degree of redundancy in the data available for fitting predictive models used for Digital Soil Mapping (DSM). Among these models, the Decision Tree (DT) technique has been increasingly applied due to its capacity of dealing with large datasets. The purpose of this study was to evaluate the impact of the data volume used to generate the DT models on the quality of soil maps. An area of 889.33 km² was chosen in the Northern region of the State of Rio Grande do Sul. The soil-landscape relationship was obtained from reambulation of the studied area and the alignment of the units in the 1:50,000 scale topographic mapping. Six predictive covariates linked to the factors soil formation, relief and organisms, together with data sets of 1, 3, 5, 10, 15, 20 and 25 % of the total data volume, were used to generate the predictive DT models in the data mining program Waikato Environment for Knowledge Analysis (WEKA). In this study, sample densities below 5 % resulted in models with lower power of capturing the complexity of the spatial distribution of the soil in the study area. The relation between the data volume to be handled and the predictive capacity of the models was best for samples between 5 and 15 %. For the models based on these sample densities, the collected field data indicated an accuracy of predictive mapping close to 70 %.<br>Informações digitais tornam possível um elevado grau de redundância das informações disponíveis para o ajuste de modelos preditores aplicados ao Mapeamento Digital de Solos (MDS). Entre esses modelos, a técnica de Árvores de Decisão (AD) tem aplicação crescente, em razão da sua potência no tratamento de grandes volumes de dados. Objetivou-se com este trabalho avaliar o impacto do volume de dados utilizados para gerar os modelos por AD, na qualidade dos mapas de solos gerados pela técnica de MDS. Uma área de estudo com 889,33 km² foi escolhida na região do Planalto Médio do Rio Grande do Sul. As relações solo-paisagem foram obtidas a partir de reambulação da área de estudo e delineamento das unidades de mapeamento em cartas topográficas de escala 1:50.000. Seis covariáveis preditoras ligadas aos fatores de formação do solo, relevo e organismos, juntamente com os conjuntos de dados de um, três, cinco, 10, 15, 20 e 25 % do volume total de dados, foram usadas para gerar os modelos preditivos por AD no programa WEKA. Neste estudo, densidades de amostragem menores do que 5 % resultaram em modelos com menor poder de capturar a complexidade da distribuição espacial do solo da área estudada. Amostragens entre cinco e 15 % conduziram a uma melhor relação entre o volume de dados a ser manipulado e a capacidade preditiva dos modelos gerados. Dados coletados no campo indicaram acurácia dos mapas preditos próxima a 70 %, para os modelos oriundos dessas densidades de amostragem. |
first_indexed | 2024-12-21T17:33:24Z |
format | Article |
id | doaj.art-4279cc0ff8174474a09de2c7e6928ed3 |
institution | Directory Open Access Journal |
issn | 0100-0683 1806-9657 |
language | English |
last_indexed | 2024-12-21T17:33:24Z |
publishDate | 2013-04-01 |
publisher | Sociedade Brasileira de Ciência do Solo |
record_format | Article |
series | Revista Brasileira de Ciência do Solo |
spelling | doaj.art-4279cc0ff8174474a09de2c7e6928ed32022-12-21T18:55:50ZengSociedade Brasileira de Ciência do SoloRevista Brasileira de Ciência do Solo0100-06831806-96572013-04-01372359366An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, BrasilAlexandre ten CatenRicardo Simão Diniz DalmolinFabrício de Araújo PedronLuis Fernando Chimelo RuizCarlos Antônio da SilvaDigital information generates the possibility of a high degree of redundancy in the data available for fitting predictive models used for Digital Soil Mapping (DSM). Among these models, the Decision Tree (DT) technique has been increasingly applied due to its capacity of dealing with large datasets. The purpose of this study was to evaluate the impact of the data volume used to generate the DT models on the quality of soil maps. An area of 889.33 km² was chosen in the Northern region of the State of Rio Grande do Sul. The soil-landscape relationship was obtained from reambulation of the studied area and the alignment of the units in the 1:50,000 scale topographic mapping. Six predictive covariates linked to the factors soil formation, relief and organisms, together with data sets of 1, 3, 5, 10, 15, 20 and 25 % of the total data volume, were used to generate the predictive DT models in the data mining program Waikato Environment for Knowledge Analysis (WEKA). In this study, sample densities below 5 % resulted in models with lower power of capturing the complexity of the spatial distribution of the soil in the study area. The relation between the data volume to be handled and the predictive capacity of the models was best for samples between 5 and 15 %. For the models based on these sample densities, the collected field data indicated an accuracy of predictive mapping close to 70 %.<br>Informações digitais tornam possível um elevado grau de redundância das informações disponíveis para o ajuste de modelos preditores aplicados ao Mapeamento Digital de Solos (MDS). Entre esses modelos, a técnica de Árvores de Decisão (AD) tem aplicação crescente, em razão da sua potência no tratamento de grandes volumes de dados. Objetivou-se com este trabalho avaliar o impacto do volume de dados utilizados para gerar os modelos por AD, na qualidade dos mapas de solos gerados pela técnica de MDS. Uma área de estudo com 889,33 km² foi escolhida na região do Planalto Médio do Rio Grande do Sul. As relações solo-paisagem foram obtidas a partir de reambulação da área de estudo e delineamento das unidades de mapeamento em cartas topográficas de escala 1:50.000. Seis covariáveis preditoras ligadas aos fatores de formação do solo, relevo e organismos, juntamente com os conjuntos de dados de um, três, cinco, 10, 15, 20 e 25 % do volume total de dados, foram usadas para gerar os modelos preditivos por AD no programa WEKA. Neste estudo, densidades de amostragem menores do que 5 % resultaram em modelos com menor poder de capturar a complexidade da distribuição espacial do solo da área estudada. Amostragens entre cinco e 15 % conduziram a uma melhor relação entre o volume de dados a ser manipulado e a capacidade preditiva dos modelos gerados. Dados coletados no campo indicaram acurácia dos mapas preditos próxima a 70 %, para os modelos oriundos dessas densidades de amostragem.http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-06832013000200007árvore de decisãopedometrialevantamento de solosunidade de mapeamentodecision treepedometrysoil surveymapping unit |
spellingShingle | Alexandre ten Caten Ricardo Simão Diniz Dalmolin Fabrício de Araújo Pedron Luis Fernando Chimelo Ruiz Carlos Antônio da Silva An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil Revista Brasileira de Ciência do Solo árvore de decisão pedometria levantamento de solos unidade de mapeamento decision tree pedometry soil survey mapping unit |
title | An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil |
title_full | An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil |
title_fullStr | An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil |
title_full_unstemmed | An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil |
title_short | An appropriate data set size for digital soil mapping in Erechim, Rio Grande do Sul, Brazil Volume de dados adequado para o mapeamento digital de solos no município de Erechim, Rio Grande do Sul, Brasil |
title_sort | appropriate data set size for digital soil mapping in erechim rio grande do sul brazil volume de dados adequado para o mapeamento digital de solos no municipio de erechim rio grande do sul brasil |
topic | árvore de decisão pedometria levantamento de solos unidade de mapeamento decision tree pedometry soil survey mapping unit |
url | http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-06832013000200007 |
work_keys_str_mv | AT alexandretencaten anappropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil AT ricardosimaodinizdalmolin anappropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil AT fabriciodearaujopedron anappropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil AT luisfernandochimeloruiz anappropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil AT carlosantoniodasilva anappropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil AT alexandretencaten appropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil AT ricardosimaodinizdalmolin appropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil AT fabriciodearaujopedron appropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil AT luisfernandochimeloruiz appropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil AT carlosantoniodasilva appropriatedatasetsizefordigitalsoilmappinginerechimriograndedosulbrazilvolumededadosadequadoparaomapeamentodigitaldesolosnomunicipiodeerechimriograndedosulbrasil |