Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?
Если в категориальном регрессоре есть пропущенные значения, то что лучше применить: анализ полных наблюдений или метод индикаторной переменной? Суть первого подхода состоит в исключении из анализа (в нашем случае — линейного регрессионного) наблюдений, содержащих пропуски хотя бы по одной из изучаем...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Russian Public Opinion Research Center (VCIOM)
2021-09-01
|
Series: | Monitoring Obŝestvennogo Mneniâ: Ekonomičeskie i Socialʹnye Peremeny |
Subjects: | |
Online Access: | https://www.monitoringjournal.ru/index.php/monitoring/article/view/940 |
_version_ | 1819156366267252736 |
---|---|
author | Светлана Васильевна Жучкова Алексей Николаевич Ротмистров Екатерина Алексеевна Шабанова |
author_facet | Светлана Васильевна Жучкова Алексей Николаевич Ротмистров Екатерина Алексеевна Шабанова |
author_sort | Светлана Васильевна Жучкова |
collection | DOAJ |
description | Если в категориальном регрессоре есть пропущенные значения, то что лучше применить: анализ полных наблюдений или метод индикаторной переменной? Суть первого подхода состоит в исключении из анализа (в нашем случае — линейного регрессионного) наблюдений, содержащих пропуски хотя бы по одной из изучаемых переменных. Этот подход применяется по умолчанию во многих популярных приложениях, и, вопреки сложившимся представлениям о его ограниченности, все больше исследований подтверждают его универсальность — даже в случае неслучайных пропусков. Метод индикаторной переменной, при котором пропущенные значения заменяются на валидные, а в пару исходной переменной создается дополнительная индикаторная, выступает более новой альтернативой, которая, в отличие от первого подхода, позволяет использовать информацию из всех наблюдений и при этом, гипотетически, также не приводит к искажению изучаемых статистических параметров. Посредством статистического эксперимента на симулированных данных, контролируя механизм порождения пропусков, их долю и спецификацию регрессионной модели, мы сравниваем полученные на основе каждого из подходов статистические оценки регрессионных коэффициентов на предмет их искажений: смещения и неэффективности. Согласно результатам, оба подхода не приводят к заметному смещению, однако метод индикаторной переменной приводит к менее эффективной оценке.
Благодарность. Публикация подготовлена в ходе проведения исследования «Комплексное сравнение методов обработки пропущенных данных в социологических исследованиях» (№ 20-04-016) в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2020 г. и в рамках государственной поддержки ведущих университетов Российской Федерации «5–100». |
first_indexed | 2024-12-22T15:51:44Z |
format | Article |
id | doaj.art-2505c338b5254a9b95702806dc32a90a |
institution | Directory Open Access Journal |
issn | 2219-5467 |
language | English |
last_indexed | 2024-12-22T15:51:44Z |
publishDate | 2021-09-01 |
publisher | Russian Public Opinion Research Center (VCIOM) |
record_format | Article |
series | Monitoring Obŝestvennogo Mneniâ: Ekonomičeskie i Socialʹnye Peremeny |
spelling | doaj.art-2505c338b5254a9b95702806dc32a90a2022-12-21T18:20:53ZengRussian Public Opinion Research Center (VCIOM)Monitoring Obŝestvennogo Mneniâ: Ekonomičeskie i Socialʹnye Peremeny2219-54672021-09-01410.14515/monitoring.2021.4.940921Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?Светлана Васильевна Жучкова0https://orcid.org/0000-0002-4425-725XАлексей Николаевич Ротмистров1https://orcid.org/0000-0003-2386-8710Екатерина Алексеевна Шабанова2https://orcid.org/0000-0002-6430-1297Национальный исследовательский университет «Высшая школа экономики»Национальный исследовательский университет «Высшая школа экономики»Национальный исследовательский университет «Высшая школа экономики»Если в категориальном регрессоре есть пропущенные значения, то что лучше применить: анализ полных наблюдений или метод индикаторной переменной? Суть первого подхода состоит в исключении из анализа (в нашем случае — линейного регрессионного) наблюдений, содержащих пропуски хотя бы по одной из изучаемых переменных. Этот подход применяется по умолчанию во многих популярных приложениях, и, вопреки сложившимся представлениям о его ограниченности, все больше исследований подтверждают его универсальность — даже в случае неслучайных пропусков. Метод индикаторной переменной, при котором пропущенные значения заменяются на валидные, а в пару исходной переменной создается дополнительная индикаторная, выступает более новой альтернативой, которая, в отличие от первого подхода, позволяет использовать информацию из всех наблюдений и при этом, гипотетически, также не приводит к искажению изучаемых статистических параметров. Посредством статистического эксперимента на симулированных данных, контролируя механизм порождения пропусков, их долю и спецификацию регрессионной модели, мы сравниваем полученные на основе каждого из подходов статистические оценки регрессионных коэффициентов на предмет их искажений: смещения и неэффективности. Согласно результатам, оба подхода не приводят к заметному смещению, однако метод индикаторной переменной приводит к менее эффективной оценке. Благодарность. Публикация подготовлена в ходе проведения исследования «Комплексное сравнение методов обработки пропущенных данных в социологических исследованиях» (№ 20-04-016) в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2020 г. и в рамках государственной поддержки ведущих университетов Российской Федерации «5–100».https://www.monitoringjournal.ru/index.php/monitoring/article/view/940категориальные данныепропуски в данныхслучайные пропускинеслучайные пропускианализ полных наблюденийметод индикаторной переменнойрегрессионный анализстатистический экспериментметод монте-карлосимуляция данныхсмещениеcoverage |
spellingShingle | Светлана Васильевна Жучкова Алексей Николаевич Ротмистров Екатерина Алексеевна Шабанова Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах? Monitoring Obŝestvennogo Mneniâ: Ekonomičeskie i Socialʹnye Peremeny категориальные данные пропуски в данных случайные пропуски неслучайные пропуски анализ полных наблюдений метод индикаторной переменной регрессионный анализ статистический эксперимент метод монте-карло симуляция данных смещение coverage |
title | Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах? |
title_full | Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах? |
title_fullStr | Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах? |
title_full_unstemmed | Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах? |
title_short | Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах? |
title_sort | имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах |
topic | категориальные данные пропуски в данных случайные пропуски неслучайные пропуски анализ полных наблюдений метод индикаторной переменной регрессионный анализ статистический эксперимент метод монте-карло симуляция данных смещение coverage |
url | https://www.monitoringjournal.ru/index.php/monitoring/article/view/940 |
work_keys_str_mv | AT svetlanavasilʹevnažučkova imeetlimetodindikatornojperemennojpreimuŝestvaperedanalizompolnyhnablûdenijpriobrabotkepropuskovvkategorialʹnyhregressorah AT aleksejnikolaevičrotmistrov imeetlimetodindikatornojperemennojpreimuŝestvaperedanalizompolnyhnablûdenijpriobrabotkepropuskovvkategorialʹnyhregressorah AT ekaterinaalekseevnašabanova imeetlimetodindikatornojperemennojpreimuŝestvaperedanalizompolnyhnablûdenijpriobrabotkepropuskovvkategorialʹnyhregressorah |