Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?

Если в категориальном регрессоре есть пропущенные значения, то что лучше применить: анализ полных наблюдений или метод индикаторной переменной? Суть первого подхода состоит в исключении из анализа (в нашем случае — линейного регрессионного) наблюдений, содержащих пропуски хотя бы по одной из изучаем...

Full description

Bibliographic Details
Main Authors: Светлана Васильевна Жучкова, Алексей Николаевич Ротмистров, Екатерина Алексеевна Шабанова
Format: Article
Language:English
Published: Russian Public Opinion Research Center (VCIOM) 2021-09-01
Series:Monitoring Obŝestvennogo Mneniâ: Ekonomičeskie i Socialʹnye Peremeny
Subjects:
Online Access:https://www.monitoringjournal.ru/index.php/monitoring/article/view/940
_version_ 1819156366267252736
author Светлана Васильевна Жучкова
Алексей Николаевич Ротмистров
Екатерина Алексеевна Шабанова
author_facet Светлана Васильевна Жучкова
Алексей Николаевич Ротмистров
Екатерина Алексеевна Шабанова
author_sort Светлана Васильевна Жучкова
collection DOAJ
description Если в категориальном регрессоре есть пропущенные значения, то что лучше применить: анализ полных наблюдений или метод индикаторной переменной? Суть первого подхода состоит в исключении из анализа (в нашем случае — линейного регрессионного) наблюдений, содержащих пропуски хотя бы по одной из изучаемых переменных. Этот подход применяется по умолчанию во многих популярных приложениях, и, вопреки сложившимся представлениям о его ограниченности, все больше исследований подтверждают его универсальность — даже в случае неслучайных пропусков. Метод индикаторной переменной, при котором пропущенные значения заменяются на валидные, а в пару исходной переменной создается дополнительная индикаторная, выступает более новой альтернативой, которая, в отличие от первого подхода, позволяет использовать информацию из всех наблюдений и при этом, гипотетически, также не приводит к искажению изучаемых статистических параметров. Посредством статистического эксперимента на симулированных данных, контролируя механизм порождения пропусков, их долю и спецификацию регрессионной модели, мы сравниваем полученные на основе каждого из подходов статистические оценки регрессионных коэффициентов на предмет их искажений: смещения и неэффективности. Согласно результатам, оба подхода не приводят к заметному смещению, однако метод индикаторной переменной приводит к менее эффективной оценке. Благодарность. Публикация подготовлена в ходе проведения исследования «Комплексное сравнение методов обработки пропущенных данных в социологических исследованиях» (№ 20-04-016) в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2020 г. и в рамках государственной поддержки ведущих университетов Российской Федерации «5–100».
first_indexed 2024-12-22T15:51:44Z
format Article
id doaj.art-2505c338b5254a9b95702806dc32a90a
institution Directory Open Access Journal
issn 2219-5467
language English
last_indexed 2024-12-22T15:51:44Z
publishDate 2021-09-01
publisher Russian Public Opinion Research Center (VCIOM)
record_format Article
series Monitoring Obŝestvennogo Mneniâ: Ekonomičeskie i Socialʹnye Peremeny
spelling doaj.art-2505c338b5254a9b95702806dc32a90a2022-12-21T18:20:53ZengRussian Public Opinion Research Center (VCIOM)Monitoring Obŝestvennogo Mneniâ: Ekonomičeskie i Socialʹnye Peremeny2219-54672021-09-01410.14515/monitoring.2021.4.940921Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?Светлана Васильевна Жучкова0https://orcid.org/0000-0002-4425-725XАлексей Николаевич Ротмистров1https://orcid.org/0000-0003-2386-8710Екатерина Алексеевна Шабанова2https://orcid.org/0000-0002-6430-1297Национальный исследовательский университет «Высшая школа экономики»Национальный исследовательский университет «Высшая школа экономики»Национальный исследовательский университет «Высшая школа экономики»Если в категориальном регрессоре есть пропущенные значения, то что лучше применить: анализ полных наблюдений или метод индикаторной переменной? Суть первого подхода состоит в исключении из анализа (в нашем случае — линейного регрессионного) наблюдений, содержащих пропуски хотя бы по одной из изучаемых переменных. Этот подход применяется по умолчанию во многих популярных приложениях, и, вопреки сложившимся представлениям о его ограниченности, все больше исследований подтверждают его универсальность — даже в случае неслучайных пропусков. Метод индикаторной переменной, при котором пропущенные значения заменяются на валидные, а в пару исходной переменной создается дополнительная индикаторная, выступает более новой альтернативой, которая, в отличие от первого подхода, позволяет использовать информацию из всех наблюдений и при этом, гипотетически, также не приводит к искажению изучаемых статистических параметров. Посредством статистического эксперимента на симулированных данных, контролируя механизм порождения пропусков, их долю и спецификацию регрессионной модели, мы сравниваем полученные на основе каждого из подходов статистические оценки регрессионных коэффициентов на предмет их искажений: смещения и неэффективности. Согласно результатам, оба подхода не приводят к заметному смещению, однако метод индикаторной переменной приводит к менее эффективной оценке. Благодарность. Публикация подготовлена в ходе проведения исследования «Комплексное сравнение методов обработки пропущенных данных в социологических исследованиях» (№ 20-04-016) в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2020 г. и в рамках государственной поддержки ведущих университетов Российской Федерации «5–100».https://www.monitoringjournal.ru/index.php/monitoring/article/view/940категориальные данныепропуски в данныхслучайные пропускинеслучайные пропускианализ полных наблюденийметод индикаторной переменнойрегрессионный анализстатистический экспериментметод монте-карлосимуляция данныхсмещениеcoverage
spellingShingle Светлана Васильевна Жучкова
Алексей Николаевич Ротмистров
Екатерина Алексеевна Шабанова
Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?
Monitoring Obŝestvennogo Mneniâ: Ekonomičeskie i Socialʹnye Peremeny
категориальные данные
пропуски в данных
случайные пропуски
неслучайные пропуски
анализ полных наблюдений
метод индикаторной переменной
регрессионный анализ
статистический эксперимент
метод монте-карло
симуляция данных
смещение
coverage
title Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?
title_full Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?
title_fullStr Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?
title_full_unstemmed Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?
title_short Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?
title_sort имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах
topic категориальные данные
пропуски в данных
случайные пропуски
неслучайные пропуски
анализ полных наблюдений
метод индикаторной переменной
регрессионный анализ
статистический эксперимент
метод монте-карло
симуляция данных
смещение
coverage
url https://www.monitoringjournal.ru/index.php/monitoring/article/view/940
work_keys_str_mv AT svetlanavasilʹevnažučkova imeetlimetodindikatornojperemennojpreimuŝestvaperedanalizompolnyhnablûdenijpriobrabotkepropuskovvkategorialʹnyhregressorah
AT aleksejnikolaevičrotmistrov imeetlimetodindikatornojperemennojpreimuŝestvaperedanalizompolnyhnablûdenijpriobrabotkepropuskovvkategorialʹnyhregressorah
AT ekaterinaalekseevnašabanova imeetlimetodindikatornojperemennojpreimuŝestvaperedanalizompolnyhnablûdenijpriobrabotkepropuskovvkategorialʹnyhregressorah