Первичная обработка данных
Итак, разные способы борьбы с пропусками в данных могут приводить к малопривлекательным результатам, особенно если пропуски не совсем случайны, а столбцы таблицы данных взаимосвязаны. Поэтому нужно стремиться, чтобы пропущенных значений было как можно меньше. А исследователь должен внимательно изучать этот вопрос в каждом конкретном случае и учитывать возможные последствия применения того или… Читать ещё >
Первичная обработка данных (реферат, курсовая, диплом, контрольная)
Компьютерная проверка данных и проблема пропущенных данных
Когда данные введены в компьютер, они проверяются еще раз. Если при вводе попадание данных в допустимые диапазоны не контролировалось, это делается после ввода.
Тогда же отыскиваются логические несообразности, предназначенные исследователем к проверке, например: судя по ответу на один вопрос анкеты, респондент ничего не знает о существовании какого-то продукта, а судя по ответу на другой вопрос, — часто его потребляет.
Далее иногда выполняется специальная работа с пропущенными по той или иной причине данными. Такие ситуации могут возникать из-за неразборчивости или неоднозначного толкования записей в некоторых анкетах. Существует несколько подходов к решению этой проблемы.
Замена ответа нейтральным значением. Чаще всего под нейтральным понимается среднее значение. Такая замена используется в количественных вопросах. Она не влияет на среднее значение показателя и на коэффициенты корреляции между показателями (рассчитанные по всей совокупности анкет). Тем не менее при такой замене все же неизбежно искажается реальная картина: в действительности данный респондент ответил бы по-другому. Например, исследования автора показали, что лица, отказавшиеся назвать доход своей семьи, по другим социально-демографическим параметрам (полу, возрасту, роду занятости, должности и месту жительства) нередко очень схожи с теми респондентами, которые сообщили интервьюеру об относительно высоком доходе [5, с. 5]. Значит, условно приписывать им среднее значение дохода вряд ли обосновано.
Приписывание ответа на основании ответов на другие вопросы. Разработано много методов проведения такой операции. Например, можно построить зависимость между объемом потребления продукта и размером семьи по анкетам, где есть ответы на оба эти вопроса. После этого в анкетах, в которых не указан объем потребления продукта, проставляется его значение, рассчитанное с учетом размера семьи. Такой метод требует значительных усилий, но и он может приводить к искажениям.
Удаление анкет, содержащих хотя бы один пропущенный ответ (case wise deletion). При таком подходе иногда приходится удалять из таблицы данных существенное число строк. Поэтому иногда возвращаются к полевому этапу исследований и опрашивают дополнительных респондентов, чтобы заменить полученной от них информацией удаленные строки таблицы данных. Это значительно увеличивает сроки и стоимость работ. Не спасает это и от искажения выборки: респонденты, в чьих анкетах есть пропуски, могут существенно отличаться как от первоначально опрошенных респондентов, так и от тех, кто был опрошен дополнительно.
Учет только имеющихся ответов в каждом конкретном расчете (pairwise deletion). Анкеты с пропущенными ответами не удаляются, но и не учитываются в расчетах, в которых участвует соответствующая переменная. Процедура приемлема, если общее число анкет велико, пропусков относительно немного, а связи между переменными не слишком сильны. И даже при выполнении этих трех условий данная процедура иногда существенно искажает результаты. Кроме того, при статистических оценках нужно учитывать, что расчеты выполнены по разному числу анкет.
Итак, разные способы борьбы с пропусками в данных могут приводить к малопривлекательным результатам, особенно если пропуски не совсем случайны, а столбцы таблицы данных взаимосвязаны. Поэтому нужно стремиться, чтобы пропущенных значений было как можно меньше. А исследователь должен внимательно изучать этот вопрос в каждом конкретном случае и учитывать возможные последствия применения того или иного метода обработки пропущенных ответов.
Особенно важно подчеркнуть следующий момент: если решено удалять строки таблицы данных, то это должно быть запланировано до начала анализа с указанием критерия, а не тогда, когда расчеты полностью или даже частично произведены. Нарушение этих требований создает угрозу подтасовки результатов: ведь не исключено, что тот или иной принцип удаления строк недобросовестный исследователь решил применить лишь потому, что расчеты дали содержательно нежелательный для него результат.