?

Log in

No account? Create an account
О старой статье Чурова, Арлазарова и Соловьева про выборы (длинный нудный пост с картинками) - Maxim Pshenichnikov — LiveJournal
March 29th, 2013
11:11 pm

[Link]

Previous Entry Share Next Entry
О старой статье Чурова, Арлазарова и Соловьева про выборы (длинный нудный пост с картинками)
В 2008 году Чуров, Арлазаров и Соловьев (в дальнейшем ЧАС) опубликовали в сборнике «Труды института системного анализа Российской академии наук. Сборник: математика и управление» (под редакцией члена-корреспондента РАН профессора В.Л.Арлазарова и д.т.н. профессора Н.Е.Емельянова, издательство ЛКИ, 2008) статью Итоги выборов. Анализ электоральных предпочтений. В этой статье ЧАС дискутируют с "критическим характером" публикаций Бузина, Шпилькина и Любарева (БШЛ) в их попытках "обработать электоральную статистику с помощью математических методов" (здесь и далее закавычены цитаты из статьи ЧАС). В частности, авторами оспаривается вывод БШЛ, что "поскольку распределение (например, числа УИК в зависимости от явки) не соответствует нормальному закону распределения (закону больших чисел) относительно средней явки, то результаты выборов являются недостоверными". В качестве контраргумента ЧАС отмечают, что "говорить об однородности избирателей в стране целом несколько некорректно" и, следовательно, необходимо проводить "привязку к региону, который во многом и характеризуется проживающим там населением". В статье ЧАС делается вывод, что "в пределах условно однородного подмножества УИК, выделенного по параметру "место проживания" (т.е.  город-село -- МП), фактическое распределение УИК оказывается близким к нормальному".

Не оспаривая обоснованность подобного разделения, необходимо отметить, что статистическое исследование ЧАС было выполнено не на всей электоральной статистике по выборам Президента РФ 2 марта 2008 г, а на подмножестве "протоколов УИК 25 регионов европейской части РФ". Поскольку авторы  никак не обосновывают выбор именно этих 25 регионов и не называют их в статье, возникает естественный вопрос о репрезентативности подобной выборки (особенно с учетом того, что численность ее электората составляет всего порядка 20% избирателей страны) и, соответственно, основного вывода статьи об отсутствии аномальностей в проведенном статистическом анализе.

В этой заметке я покажу, что (а) выбор 25 регионов, проанализированных ЧАС, не представляется репрезентативным, (б) анализ остальных (т.е. вне проанализированных ЧАС) регионов предоставляет доказательства нескольких сильных аномалий и (в) более тщательный анализ 25 регионов также выявляет по крайней мере одну аномалию, которая, очевидно, была упущена ЧАС.


В своем анализе я буду следовать устоявшимся и верифицированным методикам, которые были ранее детально описаны коллегами и мною, в частности, в этом журнале. Пока я органичусь сравнением результатов статанализа для 25 и остальных регионов за 2008 год, оствляя исторические аспекты эволюции результатов для последующего анализа. Я начну со средних показателей, потом перейду к одномерным распределениям и закончу двумерными гистограммами. Список 25 регионов был любезно предоставлен ведущим научным сотрудникон ИСА РАН, к.т.н. А.В.Соловьевым, за что ему большое спасибо.

Для начала полезно сравнить средние показатели явки и результатов кандидатов в 25 и остальных регионах:

                           25 регионов    Остальные регионы    Разница    Официальный результат
Явка                        66.1%                  70.8%                      -4.7%                       69.6%
Медведев               66.0%                  71.3%                      -5.3%                       70.3%
Зюганов                  21.0%                  16.9%                       4.1%                       17.7%
Жириновский         10.3%                     9.1%                       1.2%                        9.4%

Как видно из таблицы, т.н. остальные регионы дают результат с гораздо меньшим отклонением от официального, чем выбранные 25 регионов -- что неудивительно, поскольку их выборка в четрыре раза больше. Кроме того, все цифры для 25 регионов выглядят "помягче", чем для остальных: явка ниже, за Медведева проголосовало меньше избирателей, а за Зюганова, наоборот, больше, чем в остальных регионах. В принципе, уже эти цифры ставят под вопрос репрезентативность выборки ЧАС.

На Рис.1 приведены зависимости количества голосов, отданных за Медведева и всех остальных кандидатов в совокупности, как функции явки (а, в) и показанного результата (б,г) в 25 и остальных регионах. Рис.1а частично воспроизводит рис.18 из статьи ЧАС; данные по остальным кандидатам были перескалированы с фактором 1.7 для упрощения сравнения формы распределений.
25 no 25


Распределения голосов по явке для всех кандидатов выглядят совершенно по-разному для 25 регионов (рис.1а) и остальных регионов (рис.1в). Если в первом случае зависимость после достижения максимума убывает и даже напоминает несколько перекошенный гаусс, то в остальных регионах после не оечьн выраженного максимума на ~62% наблюдается второй максимум с пиком на ~100%. Во-вторых,  вклад УИК со 100% явкой, который в 25 регионах , по утверждению ЧАС, "совсем незначителен и ... составляет менее 0,4% общего количества поданных голосов" (см.рис.1а), в остальных регионах превышает 2.5%, причем основная доля этих голосов достается Медведеву (1.3 vs 0.2 млн).  В-третьих, сравнивая зависимости голосов от явки для кандидатов (рис.1а), ЧАС отмечают, что  "в целом сохраняются и пропорции поданных голосов за кандидатов.  На конечном участке графика ... пропорция несколько изменена, что соответствует доминированию "сельской" тенденции".  Однако соответствующие распределения для остальных регионов совершенно разные по форме и совпадают - в отличие от случая 25 регионов - только на небольших (меньше 55%) явках, после чего начинается расхождение, которое увеличивается по мере возрастания явки. Напомню, что именно это расхождение лежит в основе т.н. "метода Шпилькина" для подсчета аномальных голосов, поданных за кандидата власти. В случае 15 регионов разница невелика и составляет 15% от общего количества голосов, в то время как для остальных регионов эта разница превышает 33%.

Показательны также распределения голосов по результату для всех кандидатов (рис.1б,г). В 25 регионах распределения близки к гауссовым (с учетом неоднородности выборки), причем количество голосов за Медведева на высоких результатах незначительно. Распределение же в остальных регионах выходит на полочку при результатах выше 85%. Кроме того, отдельное внимание привлекают ярко выраженные пики на процентах, кратных 5; они будут более подробно рассмотрены ниже. Заключая же дискуссию о данных, представленных на рис.1, можно отметить, что, как и в случае средних цифр, рассмотрение распределений приводит к выводу о нерепрезентативности выборки ЧАС, и, как следствие, к необходимости пересмотра заключений, сделанных на основе ее анализа.

Теперь вернемся к вышеупомянутым пикам; для их детального анализа необходимо сделать перевыборку распределений с более мелким шагом 0.2% (Рис.2, левые панели). Распределения для 25 регионов везде перескалированы с фактором 4.42, т.е. отношением голосов за Медведева в 25 и остальных регионах, чтобы позволить количественные сравнения.
peaks
На панелях слева прекрасно видны пики на процентах, кратных 5, как в голосах как функции явки, так и в голосах как функции результата, начиная с 75%. Кроме того, на процентах 85 и выше становятся также видны пики на целых процентах, хотя и с меньшей амплитудой. Для доказательства реальности и строгой периодичности этих пиков на средней панели приведены соответствующие Фурье-спектры, где четко видны пики на 0.2%^-1 и кратных частотах (=5%), а также на 1.0%^-1 и первой гармонике на 2.0%^-1 (=1%). Заметьте, однако, что пики на распределении по явке на процентах, кратных пяти, имеют гораздо более выраженный характер для остальных регионов, чем для проанализированных ЧАС. Неудивительно, что эти пики были упущены при анализе ЧАС, хотя авторы и отметили "небольшие вклады на участках 67-75% и 79-85%, требующие более детального изучения" (которое, к сожалению, не последовало). Распределение же голосов в 25 регионах вообще свободно от этих пиков и представляет собой относительно гладкое распределение (см. спектр на средней панели).

Установив наличие и строгую периодичность пиков на целых процентах, можно оценить суммарное количество голосов в этих пиках. Для этого значения количества голосов на целых значениях процентов заменялись средним значением двух точек слева (т.е. -0.4% и -0.2%) и справа (+0.4% и +0.2%), после чего вычислялась разница между оцененным и реальным значениями. Полученные разницы суммировались с меньших до больших процентов (правая панель). В итоге, в пиках на целых процентах на распределении по явке сосредоточены 2% голосов за Медведева в 25 регионах и 3.3% в остальных регионах  без учета пика на 100%, и 2.7% и 6.2%, соответственно, с учетом 100%. В пиках же на целых процентах на распределении по результату сосредоточены 1% голосов в 25 регионах и 4.3% в остальных регионах.

Напомню, что вероятность случайного появления подобных пиков исключительно на целых процентах исчезающе мала. Следовательно, скорее всего эти пики носят рукотворный характер, т.е. результаты подгонялись под заранее обозначенный и зачастую "красивый" процент. В случае с явкой (т.е. отношением проголосовавших к списочному составу, который, как правило, известен заранее) еще можно представить себе гипотетический (скорее, фантастический) сценарий, по которому агитаторы убеждают необходимое число потенциальных избирателей проголосовать, пока наконец не достигнут требуемый процент. В случае же с результатом кандидата -- т.е. отношением голосов за кандидата к количеству проголосовавших -- одно из чисел (голоса за кандидата) принципиально неизвестно (и даже секретно) до закрытия избирательных участков и последующего подсчета голосов. Иными словами, появление пиков на графике результата тяжело объяснить иначе кроме как  переписыванием данных в итоговых протоколах в пользу лидера, причем размер подобного переписывания в 4% от общего количества поданных голосов не может не вызывать озабоченности. В любом случае, и по критерию аномальных пиков 25 регионов не являются репрезентативными.

В качестве последнего аргумента рассмотрим двуразмерные гистограммы голосов в координатах явка-результат, которые содержат все рассмотренные диаграммы в качестве частного случая. Сплошные линии показывают средний результат кандидата при данной явке; значение R дает корреляцию по Пирсону.
  2D
Диаграммы подтвержают вывод о нерепрезентативности 25 регионов. В частности, на них хорошо виден второй пик, показывающий корреляцию высоких (>90%) явок и результатов голосования за Медведева (>90%) в неучтенных регионах (нижняя левая диаграмма), в то время как в 25 регионах этот пик полностью отсутствует. Кроме того, диаграмма голосов в остальных регионах гораздо более рамазанная по сравнению с 25 регионами. На верхней левой диаграмме также ясно видна вертикальная полоска на явке в 80%, которая привела к пику явки на рис.1а, поставившему ЧАС в затруднение. Двуразмерная гистограмма немедленно сообщает нам, что такая высокая явка на круглом проценте сопровождалась также высоким результатом Медведева.


В заключение, в этой заметке я показал, что 25 регионов, проанализированные в статье ЧАС, вряд ли можно отнести к репрезентативным для выборов 2008 года. Ровно наоборот, различные статистические аномалии проявляются в этих регионах -- если проявляются вообще -- не так сильно, как в остальных регионах. Разумеется, в предложенном кратком анализе я не мог охватить целый ряд других аномалий, характерных для позднероссийских выборов. Надеюсь, что анализ будет продолжен в комментариях, которые открыты для всех заинтересованных сторон.


Приложение: список 25 регионов, проанализированных ЧАС (любезно предоставлен к.т.н. А.В.Соловьевым)
10 Республика Карелия
11 Республика Коми
29 Архангельская область
31 Белгородская область
32 Брянская область
33 Владимирская область
35 Вологодская область
36 Воронежская область
37 Ивановская область
39 Калининградская область
40 Калужская область
44 Костромская область
46 Курская область
48 Липецкая область
51 Мурманская область
53 Новгородская область
57 Орловская область
60 Псковская область
62 Рязанская область
67 Смоленская область
68 Тамбовская область
69 Тверская область
71 Тульская область
76 Ярославская область
83 Ненецкий автономный округ

(19 comments | Leave a comment)

Comments
 
From:saccovanzetti
Date:March 29th, 2013 10:32 pm (UTC)
(Link)
прикольно, что количество выбранных регионов делится на 5 ;)
под нужный ответ подогнать, и то нормально не могут.
[User Picture]
From:naukarus
Date:March 29th, 2013 10:44 pm (UTC)
(Link)
там, где в других компаниях шулеров бьют канделябром по голове, в ученой среде все еще продолжают доказывать, что в карточной колоде не бывает пяти тузов :)

Edited at 2013-03-29 10:53 pm (UTC)
[User Picture]
From:nonenoun
Date:March 30th, 2013 04:48 am (UTC)
(Link)
Регионы, думаю, выбирались следующим образом - отсекли совсем уж неприличные (где "особая электоральная культура") и сделали случайную выборку из оставшихся:

[User Picture]
From:oude_rus
Date:March 30th, 2013 11:14 am (UTC)
(Link)
было бы интересно приделать к каждой точке дисперсию по обеим осям. Или (из-за асимметрии) диапазон, где распределение падает на половину от максимума.
[User Picture]
From:nonenoun
Date:March 30th, 2013 03:02 pm (UTC)
(Link)
А как это визуализировать? Сделал другое - взял регионы из основного кластера (отсёк регионы, где явка > 80%) и построил для них гистограммы - для регионов Чурова и для остальных. Чуровские регионы более остроконечные.



update: Ой, отсекал не по результату, а по явке. Т.е. заголовок графика ошибочный.

Edited at 2013-03-31 07:14 pm (UTC)
[User Picture]
From:svetlako
Date:March 30th, 2013 06:11 am (UTC)
(Link)
В порядке обсуждения.

Было бы любопытно сделать "оппозитную" выборку - взять "сильно другие" 25 регионов. Раз размер выборки в "25" регионов, освящен Чуровым, то он не может вызывать вопросов.

Будет очень любопытно:

а) посмотреть на "особую электоральную культуру" во всей красе, не замутненной следами реальности.

б) продемонстрировать, что вывод "в пределах условно однородного подмножества УИК, выделенного по параметру "место проживания", фактическое распределение УИК оказывается близким к нормальному" - в некотором роде неверен. Или же нужно менять определение нормального распределения.
[User Picture]
From:oude_rus
Date:March 30th, 2013 08:24 am (UTC)
(Link)
по пункту (а) более-менее понятно, что будет -- зачем тратить время?

(б) -- есть ТИК, где дисперсия результатов меньше, чем должно быть, исходя из биномиального распределения.
[User Picture]
From:reader59
Date:March 30th, 2013 09:38 am (UTC)
(Link)
Ура! Чуров пойман на фальсификации в третьем знаке после запятой!
При этом для правильной оценки результатов выборов вполне достаточно качественного анализа, потому что никакой сущностной разницы между субъектами, в них участвовавшими, не существует и существовать не может: российское общество, как и 5/6 всего мира, не смогло породить ничего приличнее едра со спойлерами, что есть медицинский факт. Причины такого положения вполне объективны, очевидны и в обозримом будущем столь же очевидно неустранимы.
То бишь поимка Чурова если и имеет какой-то интерес, то сугубо и исключительно академический.
[User Picture]
From:nonenoun
Date:March 30th, 2013 03:07 pm (UTC)
(Link)
> При этом для правильной оценки результатов выборов вполне достаточно качественного анализа

Это смотря что вы понимаете под "правильной оценкой". Важен не "правильный результат", а доказательство массовых фальсификаций. Именно это является ключевым при исследовании российских выборов - поскольку при таком масштабе фальсификаций ни одна политическая система не может быть эффективной. Многие до декабря 2011 отрицали факт массовых фальсификаций. Да и сейчас немало таких осталось.
[User Picture]
From:reader59
Date:March 30th, 2013 06:48 pm (UTC)
(Link)
Ну, были. И что? Стране в 1992-2012 гг. многократно задавали вопрос: вам избирательное право, вообще, нужно? Каждый раз была возможность ответить "да", и каждый раз страна отвечала "нет", - причем настолько уверенно, что ни 15, ни 25, ни любым другим сколько-нибудь похожим на правду процентом доказанных фальсификаций от этого ответа не отмоешься. Потому что, скажем, на последних выборах ответить "нет" было возможно, для этого надо было обязательно придти на участок и обязательно испортить бюллетень. Воспользовались этой возможностью 660 тыс. из 70 с лишним миллионов избирателей, и даже из них далеко не все сделали это осознанно.
Есть, правда, вариант, что страна неправильно понимала поставленный вопрос, - но тогда она идиот, и бюллетени ей давать нельзя по соображениям техники безопасности.
А насчет эффективности систем, так она определяется не способом формирования власти, эффективных диктатур и неэффективных демократий в мире пруд пруди. Способ формирования власти определяется качеством населения. Как и многое другое, не менее важное и принципиальное.
[User Picture]
From:nonenoun
Date:March 30th, 2013 07:15 pm (UTC)
(Link)
А насчет эффективности систем, так она определяется не способом формирования власти, эффективных диктатур и неэффективных демократий в мире пруд пруди.

Можете назвать эффективную диктатуру, где массово фальсифицируются выборы? Обычно в таких системах выборы ничего не решают, но там это достигается не фальсификациями, а законодательством.

Потому что, скажем, на последних выборах ответить "нет" было возможно, для этого надо было обязательно придти на участок и обязательно испортить бюллетень.

Какой процент людей знал об этой акции (речь о Нах-нахе, как я понял)? Думаю, не больше 10%.

Резюмируя - надо сделать первый шаг. Бойкот выборов (или порча бюллетеней) вряд ли является таким шагом (сторонники бойкота не говорят, что должно быть результатом таких мер). А вот обеспечение честных выборов (мы здесь не говорим о равном доступе к СМИ, речь для начала о честном подсчёте) - это задача объединяющая, конструктивная (в неё можно вовлечь большое число людей) и понятная. Если же даже эту задачу люди решить не в состоянии (при условии, что они знают о массовых фальсификациях) - тогда да, дела плохи.

P.S. В истории были примеры, когда диктатуры менялись через выборы - Stunning elections
[User Picture]
From:reader59
Date:March 30th, 2013 07:37 pm (UTC)
(Link)
_Можете назвать эффективную диктатуру, где массово фальсифицируются выборы?_

СССР года до 1964-го. Эффективность вполне сравнима с западной, конституционное и выборное законодательство (6-я статья появилась сильно позже, в 77-м) формально вполне, при этом фальсификация выборов была даже не тотальной, но фундаментальной.

Насчет "не знал" - не отмазка. Тут разговор не о политике, но о вещи более важной, о системе ценностей, об уровне "что такое хорошо и что такое плохо". Глядя на то, что все фигуранты бюллетеней делали в предыдущие 12 лет, правильно (точнее, "западно", а мы не Запад) в этом плане воспитанный человек безо всякого "нах-наха" другого выбора сделать не мог. И остаться в стороне тоже.
И это не первый шаг к демократии, да. Это социологическое исследование качеств населения, причем максимально репрезентативное и очень, очень практически значимое. Один из безусловных выводов - для автохтонов, как и для любых азиатов вообще, избирательное право ценностью не является. Следовательно, и "объединять" вокруг возможности его реализации тут некого.
Справочно: без равного доступа к СМИ подсчет голосов уже не имеет значения, поскольку результат уже предопределен. Именно поэтому для человека с западной системой ценностей достаточно разок пройтись по каналам нашего ТВ, чтобы вести себя потом на выборах вполне определенным образом.
From:wood_morr
Date:March 30th, 2013 10:11 am (UTC)
(Link)
На левом верхнем графике второй группы графиков (голоса за Медведева vs явка) мне показалось, что есть не только пики не круглых %, но и "пила": голоса резко подскакивают на 80% и далее плавно спадают к 85, и т.д. Спадание именно плавное - не сразу к 81%, а постепенно. В такой пиле может быть больше голосов, чем просто в пике.

Интересно, что это более выражено для 25 регионов.

Извините, если баян.
[User Picture]
From:oude_rus
Date:March 30th, 2013 10:56 am (UTC)
(Link)
такой эффект безусловно имеет место быть, причем на всех регионах -- просто на "остальных" он менее заметен из-за вылезающих пиков. Не очень понятно, как его формализовать. Проводить плавную кривую через нижние точки не представляется мне обоснованным (хотя по сути возможно и правильным).
From:wood_morr
Date:March 30th, 2013 11:16 am (UTC)
(Link)
Можно попробовать построить кривую типа "отношение голоса за Медведева/голоса за остальных vs явка". Если там будет пила, то уж там можно проводить по нижним точкам.
[User Picture]
From:oude_rus
Date:March 30th, 2013 11:38 am (UTC)
(Link)
я смотрел: пилы там нет, по крайней мере, легко различимой.
[User Picture]
From:anderson_mike
Date:March 30th, 2013 03:24 pm (UTC)
(Link)
Интересно, с какой целью пишутся подобные статьи? Ведь понятно, что те люди, которым настолько не пофигу, что они их прочтут - этим людям настолько не пофигу, что они поймают аффтаров на подлоге.
[User Picture]
From:podmoskovnik
Date:April 1st, 2013 09:09 pm (UTC)
(Link)
Обстоятельства так сложились. Еще гуляли отголоски скандалов от думских и президентских выборов 2007-08 гг и плюс в Штатах вышла книга Мягкова, Шакина и Ордешука тоже с критикой выборов с позиции статистики; на нее еще сослался кто-то типа Ведомостей. Видимо, тогда и решили, что пора дать отпор буржуазным измышлениям. Арлазарова в качестве генерала, видимо, привлекли как директора Cognitive, у которой с ЦИК был контракт на OCR, Соловьева - как коллегу А. по ВНИИСИ.
[User Picture]
From:corbulon
Date:March 31st, 2013 12:59 pm (UTC)
(Link)
Для выборов-2011 я делал таблицу регионов по РПЦ-тесту
http://corbulon.livejournal.com/95406.html
(только теперь придется выбрать в альбоме пункт "оригинал", чтобы таблица развернулась в читаемый размер).

Эти 25 регионов занимают в таблице места от 16-го по 85-е, последнее, место (чем выше номер, тем лучше дело с РПЦ). В среднем их номер 52.
Выше 35-го места только 10 регионов, в остальных 15 РПЦ дает по всем показателям норму.

Так что и тут твои выводы подтверждаются.

Powered by LiveJournal.com