Maxim Pshenichnikov (oude_rus) wrote,
Maxim Pshenichnikov
oude_rus

Categories:

Некорректная методика расчета итоговых результатов выборов по СМС-ЦИК

Дисклеймер Поскольку пост приобрел незаслуженную популярность, я хочу дать несколько пояснений:

1. Я не являюсь условным кремлевским или условным оппозиционным блогером. Я сам по себе (за что обычно собираю все шЫшки). Анализ цифр с выборов - это мое хобби, которым я занимаюсь в свободное время. А поскольку оно есть не всегда, то я не могу себе позволить строчить страницы постингов и ответных комментариев.

2. Мне казалось очевидным, но, видимо, небходимо артикулировать: я глубоко уважаю армию наблюдателей, которые готовы провести свое время не в самом приятном окружении, чтобы сделать действительность хоть чуточку, но лучше. Именно наблюдатели устроили в Москве треш на выборах-2011, и гарантировали относительно честные выборы-2012 и 2013. Именно это и называется "гражданское общество". Извините за пафос, но я считаю наблюдателей одними из лучших людей страны.
2а. Если кто-то из наблюдателей обиделся на хипстеров, напишите в комментарии - я персонально принесу извинения.

3. Точно так же я уважаю общественные организации, которые занимаются обеспечением честности выборов. СМС-ЦИК - это совершенно фантастический проект, который позволил обобщить разрозненные доклады наблюдателей в единую базу данных "на лету" (это только та часть проекта, которую вижу я). С моей точки зрения, этот проект должен быть обязательно продолжен, поскольку он реально работает, и работает отлично.
3а. В этом свете мне не очень понятна агрессивность romanik, но это не мой выбор.

4. По делу: мне кажется, что произошла какая-то подмена понятий. Целью этого поста было обратить внимание на возможную нерепрезентативность сети наблюдателей. Для проверки этого утверждения не надо делать многостраничные построения; надо просто посчитать результат Собянина с учетом участков, непокрытых смс-цик наблюдателями, экстраполируя на них известные из смс-цик средние явку и результат Собянина в этом ТИК. Если результат не меняется - покрытие репрезентативное, если увеличивается - нет. Просто, да?
4а. И уже только потом можно начинать рассуждать, почему так получилось. Для затравки приведу график travalliero, построенный только по смс-цик данным (т.е. которым мы заведомо верим), и который показывает, что результат Собянина увеличивается на ТИК, участки которых менее покрыты наблюдателями:
326991_original
Еще по теме могу порекомендовать исследование nonenoun Выборы в Москве: 1996-2012. О преемственности и причинности. Там много букв, но они того стОят.

0. Я сюда буду потихоньку дописывать всякие комментарии синим цветом. Стирать, разумеется, ничего не буду -- рукописи не горят.
__________________________________________________________________________

Это по поводу предыдущего. Краткий сюжет: по участкам с смс Собянин набрал 49.7% , а без смс - 53.32%. Дорогая редакция, как же так? Власти опять что-то скрывают!

Было высказано много (конспиративных) предположений. Мне больше всего понравился сценарий от anderson_mike, как смс-координатор (который за честные выборы) публикует только те смс'ки, где у Собянина низкий результат. Действительность оказалась гораздо банальнее, и связана с неадекватной методикой подсчета конечного результата Голоса или кто там эти смс'ки обрабатывает.

Поясню на примере. Пусть имеются два ТИК, по 10 УИК в каждом, на каждом из которых проголосовало по 1000 человек. Первый ТИК  провластный, то есть там всегда на всех нефальсифицированных выборах лучше голосуют за власть (посмотрите карты у kireev).
Примечание. Этот момент оказался непонятным. Москва действительно неоднородная с точки зрения электоральных предпочтений, и эти предпочтения очень стабильны за последнюю декаду. Например, восток во всех несфальсифицированных выборах проявляется более про-властным, а запад - про-оппозиционным. Связано это с различиями в уровне образования и, возможно, доходов. Это было показано многими учОными; могу порекомендовать недавнее исследование nonenoun. Так вот, пусть на провластном участке результат голосования 60% за Собянина, т.е. 600 человек на УИК. Второй ТИК оппозиционный, там за власть голосуют плохо -- пусть 40% за Собянина, т.е. 400 человек на УИК. Среднее по палате для Собянина получится 50%.

Теперь введем наблюдателей. Если они распределены одинаково (пусть на каждый УИК по штуке), то результат, посчитанный из их сообщений, совпадет с реальным. А теперь пусть на провластном ТИК будет 5 наблюдателей, а на оппозиционном - те же 10. Они сообщат нам, что в сумме проголосовало 15000 тысяч, из них за Собянина 5х600+10х400 = 7000, т.е. Собянин набрал 46.7% -- меньше его реального результата! Причем заметьте, что каждый сообщил совершенно правильные цифры, и мухлежа никакого не было -- да вот только 5 участков на провластном участке выпало из статистики.

Почему это произошло? Потому, что покрытие наблюдателями ТИК оказалось неравномерным (меньше наблюдателей на провластных участках), и поэтому их выборка - нерепрезентативной.

Как это можно скомпенсировать? (т.е. как считать корректно) Очень просто: надо по имеющимся с 5 смс-участков явке и результату посчитать, сколько всего народу голосовало в данном ТИК всего и сколько - за Собянина, поскольку количество зарегистрированных избирателей известно заранее. И для подсчета суммировать именно эти (оцененные, экстраполированные - как хотите) голоса (а не те, которые он получил в реальности -- они, по условиям задачи, неизвестны), и только потом вычислять процент Собянина. Обратите внимание, что при таком подходе используются  результаты только от наблюдателей, которым мы заведомо верим, и известное до выборов общее количество избирателей на УИК, которые непокрыты сетью наблюдателей, для каждой отдельной ТИК. Если результат окажется близким к тому, который получается только из статистики наблюдателей, - сеть наблюдателей репрезентативна. Если нет, то нет - и тогда можно переходить к гипотезам о неоднородности.

Я такой фокус проделал с текущими данными по участкам с смс и сразу же получил результат Собянина в 51.13%, что почти в точности равно официальному результату 51.37%. Который, естественно, в окончательном пересчете будет слегка повыше за счет всяких временных участков (навроде психбольниц), которые я выбросил из рассмотрения. Все, case solved.
Пересчитал результат по новой базе данных; опять спасибо podmoskovnik. В новой базе обновлена информация по участкам, покрытым смс, и исправлен казус участка 3321 (которому прописали 22040 избирателей). Итоговое число - 50.9%; если кому-то интересны сырые данные, могу переслать. Это было доказательство номер 1. (независимое подтверждение от tzorin) (еще одно независимое подтверждение от anseltis с реконструированной динамикой промежуточных результатов) (еще одно независимое подтверждение независимое подтверждение от alien_muzzy, с разбивкой по проценту покрытия наблюдателями)

Короткий комментарий по поводу неравномерности заполнения ТИК наблюдателями. Тут, как упоминали мои дорогие комментаторы, работает обратная связь: чем хипстервее УИК, тем охотнее туда идут оппозиционные наблюдатели, и тем охотнее они участвуют в игрушках типа СМС-ТИК. И никто из них не хочет ехать на деревню дедушке в Новую Москву. Ничего страшного в этом нет, просто необходимо принимать во внимание подобную неравномерность при расчете окончательного результата.

А здесь я приведу еще одно твердое доказательство существования подобной перекошенности, только пойду пожру сначала.


Доказательство номер 2.
Здесь показаны проценты голосов за Собянина по каждой ТИК, посчитанные из УИК без смс-наблюдателей (горизонтальная ось) и с смс-наблюдателями (вертикальная ось). Видно, что средний результат по ТИК прекрасно ложится на диагональ, т.е. результаты УИК с-смс и без смс в среднем одинаковы. Это говорит о том, что перекос конечного числа вызван НЕ систематическими отличиями УИК с- и без-смс (т.е. гипотеза о махинациях на без-смс УИК не подтверждается). С нескольками отщепенцами надо поработать отдельно.
tik1
По поводу этого доказательства были выдвинуты два возражения по существу:
1. Участки сильно прорежены и, следовательно, выборка нерепрезентативна
2. Средний результат НЕ ложится на диагональ, в явном противоречии с утверждением автора.

По п.1: Выборка действительно прорежена, но систематическим образом:
(а) Выброшены спецучастки с номерами больше 3600 (см. предыдущий пост, откуда началась дискуссия). Выброшены они не потому, что дают большой вклад в итоговую картину (они не дают), и не потому, что автор одобряет сложившуюся систему "наш дурдом голосует за Путина Собянина". Дело в том, что на масштабе ТИК эти участки могут серьезно искажать локальную статистику, поскольку условные психи не являются репрезентативными представителями населения, а задачей было посмотреть на корреляцию.
(б) Выброшены ТИК, по которым не было парных данных
(в) Выброшены ТИК, по которым был только один УИК, покрытый смс, поскольку делать проекцию на такой статистике довольно опасно.
Тем не менее, я совершенно согласен с тем, что лучше бы было все эти случаи перечислить explicitly.

По п.2: То, что на глаз есть отклонения от диагонали, я, разумеется, тоже заметил. Вопрос в том, насколько глаз дает объективную картину. Особенно когда глазу хочется чего-то определенного. Вот на этом я и хочу остановиться поподробнее, на обновленной базе данных и полной выборке. Полный график выглядит так:

sms20
Нет Молжаниновского и Сокола (полностью покрыты) и Внуково и Ст.Крюкова (полностью непокрыты). (Не обращайте внимания на надписи, я к ним потом вернусь.) Действительно, линейный фит дает синюю подгоночную кривую, из которой следует вывод: результаты УИК с-смс и без смс в среднем искажены в пользу Собянина УИКами без СМС. Это говорит о том, что перекос конечного числа вызван систематическими отличиями УИК с- и без-смс (т.е. гипотеза о махинациях на без-смс УИК полностью подтверждается).

Однако давайте проделаем следующее: перевернем оси у графика, т.е. на горизонтальной оси отложим результат смс, а по вертикальной - без смс, и сделает новый фит:
sms21
Теперь фит идет совершенно по-другому! Получается, что на ТИК с высоким результатом Собянина участки с и без смс дают одинаковый результат, а где процент Собянина маленький - его результат занижается на участках с наблюдателями. Был бы я кремлеблогер на зарплате, я бы непременно написал что-нибудь вроде: результаты УИК с-смс и без смс в среднем искажены в пользу Навального УИКами с СМС. Это говорит о том, что перекос вызван систематическими отличиями УИК с- и без-смс (т.е. гипотеза о махинациях на с-смс УИК полностью подтверждается). Но я не кремлеблогер, поэтому я стал разбираться.

Понятно, что не может такого быть, чтобы переворот осей давал картину, несимметричную относительно диагонали. Значит, что-то неправильно с фитом (кстати, я это заметил еще с первой картинки). Дальнейшие изыскания привели вот к какому выводу (высказанному также внизу в комментариях): стандартный фит оптимизирует отклонения вдоль вертикальной оси, и, поскольку эти отклонения разные для с-смс и без-смс, то и фит получается разный. Значит, надо перейти к фиту (регрессии), который оптимизирует расстояния (а не отклонения по одной оси) до прямой, что делается, например, регрессией Деминга или ее разновидностями типа Passing&Bablok regression из пакета MedCalc (это тот же Деминг, вид сбоку). Заодно они дают всякие полезные штучки вроде интервалов доверия. Ну и вот результат:
Passing and Bablock 1Passing and Bablock 2
Наклон 0.9863, а интервал доверия показан коричневыми линиями. Разумеется, результат симметричен при смене осей. Особенно мне нравится вывод справа внизу, который прозрачно намекает, что гипотеза "результаты УИК с-смс и без смс в среднем искажены в пользу Собянина УИКами без СМС" не находит статистического подтверждения (на рассмотренном массиве данных).

Теперь вернемся к надписям на верхней картинке. Видно, что 3 ТИК - Академический, Якиманка и Щукино вылетают из интервала доверия, и понятно, почему: на них на всех есть "спецучастки". Вот на них и нужно посмотреть повнимательнее. Процедуру можно продолжить -- именно так я и составил список подозрительных участков. И только потом можно переходить к гораздо более тонким эффектам (см. Доказательство номер 5).




Доказательство номер 3. Часть 1.
podmoskovnik любезно предоставил мне базу данных с разбивкой всех УИК по принадлежности к КОИБ и смс-цик, за что ему большое спасибо. Голосованию по КОИБ мы (пока) верим, то есть будем считать его правильным. Диаграмма внизу показывает двумерное распределение явки и голосов за Собянина только на тех УИК, где установлены КОИБ. И мы внезапно видим... два пятна!
sms-cik 2

Отгадка тут очень проста (опять-таки podmoskovnik и barouh подсказали): участки с КОИБ установлены в центре и на востоке, юго-востоке и новой Москве -- т.е. ровно в тех районах, которые голосуют за начальство совершенно по-разному! (повезло, можно сказать). Вот они и разделились на двумерной диаграмме (за что я их и люблю): оппо-центр показал бОльшую явку и меньший результат за Собянина, а В, ЮВ и НМ - меньшую явку и лучший результат за начальника. На всякий случай я посчитал, выбросив Центр, и получил аккурат верхнее левое пятно, так что все правильно.
Справа - та же карта, но теперь показаны участки с КОИБ и с смс-цик. Масштаб цвета тот же самый, так что видно, как сильно "провисло" верхнее пятно. Нижнее тоже уменьшилось в амплитуде, но не так заметно. Что бы сравнить напрямую, перейдем к одномерной картинке.

Доказательство номер 3. Часть 2.
Здесь показаны голоса за Собянина на участках с КОИБ -- всех и с подмножестом смс-цик.
cik 3
Во-первых, Гаусс нервно курит в уголке. Во-вторых, количество смс-покрытых голосов (желтая линия) в центре Москвы (это где 40%) почти равно всем голосам (коричневая линия); коэффициент отношения ~0.75 (синяя линия). А на окраинах (я их показал отдельно пунктирной линией) коэффициент смс-покрытия падает до 0.5 -- то есть голоса недоучитываются.

Доказательство номер 4.
Подготовлено kireev, за что ему большое спасибо. Пространственная корреляция смс-цик покрытия и голосования за Навального. Из карт прекрасно видно, что в тех районах, где власть традиционно имеет хорошую электоральную базу (а Навальный, стало быть, плохую), покрытие наблюдателями было довольно слабым.

Что и требовалось доказать.

Доказательство номер 5
Subscribe

  • Помощь зала

    Много раз помогали уже, ну вдруг опять. Имеется Synology DS118 NAS на 6 ТБ, который каждым субботним утром впадает в маразм, и начинает как бешеный…

  • С наступающим!

  • Старые анекдоты на старый лад

    Я сейчас волею судеб нахожусь в Нормандии, ровно по центру высадки союзников. Ну и посещаю всякие артефакты, коих тут предостаточно. Посетители в…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 166 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →

  • Помощь зала

    Много раз помогали уже, ну вдруг опять. Имеется Synology DS118 NAS на 6 ТБ, который каждым субботним утром впадает в маразм, и начинает как бешеный…

  • С наступающим!

  • Старые анекдоты на старый лад

    Я сейчас волею судеб нахожусь в Нормандии, ровно по центру высадки союзников. Ну и посещаю всякие артефакты, коих тут предостаточно. Посетители в…