September 11th, 2013

Я разбил свой лоб в гребенку

Уже, наверное, все слышали телевизор с Сергеем Шпилькиным, где он рассказал про загадочную несогласованность на выборах. Вкратце, есть такая программа - СМС-ТИК, когда независимые наблюдатели отсылают смс с результатами голосования на их участке, как только эти результаты становятся известны. Смс'ки собираются на сайте даже быстрее, чем публикуются официальные данные. Насколько сейчас известно, расхождений между официальными результатами и смс-тик практически нет -- то есть, как выразился Сергей, тут наблюдается полный консенсус.

Однако СМС-ТИК охватывает примерно 2/3 всех УИК, т.е. остается одна треть, про которую имеются только официальные данные. И вот эти данные сильно расходятся с "консенсусными" данными: по только официальным данным (т.е. где нет смс-тик), Собянин набирал 53.32%, а по консенсусным - 49.97%, ну а в среднем получается официальный результат 51.37%. Что, разумеется, создает коллизию по поводу 2го тура.

Сергей мне любезно подослал данные, поскольку мне было интересно посмотреть на двумерные картинки, которые обычно гораздо более чуствительны к махинациям, чем одномерные, навроде распределения по явке. Ну и вот:
sms1
Здесь я выбросил из статистики все УИК с номерами за 3600 - это всякие спецучастки; особой роли они не играют. Распределения взвешены по количеству проголосовавших (всего на участке, а не за кандидата).

Что видно на картинке? а ничего интерсного не видно, вот загогулина-то какая! Распределения совершенно одинаковы, одно (левое) просто сдвинуто относительно правого на искомые 3% по вертикали, давая превосходство Собянину на тех участках, где не было смс-тик. Все остальные параметры, включая ширины и наклон (я сделал двумерный фит Гауссом) практически одинаковы - ну, средняя явка слева 31.5% чуть меньше, чем справа (32.1%), но это мелочи. Облако наверху на левой картинке - это Новая Москва, которая опять-таки не очень существенна, поскольку центр - т.е. средняя явка и результат - все равно определяются основным облаком (я Новую Москву обрезал для проверки, ничего не меняется).

В общем, такое впечатление, что левое облако (где нет смс-тик) просто сдвинули относительно правого (где есть смс-тик) по вертикали (т.е. по  результату) на 2.5-3%. Вот как такое может быть, совершенно не понимаю!

Разумеется, первое, что приходит в голову - это наблюдатели были представлены нерепрезентативно; тут можно придумать несколько разных сценариев. Но тогда бы я ожидал, что на безнаблюдательных участках хоть какие-то параметры распределения были бы другими, чем на наблюдательных. Например, распределение по явке было бы шире, или распределение по голосам было бы уже. Ан нет -- все практически одинаковое. Какие  могут быть объяснения?

Под катом, в качестве бонуса, проекции двумерных диаграмм на оси -- т.е. распределения по явке и результату (Навальный тоже включен) плюс цифры, которые я упоминал:Collapse )

UPD еще интересный пост по теме: http://tov-y.livejournal.com/5379.html?view=33539#t33539

Некорректная методика расчета итоговых результатов выборов по СМС-ЦИК

Дисклеймер Поскольку пост приобрел незаслуженную популярность, я хочу дать несколько пояснений:

1. Я не являюсь условным кремлевским или условным оппозиционным блогером. Я сам по себе (за что обычно собираю все шЫшки). Анализ цифр с выборов - это мое хобби, которым я занимаюсь в свободное время. А поскольку оно есть не всегда, то я не могу себе позволить строчить страницы постингов и ответных комментариев.

2. Мне казалось очевидным, но, видимо, небходимо артикулировать: я глубоко уважаю армию наблюдателей, которые готовы провести свое время не в самом приятном окружении, чтобы сделать действительность хоть чуточку, но лучше. Именно наблюдатели устроили в Москве треш на выборах-2011, и гарантировали относительно честные выборы-2012 и 2013. Именно это и называется "гражданское общество". Извините за пафос, но я считаю наблюдателей одними из лучших людей страны.
2а. Если кто-то из наблюдателей обиделся на хипстеров, напишите в комментарии - я персонально принесу извинения.

3. Точно так же я уважаю общественные организации, которые занимаются обеспечением честности выборов. СМС-ЦИК - это совершенно фантастический проект, который позволил обобщить разрозненные доклады наблюдателей в единую базу данных "на лету" (это только та часть проекта, которую вижу я). С моей точки зрения, этот проект должен быть обязательно продолжен, поскольку он реально работает, и работает отлично.
3а. В этом свете мне не очень понятна агрессивность romanik, но это не мой выбор.

4. По делу: мне кажется, что произошла какая-то подмена понятий. Целью этого поста было обратить внимание на возможную нерепрезентативность сети наблюдателей. Для проверки этого утверждения не надо делать многостраничные построения; надо просто посчитать результат Собянина с учетом участков, непокрытых смс-цик наблюдателями, экстраполируя на них известные из смс-цик средние явку и результат Собянина в этом ТИК. Если результат не меняется - покрытие репрезентативное, если увеличивается - нет. Просто, да?
4а. И уже только потом можно начинать рассуждать, почему так получилось. Для затравки приведу график travalliero, построенный только по смс-цик данным (т.е. которым мы заведомо верим), и который показывает, что результат Собянина увеличивается на ТИК, участки которых менее покрыты наблюдателями:
326991_original
Еще по теме могу порекомендовать исследование nonenoun Выборы в Москве: 1996-2012. О преемственности и причинности. Там много букв, но они того стОят.

0. Я сюда буду потихоньку дописывать всякие комментарии синим цветом. Стирать, разумеется, ничего не буду -- рукописи не горят.
__________________________________________________________________________

Это по поводу предыдущего. Краткий сюжет: по участкам с смс Собянин набрал 49.7% , а без смс - 53.32%. Дорогая редакция, как же так? Власти опять что-то скрывают!

Было высказано много (конспиративных) предположений. Мне больше всего понравился сценарий от anderson_mike, как смс-координатор (который за честные выборы) публикует только те смс'ки, где у Собянина низкий результат. Действительность оказалась гораздо банальнее, и связана с неадекватной методикой подсчета конечного результата Голоса или кто там эти смс'ки обрабатывает.

Поясню на примере. Пусть имеются два ТИК, по 10 УИК в каждом, на каждом из которых проголосовало по 1000 человек. Первый ТИК  провластный, то есть там всегда на всех нефальсифицированных выборах лучше голосуют за власть (посмотрите карты у kireev).
Примечание. Этот момент оказался непонятным. Москва действительно неоднородная с точки зрения электоральных предпочтений, и эти предпочтения очень стабильны за последнюю декаду. Например, восток во всех несфальсифицированных выборах проявляется более про-властным, а запад - про-оппозиционным. Связано это с различиями в уровне образования и, возможно, доходов. Это было показано многими учОными; могу порекомендовать недавнее исследование nonenoun. Так вот, пусть на провластном участке результат голосования 60% за Собянина, т.е. 600 человек на УИК. Второй ТИК оппозиционный, там за власть голосуют плохо -- пусть 40% за Собянина, т.е. 400 человек на УИК. Среднее по палате для Собянина получится 50%.

Теперь введем наблюдателей. Если они распределены одинаково (пусть на каждый УИК по штуке), то результат, посчитанный из их сообщений, совпадет с реальным. А теперь пусть на провластном ТИК будет 5 наблюдателей, а на оппозиционном - те же 10. Они сообщат нам, что в сумме проголосовало 15000 тысяч, из них за Собянина 5х600+10х400 = 7000, т.е. Собянин набрал 46.7% -- меньше его реального результата! Причем заметьте, что каждый сообщил совершенно правильные цифры, и мухлежа никакого не было -- да вот только 5 участков на провластном участке выпало из статистики.

Почему это произошло? Потому, что покрытие наблюдателями ТИК оказалось неравномерным (меньше наблюдателей на провластных участках), и поэтому их выборка - нерепрезентативной.

Как это можно скомпенсировать? (т.е. как считать корректно) Очень просто: надо по имеющимся с 5 смс-участков явке и результату посчитать, сколько всего народу голосовало в данном ТИК всего и сколько - за Собянина, поскольку количество зарегистрированных избирателей известно заранее. И для подсчета суммировать именно эти (оцененные, экстраполированные - как хотите) голоса (а не те, которые он получил в реальности -- они, по условиям задачи, неизвестны), и только потом вычислять процент Собянина. Обратите внимание, что при таком подходе используются  результаты только от наблюдателей, которым мы заведомо верим, и известное до выборов общее количество избирателей на УИК, которые непокрыты сетью наблюдателей, для каждой отдельной ТИК. Если результат окажется близким к тому, который получается только из статистики наблюдателей, - сеть наблюдателей репрезентативна. Если нет, то нет - и тогда можно переходить к гипотезам о неоднородности.

Я такой фокус проделал с текущими данными по участкам с смс и сразу же получил результат Собянина в 51.13%, что почти в точности равно официальному результату 51.37%. Который, естественно, в окончательном пересчете будет слегка повыше за счет всяких временных участков (навроде психбольниц), которые я выбросил из рассмотрения. Все, case solved.
Пересчитал результат по новой базе данных; опять спасибо podmoskovnik. В новой базе обновлена информация по участкам, покрытым смс, и исправлен казус участка 3321 (которому прописали 22040 избирателей). Итоговое число - 50.9%; если кому-то интересны сырые данные, могу переслать. Это было доказательство номер 1. (независимое подтверждение от tzorin) (еще одно независимое подтверждение от anseltis с реконструированной динамикой промежуточных результатов) (еще одно независимое подтверждение независимое подтверждение от alien_muzzy, с разбивкой по проценту покрытия наблюдателями)

Короткий комментарий по поводу неравномерности заполнения ТИК наблюдателями. Тут, как упоминали мои дорогие комментаторы, работает обратная связь: чем хипстервее УИК, тем охотнее туда идут оппозиционные наблюдатели, и тем охотнее они участвуют в игрушках типа СМС-ТИК. И никто из них не хочет ехать на деревню дедушке в Новую Москву. Ничего страшного в этом нет, просто необходимо принимать во внимание подобную неравномерность при расчете окончательного результата.

А здесь я приведу еще одно твердое доказательство существования подобной перекошенности, только пойду пожру сначала.

Collapse )
Collapse )

Collapse )

Collapse )

Что и требовалось доказать.

Доказательство номер 5