?

Log in

No account? Create an account
Я разбил свой лоб в гребенку - Maxim Pshenichnikov
September 11th, 2013
12:27 am

[Link]

Previous Entry Share Next Entry
Я разбил свой лоб в гребенку
Уже, наверное, все слышали телевизор с Сергеем Шпилькиным, где он рассказал про загадочную несогласованность на выборах. Вкратце, есть такая программа - СМС-ТИК, когда независимые наблюдатели отсылают смс с результатами голосования на их участке, как только эти результаты становятся известны. Смс'ки собираются на сайте даже быстрее, чем публикуются официальные данные. Насколько сейчас известно, расхождений между официальными результатами и смс-тик практически нет -- то есть, как выразился Сергей, тут наблюдается полный консенсус.

Однако СМС-ТИК охватывает примерно 2/3 всех УИК, т.е. остается одна треть, про которую имеются только официальные данные. И вот эти данные сильно расходятся с "консенсусными" данными: по только официальным данным (т.е. где нет смс-тик), Собянин набирал 53.32%, а по консенсусным - 49.97%, ну а в среднем получается официальный результат 51.37%. Что, разумеется, создает коллизию по поводу 2го тура.

Сергей мне любезно подослал данные, поскольку мне было интересно посмотреть на двумерные картинки, которые обычно гораздо более чуствительны к махинациям, чем одномерные, навроде распределения по явке. Ну и вот:
sms1
Здесь я выбросил из статистики все УИК с номерами за 3600 - это всякие спецучастки; особой роли они не играют. Распределения взвешены по количеству проголосовавших (всего на участке, а не за кандидата).

Что видно на картинке? а ничего интерсного не видно, вот загогулина-то какая! Распределения совершенно одинаковы, одно (левое) просто сдвинуто относительно правого на искомые 3% по вертикали, давая превосходство Собянину на тех участках, где не было смс-тик. Все остальные параметры, включая ширины и наклон (я сделал двумерный фит Гауссом) практически одинаковы - ну, средняя явка слева 31.5% чуть меньше, чем справа (32.1%), но это мелочи. Облако наверху на левой картинке - это Новая Москва, которая опять-таки не очень существенна, поскольку центр - т.е. средняя явка и результат - все равно определяются основным облаком (я Новую Москву обрезал для проверки, ничего не меняется).

В общем, такое впечатление, что левое облако (где нет смс-тик) просто сдвинули относительно правого (где есть смс-тик) по вертикали (т.е. по  результату) на 2.5-3%. Вот как такое может быть, совершенно не понимаю!

Разумеется, первое, что приходит в голову - это наблюдатели были представлены нерепрезентативно; тут можно придумать несколько разных сценариев. Но тогда бы я ожидал, что на безнаблюдательных участках хоть какие-то параметры распределения были бы другими, чем на наблюдательных. Например, распределение по явке было бы шире, или распределение по голосам было бы уже. Ан нет -- все практически одинаковое. Какие  могут быть объяснения?

Под катом, в качестве бонуса, проекции двумерных диаграмм на оси -- т.е. распределения по явке и результату (Навальный тоже включен) плюс цифры, которые я упоминал:
sms2 sms3

Фиты (сплошные линии) - Гауссы; кстати, вполне культурные.


UPD еще интересный пост по теме: http://tov-y.livejournal.com/5379.html?view=33539#t33539

(91 comments | Leave a comment)

Comments
 
[User Picture]
From:anderson_mike
Date:September 10th, 2013 10:50 pm (UTC)
(Link)
Первое, что приходит в голову - спецучастки это не только 36**. Попробуйте выкинуть все, где в списках менее 500, или 1000 избирателей.

Второе, что приходит в голосу - то, что выборка СМС-тик сформировалась не естественным образом, а искусственным. Т.е. на самом деле к ним пришло БОЛЬШЕ протоколов, и часть они выкинули, а так как там, в отличие от МИГИа, сидят люди с мозгом - то и выкинули правильно, чтобы распределение не нарушилось.

Третье, что пришло в голову - шанс, что наблюдатель пришлет свой протокол выше, если процент С. низкий, и ниже, если процент С. высокий.

Четвертое объяснение - МГИК самообучился и стал невероятно продуманный, выявил участки без наблюдателей, и на каждом переложил 3% (именно переложил, не накидал, иначе бы явка поплыла тоже). Честно говоря, если они на такое способны - я бы поставил Горбунова завтра же президентом страны, настолько надо быть крутым чуваком, чтобы сделать такое. С таким президентом САСШ обгоним по ВВП за пятилетку!

Я еще подумаю.

Edited at 2013-09-10 10:50 pm (UTC)
[User Picture]
From:oude_rus
Date:September 10th, 2013 10:56 pm (UTC)
(Link)
1. я эти участки не вижу. Если они спец -- должны же они себя как-то проявить?
2. Это может, но выкидывать надо крайне аккуратно (мне эта гипотеза очень нравится)
3. может, но опять-таки ничего не изменяя?
4. надо переложить 6%, я уже проверил. А выявить просто: СМС-ТИК данные он-лайн публиковали. Смотри, где нет данных (они закончили около 12 по Москве), и отмусоливай ровно 6%.

Edited at 2013-09-10 11:03 pm (UTC)
From:badfiles
Date:September 10th, 2013 10:52 pm (UTC)
(Link)
у меня такой чисто дилетантский вопрос – если предположить, что на самом деле ccc набрал ~49,5%, и для победы пришлось накидать 2%, то их вообще можно заметить такими методами?
[User Picture]
From:oude_rus
Date:September 10th, 2013 10:58 pm (UTC)
(Link)
Смотря кто будет делать. Если я - то нифига не заметите!
Сергей про это тоже говорил: отличия настолько мизерные, что их заметить (даже не доказать!) очень тяжело. Я, например, ничего не заметил.
[User Picture]
From:sergey_cheban
Date:September 10th, 2013 11:04 pm (UTC)
(Link)
Гипотеза: те участки, которые не были обеспечены наблюдателями, не были окучены и агитацией Навального. Ну, может, они в каких-то неудобьях располагаются, не знаю. Или, может, там интернета нет. Или, может, агитация сама по себе увеличивала шансы возникновения наблюдателя на участке. Вот уже как минимум три правдоподобные причины корреляции.
Ну а что сумма двух случайных величин даёт гаусс, это тоже не удивительно.
[User Picture]
From:naukarus
Date:September 11th, 2013 02:15 am (UTC)
(Link)
Распределение то должно было бы хоть как то измениться. Все-таки больше похоже, что кто-то либо фильтровал (sms-cik), либо дополнял (Мосизирком) данные. Первым, даже если представить их фальсификаторами, сделать это было гораздо сложнее (если вообще возможно) в режиме реального времени. Вторым (про которых мы уже знаем, что они фальсификаторы), это было проще, учитывая долгую-долгую паузу и то, что они прятали данные по явке и КОИБАм.
[User Picture]
From:beer_evangelist
Date:September 10th, 2013 11:27 pm (UTC)
(Link)
Ну например мне председательша проболталась что они всегда повышали явку за счет выездного не составляя реестр (его ваяли по факту) и забирая на выезд максимальное кол-во бюллетеней. Возможно, эта практика распространяется на всю Москву.

У нее еще был документ из ТИК. в котором была описана упрощенная процедура подсчета (ага, без оглашения) и как выдать наблюдателям недействительную копию протокола - я го стырить попытался, но участковый меня поймал %)
[User Picture]
From:barouh
Date:September 11th, 2013 08:05 am (UTC)
(Link)
На этих выборах наблюдатели и независимые ПРГ если не на всех, то на многих участках жестко контролировали соблюдение всех правил выездного голосования. И можно уверенно сказать, что централизованной установки на вброс бюллетеней в переносные урны (за счет вольного обращения с реестром и получения лишних бюллетеней на выезды) не было. И распространенной эта практика не была

"еще был документ из ТИК" - о каком районе идет речь?
[User Picture]
From:naukarus
Date:September 11th, 2013 02:16 am (UTC)
(Link)
они стали более лучше фальсифицировать.
[User Picture]
From:tov_y
Date:September 11th, 2013 03:02 am (UTC)
(Link)
По этой же теме ко мне загляните: http://tov-y.livejournal.com/5379.html
[User Picture]
From:oude_rus
Date:September 11th, 2013 10:22 am (UTC)
(Link)
да, очень интересно, я тоже это пересчитал.
проблема тут в том, что если бы смс-проценты не зависили от доли покрытия, то это был бы сильный аргумент. А они зависят точно так же.
[User Picture]
From:kouprianov
Date:September 11th, 2013 03:28 am (UTC)
(Link)
А нет ли карты по УИКам, охваченным SMS-цик? Если она ляжет на карту Прохоровско-Навальнинского электората по Кирееву, то гипотеза о bias проекта SMS-цик верна.
From:a_shen
Date:September 11th, 2013 04:24 am (UTC)

ну да,

(Link)
"решающий эксперимент" мог бы состоять в том, чтобы взять результаты прошлых выборов и разбить их по тем же участкам - но только участки переделили, как я понимаю, и искать территориальное соответствие хлопотно и ненадёжно
[User Picture]
From:ammosov
Date:September 11th, 2013 03:50 am (UTC)
(Link)
А каким софтом карты рисовал?
[User Picture]
From:oude_rus
Date:September 11th, 2013 10:24 am (UTC)
(Link)
origin.
[User Picture]
From:corbulon
Date:September 11th, 2013 04:40 am (UTC)
(Link)
Вчера я был крайне удивлен: распределение последних цифр дало аномалии по числу действительных и недействительных
http://corbulon.livejournal.com/200401.html
Такого раньше в Москве не было.
А остальные графы в полном порядке и даже ажур.
[User Picture]
From:oude_rus
Date:September 11th, 2013 10:25 am (UTC)
(Link)
да, видел, но только не пойму, что из этого следует.
[User Picture]
From:d_ryabov
Date:September 11th, 2013 06:28 am (UTC)
(Link)
Если у "гаусса" отнять какое-то количество данных, сдвинуть их вправо на 3% и сложить с исходными данными, то очень трудно отличить результат от гаусса. В окрестности максимума гауссиану можно аппроксимировать параболой, а сумма двух парабол - это тоже парабола, поэтому форма максимума не поменяется. Должна увеличиться дисперсия, но мы этого не можем зафиксировать. Можно было бы следить за асимметрией и эксцессом, но тут наверное будет большая погрешность (да и они очень чувствительны к хвостам, а на хвостах распределение не описывается гауссианой в силу ограниченности диапазона 0-100%).

PS. Кстати, кто-нибудь знает функцию, как "реально" должны распределяться голоса по %? Можно было бы предположить, что есть два кандидата, за каждого на участке голосует случайное число человек с некоторым известным распределением (например, Рэлея p1*N*exp(-N/s) или типа Максвелла p1*N^k*exp(-0.5(N/s)^2), где s - средняя "явка" и p1 - доля голосов за первого кандидата) и попытаться аналитически найти распределение для величины N1/(N1+N2), но не уверен, что это возможно. (Как-то сумбурно написал, просто пока и сам не могу четко поставить задачу.)

Edited at 2013-09-11 09:12 am (UTC)
[User Picture]
From:oude_rus
Date:September 11th, 2013 10:27 am (UTC)
(Link)
сдвигать надо на 6%, тогда ширина сразу же едет, вполне наблюдаемым образом.

говорят, что лог-норм. Тут помогает то, что кривые расположены ровно на 50%, т.е. должны быть симметричными по любой теории.
[User Picture]
From:barouh
Date:September 11th, 2013 07:49 am (UTC)
(Link)
Распределения (картинки в качестве бонуса) посчитаны без 36хх участков и без Новой Москвы?
[User Picture]
From:oude_rus
Date:September 11th, 2013 10:27 am (UTC)
(Link)
без 3600 (как вы заказывали), но с НМ -- ее прекрасно видно, но она ни на что не влияет, слишком маленький вес по сравнению с основным "телом".
[User Picture]
From:sergey_cheban
Date:September 11th, 2013 09:09 am (UTC)
(Link)
> Какие могут быть объяснения?
А случайно, чисто из-за статистического шума, так получиться не могло? Дисперсии у распределений вроде как довольно велики, и доверительные интервалы, по идее, должны пересекаться.
[User Picture]
From:oude_rus
Date:September 11th, 2013 10:28 am (UTC)
(Link)
дисперсии велики, но точность среднего высока (~0.2%) из-за большой статистики.
[User Picture]
From:barouh
Date:September 11th, 2013 09:13 am (UTC)
(Link)
Смешной тест, который говорить в пользу естественного характера сдвига "колокола" участков, отсутствующих в смс-цик:
результат Собянина "зависит" не только от того, есть ли по этому участку информация от наблюдателя или нет, но и от того, сколько наблюдателей отчиталось по участку.

Средний результат Собянина (без учета больничных участков и Новой Москвы):
4 наблюдателя и более 47,9%
3 наблюдателя 48,9%
2 наблюдателя 50,1%
1 наблюдатель 50,4%

Если продолжить ряд, на участках без наблюдателей Собянин должен был получить больше 50,5%. Вопрос - насколько больше
[User Picture]
From:anderson_mike
Date:September 11th, 2013 10:04 am (UTC)
(Link)
Но по итогам я склоняюсь все же к тому, что дело в неравномерном территориальном распределении наблюдателей. Наблюдатели избегали малых участков, участков совсем уж в заднице и т.д.
[User Picture]
From:oude_rus
Date:September 11th, 2013 10:29 am (UTC)
(Link)
вы мне скажите, по какому принципу прорубить начальную статистику, тогда это будет аргумент.
[User Picture]
From:zametilprosto
Date:September 11th, 2013 10:26 am (UTC)
(Link)
А можно глупый вопрос?

Вот были же графики как выкладывались участки по времени (Избиркомом)

Есть какое-нибудь отличие, что выкладывалось сначала? Те участки на которых было СМС-ЦИК, участки без них или без разницы?
[User Picture]
From:oude_rus
Date:September 11th, 2013 10:31 am (UTC)
(Link)
избирком выкладывал слишком большими порциями.
но над этим работаем, да.
Powered by LiveJournal.com