?

Log in

No account? Create an account
Maxim Pshenichnikov
December 12th, 2011
08:12 pm

[Link]

Previous Entry Share Flag Next Entry
И еще раз о пятипроцентных пиках

Erratum в Physical Review Letters: "В оценках, проведенных в статье, вместо скорости света c=3x10^10 см/с была  использована постоянная Планка h=6.6x10^-34 Дж/с. Несмотря на эту досадную оплошность, основные выводы остаются без изменений"
-- Из физического фольклера
__________________________________________

Многие пики неизвестной природы на кратных пяти процентах, появляющиеся на известной гистограмме, уже были отслежены взад к источникам: здесь, здесь, здесь, здесь,
http://img805.imageshack.us/img805/7730/bashsverdtyum.gif,
http://z-city.ru/forum/viewtopic.php?f=106&t=9063 (это форум, там картинки искать надо),
и наверное еще где-то, я уже и не уследил. Тем не менее, их проявление на общем распределении (т.е. без отслежиавания источника) в принципе может объяснятся эффектом деления целых чисел, поскольку на голосования ходят целые люди, а не два землекопа и две трети. На что мне было многократно указано, да я и сам это знал.



Вот тут в табличке показано, откуда это происходит. Пусть на выборы приходят 1,2,3,4... избирателя (слева). Все возможности для их голосования указаны в табличке.

Видите закономерность? 1/2 представлена 3 раза, 1/3 и 2/3 - по два, остальные - по одному. То есть, если голосование равновероятно, то на 50% естественным образом появляется пик. В принципе, это эффект известен из цифрового процессирования сигнала, когда одна дискретная случайная величина делится на другую случайную, а результат - чудо - получается неслучайным.

Понятно, что эффект должен пропадать, если целые числа слева становятся слишком большими, а шаг интервалов объединения результатов (т.е. бин) не слишком маленьким. Обычно считается, что размер бина должен быть таким, чтобы количество интервалов было много меньше характерного размера величины (т.е. числа слева).

Однако и это не гарантирует полное исчезновение эффекта. Но! При реальных выборках сильно помогает тот факт, что случайные величины имеют неплоское распределение (например, гаусс), эти распределения разные для разного числа голосующих, и распределения асимметричны. В итоге большинство пиков должно сглаживаться при большой статистике, поскольку какие-то из них проявляются при одних значениях, другие - при других и т.д. Кроме одного: на 50%. UPD в комментариях пояснили, что вторые по величине "красивые" дроби - 1/3(=33.33..%) и 2/3(=66.66..%) (см рисунок) - не создают ощутимых проблем естественным образом, поскольку вываливаются из сетки в 0.5%

Поэтому возникла идея проверить все эти рассуждения компьютерными вычислениями. Вот как это описывается их автором, Сашей Хановым (у него, увы, нет жж):

Мы хотим смоделировать распределение nvot/ntot, где ntot - число проголосовавших, а nvot - число голосов, отданных за некоторую партию. Если средняя доля сторонников партии на данном избирательном участке равна p (0
Вопрос состоит в том, что взять в качестве p. Если просто взять постоянную величину, например, p=0.5, то получится колоколобразное распределение с центром в p, что совсем непохоже на действительность. Чтобы добиться сходства, в качестве р возьмем случайную величину, распределение которой такое же, как то, которое мы пытаемся смоделировать: p=raw->Random(). Это распределение показано здесь: http://khanov.net/v/v_raw.gif

Данная модель предполагает отсутствие корреляций между ntot и nvot. Чтобы учесть эти корреляции, ntot разбивается на диапазоны, и моделирование проводится в каждом диапазоне по отдельности, а потом результаты складываются.

Вот результаты по ЕР. Первая диаграмма - реальные данные, вторая - компьютерные вычисления (по оси Х - проценты, по Y - количество УИК):


Как видно, пик на 50% может быть объяснен в рамках модели "деления целого на целое", пики при бОльших значениях - нет.

Выводы:
0. Бди!
1. "Есть пики, которые можно объяснить квантизацией (наиболее яркий - при 50%), они однобиновые, видны во всех распределениях, хорошо моделируются и исчезают при отбрасывании УИК с малым числом проголосовавших." (СХ)
2. "Есть пики, которые моделью не описываются и с увеличением статистики не сглаживаются. Они локализуются на большИх nvot/ntot, и наиболее заметный из них - на 75%". Кстати, пик на 50% тоже остается, только выглядит он по-другому: как довольно резкое увеличение и затем плавная релаксация.
3. Размер бина должен выбираться очень аккуратно: на маленьких бинах наверняка полезет описанный эффект, на больших - сгладятся пики.

Дополнение:
1. Пока мы с Сашей пили шампанское и ели зернистую икру неторопясь отлаживали модель,  в интернетах появилось довольно много подобных расчетов с подобными же выводами.
http://jemmybutton.livejournal.com/1359.html
http://singpost.livejournal.com/11326.html
http://users.livejournal.com/_winnie/327776.html
Так что, с моей точки зрения, консенсус достигнут. Если кого забыл, бросайте ссылку, обязательно включу.

2. Более того, хитрый jemmybutton (всячески рекомендую) предложил метод, которым можно легко проверить, насколько пики имеют квантовую природу. Я только потом вспомнил, что подобный метод используется в цифровых обработках сигнала. Но не суть. А не менее хитрый kobak (всячески рекомендую) этот метод проверил. Выводы точно такие же, что радует.

2а. dabino решил проблему квантанизации еще более остроумно: он стал откладывать не количество УИК, а количество избирателей. Сходите, посмотрите, очень занятно.

3. Обязательно подпишитесь вот на эту запись  у kobak. Она постоянно апдейтится и уже служит центром сбора информации по статистике.

4. Вот здесь  gegmopo4 независимо переделал наши с Сашей симуляции, но пошел дальше: оценили вероятность подобных выбросов для некоррелированного голосования:
Для нормально распределённой (да, да, Гаусс) величины вероятность выбиться в ту или другую сторону от среднего за пределы сигмы — около 1/3, за пределы двух сигм — менее 5%, за три сигмы выходит только каждый 400-й, за четыре — 16000-й, за пять — менее, чем один из 1.7 миллиона, за шесть — из полмиллиарда. ... Пик на 75% достигает девятки сигм, на 85% и 95% выходят за шесть.

(54 comments | Leave a comment)

Comments
 
[User Picture]
From:dabino
Date:December 12th, 2011 07:22 pm (UTC)
(Link)
У меня 50% пик исчез еще проще: когда я вместа числа уиков стал откладывать по вертикали число избирателей...
From:sassa_nf
Date:December 12th, 2011 09:56 pm (UTC)
(Link)
ну. отрадно видеть, что становится ясно, что размер ИКа имеет значение. а то один нащитал, другие подхватили...

теперь ещё подумать бы, а на кой явку вообще рассматривать?
[User Picture]
From:q_uadrat
Date:December 12th, 2011 07:31 pm (UTC)
(Link)
очень поучительно, спасибо
[User Picture]
From:kobak
Date:December 12th, 2011 08:55 pm (UTC)
(Link)
Отлично (и эпиграф отличный)! Два вопроса:

1. Почему Вы с коллегой моделируете распределение голосов за ЕР какой-то ступенчатой функцией, вместо того чтобы взять реальное распределение и lowpass-нуть его хорошенько?

2. А что, если подписаться на мою запись, то будешь получать письмо каждый раз, когда я ее апдейчу (даже если я, например, просто запятую вставляю)?
[User Picture]
From:oude_rus
Date:December 12th, 2011 09:25 pm (UTC)
(Link)
1. это коллега моделирует, а мне было лень перерисовывать. Но в принципе, так правильнее, поскольку внутри бина функция постоянна, а на границе меняется скачком.
2. Понятия не имею, поскольку я подписался, а ни хрена не получаю.
[User Picture]
From:kobak
Date:December 12th, 2011 09:01 pm (UTC)
(Link)
И, кстати, ты обратил внимание, что теперь с исправленными пиками видна стойкая корреляция между суммарной высотой пиков в каждом регионе и оценкой накрутки? Приятно.
From:kukuku_true1
Date:December 12th, 2011 10:05 pm (UTC)

question

(Link)
А сделать то-же самое для "все остальные (кроме ЕР) слабо? какова величина будет пика на 50%? ПС. Под "все остальные", есссно, подразумевается СУММА всех остальных, а НЕ по отдельности.
Можно также посмотреть, что произойдёт с 75%, 80% етц.
[User Picture]
From:oude_rus
Date:December 12th, 2011 10:15 pm (UTC)

Re: question

(Link)
Что именно сделать: комп.моделирование или гистограмму?
[User Picture]
From:gena_t
Date:December 13th, 2011 05:43 am (UTC)
(Link)
То есть я правильно понимаю, что все эти видимые пики уже ничего не доказывают, а то что доказывает среднеинтеллигентный человек воспринять совершенно не способен?
[User Picture]
From:oude_rus
Date:December 13th, 2011 07:59 am (UTC)
(Link)
а что именно вам непонятно? давайте я попробую объяснить.
[User Picture]
From:miliktrisa
Date:December 13th, 2011 06:23 am (UTC)
(Link)
Да, ребята! Времена меняются на глазах. И нравы, и позиции. В моем недалеком социологическом прошлом (нынче все социологические результаты из Кремля диктуются, чо надрываться) все такие сильно умные типа вас относились к "болоту", т.е. политически не активным гражданам, которые на выборы и политические мероприятия не ходют и политических сценариев не путают. Сидят себе, тараща глазки в мониторы, и ни во что не встревают. И как же приятно (и злорадственно!) мне, старушке, почитать вашу дискуссию про статистический анализ результатов выборов. Я ж вам зуб даю, ладна, оба последних, за то, что никто (НИКТО!) из затевавших всю эту махинацию в страшном сне не видел, что наши умные мальчики, оторвавшись от своих важных дел, вдруг скажут: "Давай-ка, поковыряем эти результаты нашими инструментами!" И я буду безумно рада, если математическими методами удастся доказать фальсификацию результатов. Бог в помощь, родненькие!
[User Picture]
From:ghost_au
Date:December 13th, 2011 01:19 pm (UTC)
(Link)
Хе. Фальсификация статобработкой уже практически доказана с вероятностью 99,999%. А толку-то? Волшебник наш Чуров не может усомниться в правдивости и честности выборов, а цифры такие странные потому, что лунное затмение приближалось и погодные условия сложились.
[User Picture]
From:burunduk_chip
Date:December 13th, 2011 07:43 am (UTC)
(Link)
Откуда взялся рост после 90% ??

Вообще эта деятельность выглядит как жалкая (но возможно высокооплачиваемая) попытка заболтать фальсификации.
[User Picture]
From:oude_rus
Date:December 13th, 2011 07:59 am (UTC)
(Link)
где я могу получить свою долю?
[User Picture]
From:anpaza
Date:December 13th, 2011 09:38 am (UTC)
(Link)
Конечно, если очень хочется, чтобы бабка была дедкой, можно вытянуть ей лобок и сказать что это хуй.

Вот графики частоты появления натуральных дробей X/Y при X=1..500, Y=X..500 (симуляция "белого шума" для явки на малых участках).

Слева три графика - при квантизации 2%, 0.2%, 0.02% (сверху вниз) соответственно.
Справа - то же самое, но с добавлением "шума" в виде +/-1 избиратель (пробовал и +/-0.5, получается то же самое, только менее выражено). Левый и правые края "нещитовые", там лажа.

Видно, что
а) Пики тем выше, чем меньше делитель дроби
б) Чем меньше "бин", тем уже и выше пики
в) Шум "убивает" мелкие пики, но мало что может поделать с сильными пиками.

Если подобрать такую амплитуду шума, которая гарантировано убъёт даже сильные пики, она убъёт и кажущиеся Вам подозрительными пики.

Скрипт для octave (с небольшими переделками пойдёт в матлабе):
http://cs.ozerki.net/zap/pub/elections-2.m

И в заключение - как Вы себе вообще представляете процесс фальсификации на "круглых" участках? На участке зарегистрировано, предположим, 2345 избирателей, им с утра выдают 2000 бюллетеней (посмотрите статистику ЦИК, бюллетени УИКам выдают "круглыми" партиями - 2000, 1000, 500, 100). К вечеру осталось, например, 123 неиспользованных бюллетеней. Предположим, злобный приседатель УИК даёт команду заполнить все эти 123 бюллетеня за ЕР и вбросить их в урну. Всё равно ведь никакой "круглой" явки не получите - 2000/2345.

Или другой сценарий. Предположим, приехали легендарные "карусельщики", в карманах у них стопицот открепительных. Но ведь это число никак не коррелирует с количеством бюллетеней в урне, то есть даже если сложить бюллетени в урне + открепительные, никаких "круглых" чисел не получите.

И вообще, не пойму откуда взялась эта глупая мысль что фальсификаторы подгоняют цифры к "круглым". Это же бред какой-то, основанный на каких-то первобытных представлениях.
[User Picture]
From:oude_rus
Date:December 13th, 2011 10:17 am (UTC)
(Link)
Если вы выберете более нейтральный тон, это поможет.

По поводу шума вам лучше обратиться к jemmybutton. С моей колокольни, недостаток вашей модели в предположении равномерного распределения с средним на 250. Про выборку параметров "шума" написано у kobak.

"Фальсификации" я не комментирую, извините.
From:(Anonymous)
Date:December 13th, 2011 09:48 am (UTC)
(Link)
Пик на 50% это ладно, а резкий спад на 49% эта модель объясняет?

Африканец
[User Picture]
From:oude_rus
Date:December 13th, 2011 10:11 am (UTC)
(Link)
раземеется. Да ты и сам можешь сделать что-то подобное с простым гауссовым шумом.
(no subject) - (Anonymous) - Expand
From:samarcandan
Date:December 13th, 2011 10:25 pm (UTC)

Thanks!

(Link)
Thanks for this! Someone showed me your original graph and I was very excited, but after reading this I will look very carefully at the effect of bin size and other possible sources before posting anything about it. (There is an English version of the plot here if it helps you all: http://samarcandanalytics.com/election_data/Figures/FineHistInset.png) Thanks! -Alex

Спасибо за это! Кто-то показал мне свой первоначальный график, и я был очень взволнован, но после прочтения этого я буду смотреть очень внимательно на влияние размера бункера и других возможных источников, прежде чем отправлять что-либо об этом. (Существует английской версии сюжет здесь, если это помогает вам все: http://samarcandanalytics.com/election_data/Figures/FineHistInset.png) Спасибо! -Alex
[User Picture]
From:oude_rus
Date:December 14th, 2011 04:26 pm (UTC)

Re: Thanks!

(Link)
A (dutch) friend of mine sent me a link to your paper (which he found at one of the dutch blogposts) yesterday; I posted a reference here: http://oude-rus.livejournal.com/549283.html
Powered by LiveJournal.com