Maxim Pshenichnikov (oude_rus) wrote,
Maxim Pshenichnikov
oude_rus

Category:

И еще раз о пятипроцентных пиках

Erratum в Physical Review Letters: "В оценках, проведенных в статье, вместо скорости света c=3x10^10 см/с была  использована постоянная Планка h=6.6x10^-34 Дж/с. Несмотря на эту досадную оплошность, основные выводы остаются без изменений"
-- Из физического фольклера
__________________________________________

Многие пики неизвестной природы на кратных пяти процентах, появляющиеся на известной гистограмме, уже были отслежены взад к источникам: здесь, здесь, здесь, здесь,
http://img805.imageshack.us/img805/7730/bashsverdtyum.gif,
http://z-city.ru/forum/viewtopic.php?f=106&t=9063 (это форум, там картинки искать надо),
и наверное еще где-то, я уже и не уследил. Тем не менее, их проявление на общем распределении (т.е. без отслежиавания источника) в принципе может объяснятся эффектом деления целых чисел, поскольку на голосования ходят целые люди, а не два землекопа и две трети. На что мне было многократно указано, да я и сам это знал.



Вот тут в табличке показано, откуда это происходит. Пусть на выборы приходят 1,2,3,4... избирателя (слева). Все возможности для их голосования указаны в табличке.

Видите закономерность? 1/2 представлена 3 раза, 1/3 и 2/3 - по два, остальные - по одному. То есть, если голосование равновероятно, то на 50% естественным образом появляется пик. В принципе, это эффект известен из цифрового процессирования сигнала, когда одна дискретная случайная величина делится на другую случайную, а результат - чудо - получается неслучайным.

Понятно, что эффект должен пропадать, если целые числа слева становятся слишком большими, а шаг интервалов объединения результатов (т.е. бин) не слишком маленьким. Обычно считается, что размер бина должен быть таким, чтобы количество интервалов было много меньше характерного размера величины (т.е. числа слева).

Однако и это не гарантирует полное исчезновение эффекта. Но! При реальных выборках сильно помогает тот факт, что случайные величины имеют неплоское распределение (например, гаусс), эти распределения разные для разного числа голосующих, и распределения асимметричны. В итоге большинство пиков должно сглаживаться при большой статистике, поскольку какие-то из них проявляются при одних значениях, другие - при других и т.д. Кроме одного: на 50%. UPD в комментариях пояснили, что вторые по величине "красивые" дроби - 1/3(=33.33..%) и 2/3(=66.66..%) (см рисунок) - не создают ощутимых проблем естественным образом, поскольку вываливаются из сетки в 0.5%

Поэтому возникла идея проверить все эти рассуждения компьютерными вычислениями. Вот как это описывается их автором, Сашей Хановым (у него, увы, нет жж):

Мы хотим смоделировать распределение nvot/ntot, где ntot - число проголосовавших, а nvot - число голосов, отданных за некоторую партию. Если средняя доля сторонников партии на данном избирательном участке равна p (0
Вопрос состоит в том, что взять в качестве p. Если просто взять постоянную величину, например, p=0.5, то получится колоколобразное распределение с центром в p, что совсем непохоже на действительность. Чтобы добиться сходства, в качестве р возьмем случайную величину, распределение которой такое же, как то, которое мы пытаемся смоделировать: p=raw->Random(). Это распределение показано здесь: http://khanov.net/v/v_raw.gif

Данная модель предполагает отсутствие корреляций между ntot и nvot. Чтобы учесть эти корреляции, ntot разбивается на диапазоны, и моделирование проводится в каждом диапазоне по отдельности, а потом результаты складываются.

Вот результаты по ЕР. Первая диаграмма - реальные данные, вторая - компьютерные вычисления (по оси Х - проценты, по Y - количество УИК):


Как видно, пик на 50% может быть объяснен в рамках модели "деления целого на целое", пики при бОльших значениях - нет.

Выводы:
0. Бди!
1. "Есть пики, которые можно объяснить квантизацией (наиболее яркий - при 50%), они однобиновые, видны во всех распределениях, хорошо моделируются и исчезают при отбрасывании УИК с малым числом проголосовавших." (СХ)
2. "Есть пики, которые моделью не описываются и с увеличением статистики не сглаживаются. Они локализуются на большИх nvot/ntot, и наиболее заметный из них - на 75%". Кстати, пик на 50% тоже остается, только выглядит он по-другому: как довольно резкое увеличение и затем плавная релаксация.
3. Размер бина должен выбираться очень аккуратно: на маленьких бинах наверняка полезет описанный эффект, на больших - сгладятся пики.

Дополнение:
1. Пока мы с Сашей пили шампанское и ели зернистую икру неторопясь отлаживали модель,  в интернетах появилось довольно много подобных расчетов с подобными же выводами.
http://jemmybutton.livejournal.com/1359.html
http://singpost.livejournal.com/11326.html
http://users.livejournal.com/_winnie/327776.html
Так что, с моей точки зрения, консенсус достигнут. Если кого забыл, бросайте ссылку, обязательно включу.

2. Более того, хитрый jemmybutton (всячески рекомендую) предложил метод, которым можно легко проверить, насколько пики имеют квантовую природу. Я только потом вспомнил, что подобный метод используется в цифровых обработках сигнала. Но не суть. А не менее хитрый kobak (всячески рекомендую) этот метод проверил. Выводы точно такие же, что радует.

2а. dabino решил проблему квантанизации еще более остроумно: он стал откладывать не количество УИК, а количество избирателей. Сходите, посмотрите, очень занятно.

3. Обязательно подпишитесь вот на эту запись  у kobak. Она постоянно апдейтится и уже служит центром сбора информации по статистике.

4. Вот здесь  gegmopo4 независимо переделал наши с Сашей симуляции, но пошел дальше: оценили вероятность подобных выбросов для некоррелированного голосования:
Для нормально распределённой (да, да, Гаусс) величины вероятность выбиться в ту или другую сторону от среднего за пределы сигмы — около 1/3, за пределы двух сигм — менее 5%, за три сигмы выходит только каждый 400-й, за четыре — 16000-й, за пять — менее, чем один из 1.7 миллиона, за шесть — из полмиллиарда. ... Пик на 75% достигает девятки сигм, на 85% и 95% выходят за шесть.
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 54 comments