Erratum в Physical Review Letters: "В оценках, проведенных в статье, вместо скорости света c=3x10^10 см/с была использована постоянная Планка h=6.6x10^-34 Дж/с. Несмотря на эту досадную оплошность, основные выводы остаются без изменений"
-- Из физического фольклера
________________________________________
Многие пики неизвестной природы на кратных пяти процентах, появляющиеся на известной гистограмме, уже были отслежены взад к источникам: здесь, здесь, здесь, здесь,
http://img805.imageshack.us/img805/7730/bashsverdtyum.gif,
http://z-city.ru/forum/
и наверное еще где-то, я уже и не уследил. Тем не менее, их проявление на общем распределении (т.е. без отслежиавания источника) в принципе может объяснятся эффектом деления целых чисел, поскольку на голосования ходят целые люди, а не два землекопа и две трети. На что мне было многократно указано, да я и сам это знал.
Вот тут в табличке показано, откуда это происходит. Пусть на выборы приходят 1,2,3,4... избирателя (слева). Все возможности для их голосования указаны в табличке.
Видите закономерность? 1/2 представлена 3 раза, 1/3 и 2/3 - по два, остальные - по одному. То есть, если голосование равновероятно, то на 50% естественным образом появляется пик. В принципе, это эффект известен из цифрового процессирования сигнала, когда одна дискретная случайная величина делится на другую случайную, а результат - чудо - получается неслучайным.
Понятно, что эффект должен пропадать, если целые числа слева становятся слишком большими, а шаг интервалов объединения результатов (т.е. бин) не слишком маленьким. Обычно считается, что размер бина должен быть таким, чтобы количество интервалов было много меньше характерного размера величины (т.е. числа слева).
Однако и это не гарантирует полное исчезновение эффекта. Но! При реальных выборках сильно помогает тот факт, что случайные величины имеют неплоское распределение (например, гаусс), эти распределения разные для разного числа голосующих, и распределения асимметричны. В итоге большинство пиков должно сглаживаться при большой статистике, поскольку какие-то из них проявляются при одних значениях, другие - при других и т.д. Кроме одного: на 50%. UPD в комментариях пояснили, что вторые по величине "красивые" дроби - 1/3(=33.33..%) и 2/3(=66.66..%) (см рисунок) - не создают ощутимых проблем естественным образом, поскольку вываливаются из сетки в 0.5%
Поэтому возникла идея проверить все эти рассуждения компьютерными вычислениями. Вот как это описывается их автором, Сашей Хановым (у него, увы, нет жж):
Мы хотим смоделировать распределение nvot/ntot, где ntot - число проголосовавших, а nvot - число голосов, отданных за некоторую партию. Если средняя доля сторонников партии на данном избирательном участке равна p (0
Вопрос состоит в том, что взять в качестве p. Если просто взять постоянную величину, например, p=0.5, то получится колоколобразное распределение с центром в p, что совсем непохоже на действительность. Чтобы добиться сходства, в качестве р возьмем случайную величину, распределение которой такое же, как то, которое мы пытаемся смоделировать: p=raw->Random(). Это распределение показано здесь: http://khanov.net/v/v_raw.gif
Данная модель предполагает отсутствие корреляций между ntot и nvot. Чтобы учесть эти корреляции, ntot разбивается на диапазоны, и моделирование проводится в каждом диапазоне по отдельности, а потом результаты складываются.
Вот результаты по ЕР. Первая диаграмма - реальные данные, вторая - компьютерные вычисления (по оси Х - проценты, по Y - количество УИК):
Как видно, пик на 50% может быть объяснен в рамках модели "деления целого на целое", пики при бОльших значениях - нет.
Выводы:
0. Бди!
1. "Есть пики, которые можно объяснить квантизацией (наиболее яркий - при 50%), они однобиновые, видны во всех распределениях, хорошо моделируются и исчезают при отбрасывании УИК с малым числом проголосовавших." (СХ)
2. "Есть пики, которые моделью не описываются и с увеличением статистики не сглаживаются. Они локализуются на большИх nvot/ntot, и наиболее заметный из них - на 75%". Кстати, пик на 50% тоже остается, только выглядит он по-другому: как довольно резкое увеличение и затем плавная релаксация.
3. Размер бина должен выбираться очень аккуратно: на маленьких бинах наверняка полезет описанный эффект, на больших - сгладятся пики.
Дополнение:
1. Пока мы с Сашей
http://jemmybutton.livejournal.com/1
http://singpost.livejournal.com/11326.h
http://users.livejournal.com/_winnie/32
Так что, с моей точки зрения, консенсус достигнут. Если кого забыл, бросайте ссылку, обязательно включу.
2. Более того, хитрый jemmybutton (всячески рекомендую) предложил метод, которым можно легко проверить, насколько пики имеют квантовую природу. Я только потом вспомнил, что подобный метод используется в цифровых обработках сигнала. Но не суть. А не менее хитрый kobak (всячески рекомендую) этот метод проверил. Выводы точно такие же, что радует.
2а. dabino решил проблему квантанизации еще более остроумно: он стал откладывать не количество УИК, а количество избирателей. Сходите, посмотрите, очень занятно.
3. Обязательно подпишитесь вот на эту запись у kobak. Она постоянно апдейтится и уже служит центром сбора информации по статистике.
4. Вот здесь gegmopo4 независимо переделал наши с Сашей симуляции, но пошел дальше: оценили вероятность подобных выбросов для некоррелированного голосования:
Для нормально распределённой (да, да, Гаусс) величины вероятность выбиться в ту или другую сторону от среднего за пределы сигмы — около 1/3, за пределы двух сигм — менее 5%, за три сигмы выходит только каждый 400-й, за четыре — 16000-й, за пять — менее, чем один из 1.7 миллиона, за шесть — из полмиллиарда. ... Пик на 75% достигает девятки сигм, на 85% и 95% выходят за шесть.