?

Log in

No account? Create an account
Maxim Pshenichnikov
February 8th, 2012
09:28 am

[Link]

Previous Entry Share Flag Next Entry
Мастеръ Гамбсъ этимъ полукресломъ заканчиваетъ новую партiю мебели
В завершении опупеи про  принцесс которые не какают недействительные бюллетени и их корреляцию с процентами за любимую партию. Я сделал вот какую штуку
: построил график зависимости количества участков с нулевыми недействительными от количества проголосовавших на этом участке. Осторожно: вертикальный масштаб логарифмический.



Смотрим на коричневые точки. Сначала вроде все логично: количество участков возрастает, пока наконец вероятность получить ноль недействительных не максимизируется. Далее, когда количество проголосовавших становится слишком большим, вероятность идеального голосования резко уменьшается. Тоже логично. Нелогичность начинается чуть позже, когда при размере участка где-то в 700 человек скорость убывания резко падает. То есть численность голосующих увеличивается, а количество недействительных - практически нет. Дальше оно, конечно, снова падает, но это уже на совсем огромных участках, по полторы тысячи человек.  

Теперь можно поразвлечься, опустит из рассмотрения т.н. "9 республик". И чудо -- зависимость резко меняется (черные точки). Во-первых, резко-убывающая часть становится значительно более линейной (т.е. экспоненциальной на линейной шкале). Во-вторых, хвостик по амплитуде уменьшается где-то раза в три. Но никуда не девается, нет. В-третьих, видно, что быстрый спад коричневого распределения тоже не совсем идеален, и отклонения начинаются где-то при 250 проголосовавших.

Дальше  можно пририсовать распределение участков с одним недействительным бюллетенем. 9 республик лучше выкинуть, а то начальная часть тоже поедет. Зато в итоге образуется красивая кривуля (синяя), почти даже без хвостовых особенностей, хотя и не совсем без них. Ее максимум, кстати, достигается при бОльших значениях проголосовавших, что логично: для одного недействительного количество голосующих должно быть выше, чем для нуля недействительных.

Всю эту радость я описал биномиальным распределением (кто-нибудь мне объяснит, почему именно им?), точнее, даже суммой двух (сплошные линии). Откуда сразу же получается вероятность нуля недействительных как 1.4% (одного - 1.8%), что, видимо, представляет собой усредненный "технический" брак. {тут, конечно, надо было бы посмотреть на плотность состояний, но я поленился... пока} Зато вероятность брака на хвосте (если это вообще можно назвать браком) где-то на порядок меньше.


Мораль отсюда такова: при большом числе голосующих вероятность появления недейсвительных бюллетеней резко снижается, хотя интуитивно должно быть ровно наоборот. Более того, это аномальное снижение имеет определенную прописку - 9 республик, Москва, Саратовская область и еще кое-кто по мелочи.

Давайте теперь посмотрим на бенефициара такой аккуратности.
Для этого нужен правый график, на котором показана зависимость количества голосов за ЕР как функция процентов за ЕР на участках, где не было ни одного недействительного. Я так же разделил маленькие участки (с количеством проголосовавших меньше 250 избирателей) и большие (>250); цифра 250 была выбрана из левого графика. Можно взять и 500, результат не сильно изменится. Начнем с коричневой кривой (большие участки). При 50+% количество сторонников ЕР взвивается орлом, достигая своего максимума на 100%. Ну и все прочие известные аттрибуты, навроде пиков на красивых числах, тоже на месте -- как мы и обсуждали раньше.

А вот на маленьких участках (красная кривая) ситуация другая: виден какой-то максимум на 65%, но к 100%, правда, кривая опять идет на взлет. Там не менее, масштаб явления совершенно иной -- посмотрите на врезку.

Далее, можно продолжить построения и опустить 9 республик. Зависимость для больших участков  (зеленая кривая), хотя и имеет меньший размах, тоже слабо вменяемая, и не лишена загадочности в виде пиков на красивый процентах. Это значит, что мне еще ночь не спать, выясняя, откуда они приплыли. Такое, знаете, случается не только в 9ти республиках: голосуют за ровно 75% и при этом ни один бюллетень не испорчен. На маленьнких участках (желтая кривая) ситуация почти совсем культурная: ЕР получает максимум при 60%, после чего количество голосов за нее убывает. Ну и распределение одного недействительного весьма похоже, хотя и немного покруче уходит вниз на больших процентах.

Далее можно посчитать количество голосов под коричневой кривой от 50% до 100%; можно отскалировать зелененькую кривую на <50% и сделать вычитание - не суть. Эффект настолько велик, что вариации результата будут процентов на 10 от силы.

Ну и можно (и нужно) продолжать развлекуху, опуская различные регионы, покуда не исчезнут красивые пики, и вообще пока зеленая кривая не станет такой же, как желтая.


Какой вывод всех этих построений? На участках с нулевым количеством недействительных бюллетений, все распредления голосов примерно одинаковы до 50% за ЕР, а после 50% начинаются чудеса: количество голосов на больших участках резко возрастает, что идет в разнос с математикой и интуицией. Ведь казалось бы, что чем большее число избирателей голосует, тем выше вероятность ошибки, и  должно быть больше недействительных. Впрочем, маленькие участки (т.е. где голосовали менее 250 человек) тоже не отстают. Все эти особенности отсутствия недействительных бюллетеней имеют четкую географическую привязку, и эти во всех отношениях интересные участки в сумме приносят ЕР около 2 млн голосов.
Небольшое добавление: график был пересчитан, поскольку один из файлов оказался битым да я его небось и сам убил; выводы не изменились.

(92 comments | Leave a comment)

Comments
 
[User Picture]
From:in_kant
Date:February 8th, 2012 09:40 am (UTC)
(Link)
Я не очень понял, как ты посчитал последнюю цифру (4.5 млн голосов). Это интеграл "аномальной" правой части распределения? Я правильно понял, что ты брал в качестве "нормальной" части для вычитания синюю кривую (участки с одним недействительным без 9 республик)?

Если так, то хотелось бы отметить интересную особенность: максимум (и медиана) синей кривой на правой картинке где-то в районе 55% за ЕР.
[User Picture]
From:oude_rus
Date:February 8th, 2012 09:50 am (UTC)
(Link)
Я написал, но это в общем пофигу из-за колоссального начального эффекта.
[User Picture]
From:in_kant
Date:February 8th, 2012 09:41 am (UTC)
(Link)
Да, и работа крутая. Королева в восхищении.
[User Picture]
From:sergeima
Date:February 8th, 2012 11:24 am (UTC)
(Link)
Я уже это писал, но повторить совершенно не в лом - полагаю, что это второй (после красивых процентов) существенный результат по выявлению массовых статистических несообразностей в результатах выборов 4.12.2011. (Который, представляется, еще раз указывает на инициативу на местах, а не на конкретные разнарядки из центра.)

Мои поздравления

Биномиальное - да вроде оно и ответственно за появление технического брака (да-нет, N независимых раз, по количеству бюллетеней на УИКе). Немного непонятно, что есть 0.15%
Вероятность пробуждения совести или шевеления здравого смысла?

Техническое
- Графики, особенно левый, немного трудно читать, хочется растянуть горизонтальный масштаб раза так в два
- Из тех же соображений, синий можно было бы нанести на второй паре дополнительных графиков
- если 250 подходит для оценки перегиба коричневой кривой-"все данные" (хотя там скорее 300), то для черной-"без 9-ти" вроде перегиб на 500, если я правильно разглядел. Это может изменить зеленые +0.32М на правом графике
- Эх, разнести бы черные точки на составляющие их УИКи и пометить для, скажем, N >1000 (что-то вроде УПД2 из первого поста) - страна должна знать своих героев !
[User Picture]
From:oude_rus
Date:February 8th, 2012 07:18 pm (UTC)
(Link)
спасибо.
график был кликабельный; я сейчас вставил более широкую версию непрямую.
я не могу меня критерии по ходу дела. Если 250, то уж 250 везде. Кроме того, это не очень важно.
(no subject) - (Anonymous) - Expand
[User Picture]
From:kobak
Date:February 8th, 2012 11:59 am (UTC)
(Link)
"Количество участков с нулевым количеством недействительных - 5627 (без 9ти республик) и 10138 (в 9ти), что составляет 10.9% и 23.3%(!), соответственно".

Если 10 тыс. участков -- это 23%, то что, в 9 республиках находится примерно 40 тыс. участков, почти половина общего кол-ва?
[User Picture]
From:oude_rus
Date:February 8th, 2012 02:06 pm (UTC)
(Link)
по моим записям, в 9ти республиках находится 43464 уик из 95228.
Неужели наврал?
[User Picture]
From:kobak
Date:February 8th, 2012 02:00 pm (UTC)
(Link)
Понять бы еще, как оценить процент бюллетеней, неправильно заполненных по ошибке (в отличие от умышленной порчи, которая должна вести себя как маленькая партия). Может быть, если взять данные по "честным" регионам, то можно как-то провести такое разделение.
[User Picture]
From:oude_rus
Date:February 8th, 2012 02:07 pm (UTC)
(Link)
так я же оценил в 1-1.5%.
А умышленная порча дает где-то 5-7% в пределе.
From:a_kruglov
Date:February 9th, 2012 07:51 pm (UTC)
(Link)
Чего-то я совершенно не понял как из этих графиков можно сделать хоть какой-нибудь вывод.

1. Что изображено на первом графике? Это гистограмма числа пришедших на выборы на УИКи с 0 (или 1 для синих) недействительных, я правильно понял? Какой размер бина?

2. Если я правильно понял смысл графиков, при честном голосовании там должно быть exp(−pN)ρ(N), где N -- что по горизонтали, ρ(N) -- гистограмма всех участков (не только с 0 недествительных), p -- вероятность испортить бюллетень. Т.е. там множителем входит ρ(N), который должен просто входить в условие задачи и не может быть получен теоретически. Если уж пытаться строить теоретические кривые, надо строить отношение ρ0(N)/ρ(N), где ρ0(N) -- то, что на вашем графике, т.е. это получается доля участков без недействительных при данном числе избирателей. Аппроксимация двумя биномиальными распределениями теоретического основания не имеет, насколько я понимаю.

Для одного недействительного надо ещё на pN домножить, для k недействительных -- ещё на (pN)k/k!, как известно (пуассоновское распределение по числу недействительных).
[User Picture]
From:oude_rus
Date:February 9th, 2012 08:39 pm (UTC)
(Link)
1. Изображени ровно то, что написано (удивительно, да?): количество участков, на который был нуль (адын) недействительный бюллетень. По горизонтели - количество проголосовавших, т.е. так или иначе участвующих в выборах. Бин - 25 человек.

2. Вы понимаете правильно, и я честно написал про "плотность состояний". Я это уже проделал, и разницы никакой нет. Аппроксимация двумя биномиальными распределениями никакого теоретического основания не имеет и сделана для развлечения.

Для одного недействительного я на все, что полагается домножил (вроде).

А вывод изо всей этой мутотени очень простой: во-первых, я могу предсказать, сколько должно быть недействительных бюллетеней при таком-то количестве проголосовавших на участке. Во-вторых, если число недействительных сильно меньше предсказанного мною количества, то я могу предсказать, за какую партию будут отданы голоса на данном участке.
From:a_kruglov
Date:February 9th, 2012 08:35 pm (UTC)
(Link)
Ещё немного про мои результаты по этой теме. Я пробовал строить теоретические кривые для гистограмм результатов ЕР на участках с 0, 1, 2, ... недействительных. Т.е. берём числа проголосовавших по данным ЦИК на реальных участках, и считаем сколько должно быть участков с числом недействительных k, например k=0, если каждый избиратель портит бюллетень с вероятностью p. Потом строим графики типа вашего правого и вот этой аппроксимации, подбираем p, чтобы было похоже.

Я пока строил только для всей России. Правый забирающийся хвост, конечно, не аппроскимируется ни при каких разумных p. Для результата ЕР<40% более-менее на глаз можно подогнать кривые, но для разного числа недействительных k получается разное p и там тоже.

k=0 -> p=1.1%, k=1 -> p=1.65%, k=2 -> p=1.65%, k=3 -> p=1.7%

Интересный ещё момент, что в области ЕР>90% экспериментальный график идёт вверх при k=0 и k=3, а при k=1 и k=2 -- нет. На Кавказе, наверно, 0 и 3 любят больше, чем 1 и 2.

При k=1,2,3 p практически одинаковое. То, что при k=0 получилось p заметно меньше, говорит о том, что часть участков всегда пишет 0 недействительных независимо от результата ЕР. Такую ситуацию модель не учитывает, и надо было бы внести ещё постоянный подгоночный множитель при k>0 для этого, я этого не делал, это очень слабо влиять должно на оценку p по части графика ЕР<40%.

Сейчас вот сравнил экспериментальную кривую для k=0 с теоретической при p=1.65%, как для остальных. Расхождение, на глаз, начитается с ЕР=20%, при ЕР=30%: 1% участков с таким ЕР пишут 0 недействительных сверх теоретического количества для p=1,65%, при ЕР=40% их уже 3%, при ЕР=50% их 6%, ЕР=60% -> 10%, ЕР=70% -> 20%, ЕР=80% -> 30%, дальше там число лишних участков с 0 недействительных приближается к почти 100% от участков с заданным результатом ЕР.
[User Picture]
From:oude_rus
Date:February 9th, 2012 08:47 pm (UTC)
(Link)
я вас очень поддерживаю в вашем начинании, поскольку мне нужна независимая верификация.

Сделайте еще вот какой график: постройте среднее значение недействительных при данном числе проголосовавших (возьмите бин в 25 человек). А потом объясните мне результат. Я об этот график уже третий день голову ломаю.

[User Picture]
From:kirenenko
Date:February 15th, 2012 05:34 pm (UTC)
(Link)
Те испорченные бюллетени, которые не случайность, а выбор - коррелируют с явкой. (Перечитываем Колмана, макс энтропия на 1/2, бла-бла). Явка же зависит от размера участка совершенно дурацким образом (нарисуйте, убедитесь). Почему? Здесь я пытался поговорить на эту тему http://jemmybutton.livejournal.com/2147.html?thread=123491#t123491

Отчего ученые так любят называть то, чего не могут объяснить, словами на букву Ч? Чудеса. Чуров.

Облако размер-явка похоже на половой фаллический символ, который как-бы говорит нам "размер имеет значение". Это, безусловно, Член Чурова.
[User Picture]
From:oude_rus
Date:February 15th, 2012 07:47 pm (UTC)
(Link)
Если вы отлистаете этот журнал месяца эдак на 2, то вы найдете график явки от размера (я надеюсь).

Что же касается явки, то она здесь вообще ни коим боком: смотрится количество реально проголосовавших, а не внесенных в списки.
[User Picture]
From:corbulon
Date:February 19th, 2012 08:33 am (UTC)
(Link)
Посмотрел внимательно на вероятности по хи-квадрат тесту.
В Москве среди пяти граф она наименьшая (0,03) как раз для действительных, аналогичная ситуация среди больших регионов в Краснодарском крае (0,02) и Татарии (0,05), правда в Татарии и у ЕР 0,07, вдвое меньше, чем в Москве.
Не удивлюсь, если и там распределение разобьется на кластеры, как в Москве.
[User Picture]
From:jemmybutton
Date:February 22nd, 2012 10:29 pm (UTC)
(Link)
выпал совершенно. да, правда, в переписанных протоколах по руэлект (жаль, больше не обновляют, там полторы сотни протоколов не рассмотренных висело) примерно на одну пятую меньше недействительных, но это в основном не нули (только примерно два с половиной процента из двадцати пропало по бюллетеням, где недействительных стал ноль).
[User Picture]
From:oude_rus
Date:February 23rd, 2012 06:56 am (UTC)
(Link)
аналогично.
что, в общем-то, и понятно: все, что лежало в области поверхностного верчения цифр, уже провернуто, а лезть в дебри социологии нет ни квалификации, ни желания. Но главное -- никому это ни за хреном не нужно. Вон, "аппазиция", которая намеднись встречалась, хоть один аргумент против утверждения о честных выборах привела?
From:(Anonymous)
Date:March 1st, 2012 10:44 am (UTC)
(Link)
Профессор, насколько я понял, речь идёт о том, что за ЕдРо фальсифицировали максимум 6-7% голосов (2 миллиона голосов из 32 миллионов, которые они получили на выборах)? Это включая психов, чеченов, заключенных и солдат срочной службы? Так это вроде бы с самого начала было понятно из изучения корелляции "явка -- голоса за ЕдРо".

Т.е. понятно, что едру немного (5 процентов туда -- 5 процентов сюда) натянули, чтобы обеспечить им простое большинство в думе, но говорить о массовости фальсификаций особо не приходится. Применительно к местным реалиям можно считать, что выборы были относительно честными.

Powered by LiveJournal.com