?

Log in

No account? Create an account
Мастеръ Гамбсъ этимъ полукресломъ заканчиваетъ новую партiю мебели - Maxim Pshenichnikov — LiveJournal
February 8th, 2012
09:28 am

[Link]

Previous Entry Share Next Entry
Мастеръ Гамбсъ этимъ полукресломъ заканчиваетъ новую партiю мебели

(92 comments | Leave a comment)

Comments
 
From:a_kruglov
Date:February 9th, 2012 11:25 pm (UTC)
(Link)
Сделал картинки к моему комменту выше.



Тут красные -- экспериментальные гистограммы с бином 0,5%, синие -- теоретические кривые для них со значениями p=0,011, 0,0165, 0,0165, 0,017, соответственно. На первой ещё дополнитеьно нарисована кривая тоже для p=0,0165. То, что между ней и красной -- лишние участки с k=0 недействительных. Из 95288 тыс участков для такого p должно быть ~4128 участков с k=0 (погрешность не оценивал), а на самом деле их 15765, т.е. ~11,6 тыс. участков лишних.

Что я там писал, что на Кавказе любят писать k=3,-- это я перепутал кривые. На самом деле наоборот, при ЕР>90% наоборот пониженное число k=3 по сравнению с тем, что должно быть,-- они ушли в k=0.

Вот ещё график доли лишних в зависимости от результата ЕР:

[User Picture]
From:oude_rus
Date:February 12th, 2012 09:27 pm (UTC)
(Link)
дайте, пожалуйста, формулы, по которым вы считали.
то есть получилось все очень красиво и ожидаемо, но я хотел бы видеть формулы.
From:a_kruglov
Date:February 13th, 2012 10:38 am (UTC)
(Link)
Вот пока ссылка на исходник для этих графиков: http://pastebin.com/im5XxzLV . На вход (stdin) надо подавать распакованный файл с данными, о котором я писал. На выход должно дать файл с данными, по строке на бин. Параметры задаются в исходнике: iter -- число итераций для борьбы с пиками на рациональных, я ставил 4 для предварительных картинок, 16 для окончательных, когда времени не жалко. nd_target -- это k, число недействительных, которое нас интересует. fail_p -- это p, binn -- число бинов на 100%.
From:a_kruglov
Date:February 13th, 2012 09:57 pm (UTC)
(Link)
Про формулы. Модель для теоретической кривой такая: каждый пришедший избиратель делает испорченный бюллетень с вероятностью p<<1 независимо от других избирателей. На каждом участке число пришедших избирателей задано числами из протоколов ЦИК. [Можно считать, что избиратели приходят тоже случайно, но рассматривать везде условные вероятности при условии, что пришло ровно столько избирателей, сколько оказалось в протоколах ЦИК -- это эквивалентная формулировка.]

Для участка с N избирателями вероятность, что на нём ровно k<<N недействительных, равна pN, k = exp(−Np) (Np)k/k! -- распределение Пуассона. Таким образом, среди этого одного участка матожидание числа участков с k недействительными равно pN, k. Для всех участков в бине, чтобы получить матожидание числа в нём участков с k недействительными, надо просто просуммировать pNi, k по всем участкам внутри бина. Это матожидание на верхних графиках и изображено: ∑i -- участок внутри нашего бина pNi, k.

Я воспользовался свойством, что матожидание суммы случайных величин равно сумме матожиданий: E(a+b) = Ea + Eb.
[User Picture]
From:oude_rus
Date:February 13th, 2012 11:27 pm (UTC)
(Link)
я только не понял, зачем брать Пуассона, если можно взять биномиал безо всяких приближений. Впрочем, не суть.

Я сегодня посчитал ожидаемую (из Пуассона) и фактическую дисперсию -- так они совершенно не сходятся. Ну то есть вообще никак, даже если выкинуть все участки с нулевым количеством недействительных. Если для среднего надо брать р=0.017, то для дисперсии - аж p=0.1. Совершенно не понимаю, откуда берется такая разница.

Не могли бы вы на это дело тоже глянуть, а то я боюсь, что где-то проврался.
From:a_kruglov
Date:February 16th, 2012 08:59 pm (UTC)
(Link)
Пуассона по привычке взял, не задумываясь. Для пуассона проще аналитические оценки параметров считать.

Я построил 2-мерную цветовую карту с эмпирическими функциями распределения по k для каждого бина по N. Долго тормозил, потому что времени не хватает. Вот картинки:


Слева экпериментальная картинка, фактически это число участков с данным k (по вертикали) и в данном бине по N (по горизонтали), отнормированное по столбцам. На картинке нарисован корень из этой величины, чтобы лучше было видно -- надо это учитывать, если смотреть на шкалу справа. (По-нормальному изменением палитры это сделать не получилось из-за глюков gnuplot.) Всё, что вылезает за пределы k=100 или N=3500 ограничивалось этими значениями. Справа теоретическое распределение для p=1,65%.

Третий график -- это просто двумерное распределение -- как на первом графике, но не отнормированное по столбцам, тут тоже нарисован корень из количества участков в бине, чтобы было лучше видно.

Видно, что есть: 1. компонента, которая сильно выше основной части распределения -- это, наверно, там голоса за какую-нибудь партию в недействительные записали или это действительно протестное голосование. 2. большая компонента на k=0 на всех явках, ещё заметно на k=2 немного, k=1 не любят. Ещё в области N=2000...2500 какие-то подозрительные горизонтальные полоски, если это не кажется. 3. Само основное распределение несколько шире, чем теоретическое,-- это объяснимо без фальсификаций, просто из-за разброса p между участками.

Кажое из этих отклонений увеличивает дисперсию по сравнению с идеальной. Какой из эффектов основной не оценивал и на глаз сказать не могу, они кажутся сравнимыми.
Powered by LiveJournal.com