?

Log in

No account? Create an account
Мастеръ Гамбсъ этимъ полукресломъ заканчиваетъ новую партiю мебели - Maxim Pshenichnikov — LiveJournal
February 8th, 2012
09:28 am

[Link]

Previous Entry Share Next Entry
Мастеръ Гамбсъ этимъ полукресломъ заканчиваетъ новую партiю мебели

(92 comments | Leave a comment)

Comments
 
[User Picture]
From:oude_rus
Date:February 9th, 2012 08:47 pm (UTC)
(Link)
я вас очень поддерживаю в вашем начинании, поскольку мне нужна независимая верификация.

Сделайте еще вот какой график: постройте среднее значение недействительных при данном числе проголосовавших (возьмите бин в 25 человек). А потом объясните мне результат. Я об этот график уже третий день голову ломаю.

From:a_kruglov
Date:February 9th, 2012 11:25 pm (UTC)
(Link)
Сделал картинки к моему комменту выше.



Тут красные -- экспериментальные гистограммы с бином 0,5%, синие -- теоретические кривые для них со значениями p=0,011, 0,0165, 0,0165, 0,017, соответственно. На первой ещё дополнитеьно нарисована кривая тоже для p=0,0165. То, что между ней и красной -- лишние участки с k=0 недействительных. Из 95288 тыс участков для такого p должно быть ~4128 участков с k=0 (погрешность не оценивал), а на самом деле их 15765, т.е. ~11,6 тыс. участков лишних.

Что я там писал, что на Кавказе любят писать k=3,-- это я перепутал кривые. На самом деле наоборот, при ЕР>90% наоборот пониженное число k=3 по сравнению с тем, что должно быть,-- они ушли в k=0.

Вот ещё график доли лишних в зависимости от результата ЕР:

[User Picture]
From:oude_rus
Date:February 12th, 2012 09:27 pm (UTC)
(Link)
дайте, пожалуйста, формулы, по которым вы считали.
то есть получилось все очень красиво и ожидаемо, но я хотел бы видеть формулы.
From:a_kruglov
Date:February 13th, 2012 10:38 am (UTC)
(Link)
Вот пока ссылка на исходник для этих графиков: http://pastebin.com/im5XxzLV . На вход (stdin) надо подавать распакованный файл с данными, о котором я писал. На выход должно дать файл с данными, по строке на бин. Параметры задаются в исходнике: iter -- число итераций для борьбы с пиками на рациональных, я ставил 4 для предварительных картинок, 16 для окончательных, когда времени не жалко. nd_target -- это k, число недействительных, которое нас интересует. fail_p -- это p, binn -- число бинов на 100%.
From:a_kruglov
Date:February 13th, 2012 09:57 pm (UTC)
(Link)
Про формулы. Модель для теоретической кривой такая: каждый пришедший избиратель делает испорченный бюллетень с вероятностью p<<1 независимо от других избирателей. На каждом участке число пришедших избирателей задано числами из протоколов ЦИК. [Можно считать, что избиратели приходят тоже случайно, но рассматривать везде условные вероятности при условии, что пришло ровно столько избирателей, сколько оказалось в протоколах ЦИК -- это эквивалентная формулировка.]

Для участка с N избирателями вероятность, что на нём ровно k<<N недействительных, равна pN, k = exp(−Np) (Np)k/k! -- распределение Пуассона. Таким образом, среди этого одного участка матожидание числа участков с k недействительными равно pN, k. Для всех участков в бине, чтобы получить матожидание числа в нём участков с k недействительными, надо просто просуммировать pNi, k по всем участкам внутри бина. Это матожидание на верхних графиках и изображено: ∑i -- участок внутри нашего бина pNi, k.

Я воспользовался свойством, что матожидание суммы случайных величин равно сумме матожиданий: E(a+b) = Ea + Eb.
[User Picture]
From:oude_rus
Date:February 13th, 2012 11:27 pm (UTC)
(Link)
я только не понял, зачем брать Пуассона, если можно взять биномиал безо всяких приближений. Впрочем, не суть.

Я сегодня посчитал ожидаемую (из Пуассона) и фактическую дисперсию -- так они совершенно не сходятся. Ну то есть вообще никак, даже если выкинуть все участки с нулевым количеством недействительных. Если для среднего надо брать р=0.017, то для дисперсии - аж p=0.1. Совершенно не понимаю, откуда берется такая разница.

Не могли бы вы на это дело тоже глянуть, а то я боюсь, что где-то проврался.
From:a_kruglov
Date:February 16th, 2012 08:59 pm (UTC)
(Link)
Пуассона по привычке взял, не задумываясь. Для пуассона проще аналитические оценки параметров считать.

Я построил 2-мерную цветовую карту с эмпирическими функциями распределения по k для каждого бина по N. Долго тормозил, потому что времени не хватает. Вот картинки:


Слева экпериментальная картинка, фактически это число участков с данным k (по вертикали) и в данном бине по N (по горизонтали), отнормированное по столбцам. На картинке нарисован корень из этой величины, чтобы лучше было видно -- надо это учитывать, если смотреть на шкалу справа. (По-нормальному изменением палитры это сделать не получилось из-за глюков gnuplot.) Всё, что вылезает за пределы k=100 или N=3500 ограничивалось этими значениями. Справа теоретическое распределение для p=1,65%.

Третий график -- это просто двумерное распределение -- как на первом графике, но не отнормированное по столбцам, тут тоже нарисован корень из количества участков в бине, чтобы было лучше видно.

Видно, что есть: 1. компонента, которая сильно выше основной части распределения -- это, наверно, там голоса за какую-нибудь партию в недействительные записали или это действительно протестное голосование. 2. большая компонента на k=0 на всех явках, ещё заметно на k=2 немного, k=1 не любят. Ещё в области N=2000...2500 какие-то подозрительные горизонтальные полоски, если это не кажется. 3. Само основное распределение несколько шире, чем теоретическое,-- это объяснимо без фальсификаций, просто из-за разброса p между участками.

Кажое из этих отклонений увеличивает дисперсию по сравнению с идеальной. Какой из эффектов основной не оценивал и на глаз сказать не могу, они кажутся сравнимыми.
From:a_kruglov
Date:February 10th, 2012 09:29 pm (UTC)
(Link)
Нарисовал, вот:



Нарисовано среднее число недействительных в бине и среднее k среди k>0 минус 1 (типа Ek>=1 k−1). И то же самое с двойкой. Для пуассоновского распределении эти величины совпадают. Начиная с N=1500 они заметно расходятся, там не пуассоновское распределение -- есть избыток k=0, но не k=1 (по крайней мере, нет сильного избытка 1).

В целом среднее (по k%gt;0) может заваливаться по сравнению с pN, например, из-за того, что при вбросах бюллетеней во вброшеных не делают ошибок. Или при приписывании в протокол одной партии не приписывают в недействительные. При обоих этих механизмах недействительные являются индикатором реальной явки приблизительным. Включая карусельщиков, возможно. А при написании протоколов с нуля, как на Кавказе, не является индикатором явки.

Отличия в графиках слабые. У меня край первого бина на N=0. Есть заметные отличия в аномальной части -- у меня есть дополнительный пик на бине 2450--2475, например. Я посмотрел что там -- там зарубежный участок 5480, там 475 недействительных, 100% явка и не за ЕР мало очень. Наверно, это военные какие-нибудь, и всех против ЕР записали в недействительные. У меня данные из 2011_final_tabdelimited.zip , на который давал ссылку podmoskovnik, чьи собственно данные я уже не помню.

Я ещё пробовал Ek>=15 k−15 считать, оно совсем дико выглядит, причём при N>500 получается меньше, чем просто среднее,-- я ожидал обратного. Обратного можно было бы ожидать, если бы это была комбинация из нескольких пуассонов с разными p -- в области k>=15 были бы представлены большие p. А так получается, что наоборот правое плечо распределения завалено почему-то. Можно ещё попробовать посмотреть на эмпирические функции распределения k по бинам, я этого не делал.

Offtopic: у вас куда-то исчезло предыдущее сообщение по этой теме, которое было 5 февраля вечером.
[User Picture]
From:oude_rus
Date:February 11th, 2012 09:40 am (UTC)
(Link)
ваши графики у меня на лаптопе до сих пор открыты, но увы времени подумать и прокомментировать совсем нет -- у меня пошел плотный период жЫзни.

может, я завтра смогу что-то вменяемое написать.
[User Picture]
From:oude_rus
Date:February 12th, 2012 09:30 pm (UTC)
(Link)
так вопрос теперь вот какой: как так получается, что зависимость почти линейная до 1000, достигает максимума про 1500, а потом убывает?

Неужели есть такой фундаментальный закон, который говорит, что больше 24 недействительных на участок в приподе не бывает? как это все объяснить-то?
From:a_kruglov
Date:February 13th, 2012 12:09 am (UTC)
(Link)
Нет такого закона. Если у всех вероятность ошибиться одинаковая, должна быть (с точностью до статистического шума) прямая Np, которая там и нарисавана для p=1,65%. Для ожного человека матожидание испорченных бюллетеней p, значит для N человек матожидание Np. Что кривая заваливается вниз означает, что на больших участках на человека в среднем приходится меньше ошибок по какой-то причине. Некоторые возможные объяснения я привёл.

При совсем высоких явках там просто участков в некоторых бинах нет, это отображается как 0, хотя на самом деле там просто нет данных. Ну и шум возрастает, если участков в бине мало.
[User Picture]
From:oude_rus
Date:February 13th, 2012 11:34 pm (UTC)
(Link)
кстати, идея восстанавливать реальную явку из кол-ва недействительных -- это очень неплохая идея.

еще было бы интересно посмотреть аналогичные распределения при < и >40% за любимую партию.
[User Picture]
From:oude_rus
Date:February 15th, 2012 07:47 pm (UTC)
(Link)
А я, кстати, посмотрел. Результат вполне предсказуем.
From:a_kruglov
Date:February 16th, 2012 10:33 pm (UTC)
(Link)
Я тоже посмотрел. Вот картинка, если интересно сравнить:



Бины по 25. Первая и вторая кривая -- среднее число недействительных по участкам в бине с ЕР>=40% и ЕР<40%. Третья -- p=1,65% для сравнения. Четвёртая -- ЕР<40% с бином 200, чтобы уменьшить шум. Видно, что она соответствует p~=1,80% до N=2000. На самом деле дальше она идёт до N=2600 с отклонением около 3σ, что тоже большое, но не прямо вот гигантское отклонение (если взять для одного участка σ~=6,4Np). Коэффициент 6,4 -- во столько раз реальная σ превышает Np в среднем в данных. Участков с N>2200 и ЕР<40% всего 14, а с 2000<=N<2200 и ЕР<40% -- 25. Т.е., их очень мало, и, возможно, это какой-то особый класс участков. Так что сделать из сравнения кривых в области N>2000 какие-то выводы сложно.

PS: Забыл ещё написать. Все кривые -- это среднее превышение над числом недействительных 1. Участки с 0 недействительных вообще нигде тут не учитывались.

Edited at 2012-02-16 10:36 pm (UTC)
[User Picture]
From:oude_rus
Date:February 24th, 2012 01:51 pm (UTC)
(Link)
был уверен, что ответил, но то ли показалось, то ли ответ сожрался.

да, именно так и у меня получилось.
Powered by LiveJournal.com