?

Log in

No account? Create an account
Мастеръ Гамбсъ этимъ полукресломъ заканчиваетъ новую партiю мебели - Maxim Pshenichnikov — LiveJournal
February 8th, 2012
09:28 am

[Link]

Previous Entry Share Next Entry
Мастеръ Гамбсъ этимъ полукресломъ заканчиваетъ новую партiю мебели

(92 comments | Leave a comment)

Comments
 
From:a_kruglov
Date:February 10th, 2012 09:29 pm (UTC)
(Link)
Нарисовал, вот:



Нарисовано среднее число недействительных в бине и среднее k среди k>0 минус 1 (типа Ek>=1 k−1). И то же самое с двойкой. Для пуассоновского распределении эти величины совпадают. Начиная с N=1500 они заметно расходятся, там не пуассоновское распределение -- есть избыток k=0, но не k=1 (по крайней мере, нет сильного избытка 1).

В целом среднее (по k%gt;0) может заваливаться по сравнению с pN, например, из-за того, что при вбросах бюллетеней во вброшеных не делают ошибок. Или при приписывании в протокол одной партии не приписывают в недействительные. При обоих этих механизмах недействительные являются индикатором реальной явки приблизительным. Включая карусельщиков, возможно. А при написании протоколов с нуля, как на Кавказе, не является индикатором явки.

Отличия в графиках слабые. У меня край первого бина на N=0. Есть заметные отличия в аномальной части -- у меня есть дополнительный пик на бине 2450--2475, например. Я посмотрел что там -- там зарубежный участок 5480, там 475 недействительных, 100% явка и не за ЕР мало очень. Наверно, это военные какие-нибудь, и всех против ЕР записали в недействительные. У меня данные из 2011_final_tabdelimited.zip , на который давал ссылку podmoskovnik, чьи собственно данные я уже не помню.

Я ещё пробовал Ek>=15 k−15 считать, оно совсем дико выглядит, причём при N>500 получается меньше, чем просто среднее,-- я ожидал обратного. Обратного можно было бы ожидать, если бы это была комбинация из нескольких пуассонов с разными p -- в области k>=15 были бы представлены большие p. А так получается, что наоборот правое плечо распределения завалено почему-то. Можно ещё попробовать посмотреть на эмпирические функции распределения k по бинам, я этого не делал.

Offtopic: у вас куда-то исчезло предыдущее сообщение по этой теме, которое было 5 февраля вечером.
[User Picture]
From:oude_rus
Date:February 11th, 2012 09:40 am (UTC)
(Link)
ваши графики у меня на лаптопе до сих пор открыты, но увы времени подумать и прокомментировать совсем нет -- у меня пошел плотный период жЫзни.

может, я завтра смогу что-то вменяемое написать.
[User Picture]
From:oude_rus
Date:February 12th, 2012 09:30 pm (UTC)
(Link)
так вопрос теперь вот какой: как так получается, что зависимость почти линейная до 1000, достигает максимума про 1500, а потом убывает?

Неужели есть такой фундаментальный закон, который говорит, что больше 24 недействительных на участок в приподе не бывает? как это все объяснить-то?
From:a_kruglov
Date:February 13th, 2012 12:09 am (UTC)
(Link)
Нет такого закона. Если у всех вероятность ошибиться одинаковая, должна быть (с точностью до статистического шума) прямая Np, которая там и нарисавана для p=1,65%. Для ожного человека матожидание испорченных бюллетеней p, значит для N человек матожидание Np. Что кривая заваливается вниз означает, что на больших участках на человека в среднем приходится меньше ошибок по какой-то причине. Некоторые возможные объяснения я привёл.

При совсем высоких явках там просто участков в некоторых бинах нет, это отображается как 0, хотя на самом деле там просто нет данных. Ну и шум возрастает, если участков в бине мало.
[User Picture]
From:oude_rus
Date:February 13th, 2012 11:34 pm (UTC)
(Link)
кстати, идея восстанавливать реальную явку из кол-ва недействительных -- это очень неплохая идея.

еще было бы интересно посмотреть аналогичные распределения при < и >40% за любимую партию.
[User Picture]
From:oude_rus
Date:February 15th, 2012 07:47 pm (UTC)
(Link)
А я, кстати, посмотрел. Результат вполне предсказуем.
From:a_kruglov
Date:February 16th, 2012 10:33 pm (UTC)
(Link)
Я тоже посмотрел. Вот картинка, если интересно сравнить:



Бины по 25. Первая и вторая кривая -- среднее число недействительных по участкам в бине с ЕР>=40% и ЕР<40%. Третья -- p=1,65% для сравнения. Четвёртая -- ЕР<40% с бином 200, чтобы уменьшить шум. Видно, что она соответствует p~=1,80% до N=2000. На самом деле дальше она идёт до N=2600 с отклонением около 3σ, что тоже большое, но не прямо вот гигантское отклонение (если взять для одного участка σ~=6,4Np). Коэффициент 6,4 -- во столько раз реальная σ превышает Np в среднем в данных. Участков с N>2200 и ЕР<40% всего 14, а с 2000<=N<2200 и ЕР<40% -- 25. Т.е., их очень мало, и, возможно, это какой-то особый класс участков. Так что сделать из сравнения кривых в области N>2000 какие-то выводы сложно.

PS: Забыл ещё написать. Все кривые -- это среднее превышение над числом недействительных 1. Участки с 0 недействительных вообще нигде тут не учитывались.

Edited at 2012-02-16 10:36 pm (UTC)
[User Picture]
From:oude_rus
Date:February 24th, 2012 01:51 pm (UTC)
(Link)
был уверен, что ответил, но то ли показалось, то ли ответ сожрался.

да, именно так и у меня получилось.
Powered by LiveJournal.com