?

Log in

No account? Create an account
Maxim Pshenichnikov
February 8th, 2012
09:28 am

[Link]

Previous Entry Share Flag Next Entry
Мастеръ Гамбсъ этимъ полукресломъ заканчиваетъ новую партiю мебели

(92 comments | Leave a comment)

Comments
 
[User Picture]
From:oude_rus
Date:February 19th, 2012 08:26 pm (UTC)
(Link)
я, наверное, не очень вежливо поступаю: вы вон тут же реагируете, и даже первым делом с утра пораньше добавляете исправления, а я, типа, динамлю. Хотя на самом деле я не динамлю, а просто времени нет. Для ответа вам надо сесть и часок-другой подумать, а вот этого другого и не образуется. Извините, я не нарочно; может, завтра получится.
[User Picture]
From:kirenenko
Date:February 19th, 2012 11:27 pm (UTC)
(Link)
Ну что вы, это вы извините, что я реагирую слегка поспешно, а потом опять же поспешно кидаюсь добавлять и исправлять. Времени у меня тоже недостает, но поболтать захотелось. А надо было мне наверно тоже посидеть-подумать, облечь все в более ясную и строгую форму, и вместо 10 постов написать один, но тщательный-обстоятельный.
Но надеюсь, что хоть какие-то мысли доношу, не расплескав.
[User Picture]
From:oude_rus
Date:February 24th, 2012 05:49 pm (UTC)
(Link)
Графики, которые воспроизводят ваши в другой ветке, но мне нравятся немного больше, поскольку я недолюбливаю изображение двумерных гистограмм точечками (что приводит к зрительным искажениям).

Собственно, обсуждать тут особо нечего, поскольку уже все сказано. Замечу только, что имеет значение не средняя явка (красная кривая справа), и даже не ее дисперсия, а асимметрия распределения (т.е. 3ий момент). Распределение явок (т.е. вертикальный срез) действительно перекашивается после 1500, причем край меньших явок делается почти отвесным (я специально посмотрел). И согласен, именно эта точка соответствует перелому на правом (синем) графике.

Вопрос, который остался, -- почему так? почему на маленьких участках распределение более-менее симметричное, на средних и больших - тоже (хотя хвост и появляется, он не очень значителен), а на очень больших участках явок меньше 60% вообще нет. Загадко.
[User Picture]
From:corbulon
Date:February 24th, 2012 06:06 pm (UTC)
(Link)
Вообще говоря мы знаем долю больших УИКов, в которых числа, кратные десятке, встречаются слишком часто.
Что если уменьшить число таких УИКов на эту избыточную долю? Что-то изменится?
[User Picture]
From:oude_rus
Date:February 26th, 2012 08:28 pm (UTC)
(Link)
да их мало, всего 222 с числом проголосовавших более 1500.
и их локации удивительно знакомы.
[User Picture]
From:corbulon
Date:February 26th, 2012 08:54 pm (UTC)
(Link)
только что просчитал по своей базе.
У меня УИКов в которых "Число избирательных бюллетеней, выданных избирателям в помещении для голосования" больше 1500 получилось 5884
Избирателей там 14 234 584
И кр. Пирсона для них такие:
18,98776343 47,7675051 25,05506458 33,47905864 8,244814689
с вероятностями:
0,025297141 2,82268E-07 0,002910869 0,000110182 0,509675677

Страшные 2,8E-07 это как раз то, о чем ты говоришь - выдано бюллетеней.
Преобладают, ясен пень нули, а не хватает 0 и 9.
[User Picture]
From:kirenenko
Date:February 24th, 2012 08:59 pm (UTC)
(Link)
Спасибо, мне ети графики тоже нравятся больше моих.

По поводу аномалий. Есть 2 эффекта. Один - настояший: существенная разница всех статистик и распределений на участках с менее 750 и более 750 зарегистрированных избирателей. (это грубо; вообще я вижу 5 разных кластеров; 9 республик нужно наверно в любом случае рассматривать отдельно). Этот эффект - самый интересный для меня, остальное я все (себе) объяснил.
Кстати, один из этих кластеров отвечает за самую левую часть кривых явки и голоса за ЕР на вашем графике. Это кластер малых участков с высокой явкой и низкой долей за ЕР. Я на них давно обратил внимание, но не пытался идентифицировать территориально.

Второй эффект - рост явки (и все связанное: рост голосов за ЕР, падение доли недействительных) начиная с 1500 проголосовавших. Этот эффект возникает потому что размер участка ограничен сверху. Если максимальный размер участка грубо говоря 3000, то глядя на участки с 3000 проголосовавших, мы автоматически смотрим на участки с 100% явкой (и всем связанным). А когда 1500 проголосовавших - явка от 50 от 100.
Именно поэтому я говорю, что число проголосовавших - плохая переменная. Этот эффект искуственного форсированного роста явки доминирует над всеми физическими эффектами.
[User Picture]
From:oude_rus
Date:February 26th, 2012 08:27 pm (UTC)
(Link)
тьфу, блин, вы же мне это уже говорили, да я и сам тупо нарисовал диагональ на левом графике, а потом ее стер (это я по поводу эффекта номер 2).

Однако не так все и плохо. Я влез в базу данных и посмотрел, что же это за такие участки с числом проголосовавших более 1500. Их оказалось мало -- всего 222, хотя голосов любимой партии они дают около полумиллиона. Вот как у них распределены недействитевльные:



Надо ли говорить, что локации этих участков с числом недействительных <10 удивительно знакомы. Хотя, например, есть и 12 участков во Владимирской области в числом проголосовавших под 3000, с явкой 100% на 10 из них, ни и с голосами ЕР хорошо за 90%. Интересно, что это за участки.

По первому эффекту: согласно подмосковнику, маленькие участки с небольшим % ЕР - это временные участки на кораблях, геопартиях и т.д. Там народ ЕР не очень любит.

По поводу остальных же кластеров было бы любопытно взглянуть и послушать.
[User Picture]
From:kirenenko
Date:February 27th, 2012 04:49 am (UTC)
(Link)
> участки с числом проголосовавших более 1500. Их оказалось мало -- всего 222

вы ошиблись, или описАлись... их около 7000... гистограмма бимодальная с максимумами на 0 и около 20 (а если по процентам, то максимумы в 0 и 1%).

> По поводу остальных же кластеров было бы любопытно взглянуть и послушать.

их все можно увидеть если рассматривать график размер-явка ("член Чурова")

1) 9 "плохих" республик
2) участки с менее 700 зарег. большой диапазон явки. почти симметричные распределения явки и голосов. падение явки с ростом размера.
3) участки "промежуточного" размера от 700 до 1000. их мало. хорошая линейная корреляция явки и размера. не знаю, стоит ли выделять этот кластер, это у меня чисто эстетическое решение. когда их смешиваешь с маленькими или с большими участками, они слегка портят внешний вид распределений и там и там.
4) участки от 1000 до 3000. хвостатое распределение явки и голосов. отсутствие зависимости (или очень слабый рост) явки от размера. возможность сравнивать с данными ruelect.
5) вышеупомянутые малые участки с большой явкой и низкой поддержкой ЕР
6) участки со 100% явкой, большинство из которых скорее всего временные (явка неизвестна)
7) участки с более 3000 зарег. большинство - зарубежные.

Вот для интереса по данным ruelect переписывание голосов за ЕР и недействительных бюллетеней. Извините, что не очень наглядно получилось.
Зеленым - наблюдательские копии протоколов, красным - официальные цифры.


Из около 1000 протоколов ruelect около 640 были переписаны в пользу ЕР (на более чем 0.5% голосов). Из этих переписанных в около 100 понизилось число недействительных (на более 0.5%).
[User Picture]
From:kirenenko
Date:February 27th, 2012 10:26 pm (UTC)
(Link)
> участки с числом проголосовавших более 1500. Их оказалось мало -- всего 222

вы наверно имели в виду "с числом проголосовавших более 2500".
Тогда да, все так.

[User Picture]
From:oude_rus
Date:February 29th, 2012 06:12 pm (UTC)
(Link)
Именно. Думал про одно, писал про другое.
Спасибо за хватание за руку. Опять-таки исправляюсь:

Тут тоже вроде все понятно.

Слазил посмотреть поставщиков малых (<10) недействительных. Кроме старых друзей из девятки, нашел Москву (163 уик), Краснодарский край (120), Саратовкую об-ть (69), Кемеровскую область (59), ну и остальные по мелочи.
[User Picture]
From:oude_rus
Date:February 29th, 2012 06:16 pm (UTC)
(Link)
слушайте, у меня еще вот какой ахтунг случился: не могу найти вашего комментария, где вы объясняете теорию "пяти кластеров". Сейчас хотел внимательно посмотреть -- комментарий как сгинул. Помогите найти, а?
[User Picture]
From:kirenenko
Date:February 29th, 2012 11:00 pm (UTC)
(Link)
Ага, я его вижу только, когда залогинен, думал он заскринился автоматически.
> теорию "пяти кластеров"
да какая там теория. зачем такие громкие слова. просто наблюдение.

Копирую:

> участки с числом проголосовавших более 1500. Их оказалось мало -- всего 222

вы ошиблись, или описАлись... их около 7000... гистограмма бимодальная с максимумами на 0 и около 20 (а если по процентам, то максимумы в 0 и 1%).

> По поводу остальных же кластеров было бы любопытно взглянуть и послушать.

их все можно увидеть если рассматривать график размер-явка ("член Чурова")

1) 9 "плохих" республик
2) участки с менее 700 зарег. большой диапазон явки. почти симметричные распределения явки и голосов. падение явки с ростом размера.
3) участки "промежуточного" размера от 700 до 1000. их мало. хорошая линейная корреляция явки и размера. не знаю, стоит ли выделять этот кластер, это у меня чисто эстетическое решение. когда их смешиваешь с маленькими или с большими участками, они слегка портят внешний вид распределений и там и там.
4) участки от 1000 до 3000. хвостатое распределение явки и голосов. отсутствие зависимости (или очень слабый рост) явки от размера. возможность сравнивать с данными ruelect.
5) вышеупомянутые малые участки с большой явкой и низкой поддержкой ЕР
6) участки со 100% явкой, большинство из которых скорее всего временные (явка неизвестна)
7) участки с более 3000 зарег. большинство - зарубежные.

Вот для интереса по данным ruelect переписывание голосов за ЕР и недействительных бюллетеней. Извините, что не очень наглядно получилось.
Зеленым - наблюдательские копии протоколов, красным - официальные цифры.



Из около 1000 протоколов ruelect около 640 были переписаны в пользу ЕР (на более чем 0.5% голосов). Из этих переписанных в около 100 понизилось число недействительных (на более 0.5%).

[User Picture]
From:sergeima
Date:February 28th, 2012 09:53 am (UTC)

12 участков во Владимирской области в числом проголосо

(Link)
"Владимирский централ, ветер севeрный" (c) ?
[User Picture]
From:corbulon
Date:February 28th, 2012 10:16 am (UTC)
(Link)
На этих же участках число ноликов в конце выходит за 3 сигмы, а "4 и 7" на 2 сигмы не хватает.
Powered by LiveJournal.com