?

Log in

No account? Create an account
Maxim Pshenichnikov
February 8th, 2012
09:28 am

[Link]

Previous Entry Share Next Entry
Мастеръ Гамбсъ этимъ полукресломъ заканчиваетъ новую партiю мебели

(92 comments | Leave a comment)

Comments
 
[User Picture]
From:oude_rus
Date:February 17th, 2012 05:15 pm (UTC)
(Link)
//число проголосовавших - очень плохая переменная. //

Не согласен. Это - очень хорошая переменная, поскольку в самой простой физической модели число недействительных должно быть пропорционально числу проголосовавших. То есть это прекрасное нулевое приближение (что и видно на графиках), с которого можно начинать рассуждать про отличия, в частности, на больших участках.

И на всякий случай: я не сторонник легких путей объяснения всего-на-свете манипуляциями или фальсификациями. Мне гораздо инереснее понять внутреннюю логику, если таковая имеется. Именно поэтому я трачу столько времени на эти недействительные, хотя к фальсификациям имеют (если имеют) отношение только нулевые недействительные. Остальное так, мелкие кукишки -- но кукишки непонятные.
[User Picture]
From:kirenenko
Date:February 17th, 2012 06:28 pm (UTC)
(Link)
Ну, я конечно понимаю про простую модель, и думаю, что вам виднее, т.к. я собственно наукой почти не занимаюсь. Но ведь уже давно видно, что простая модель не описывает данные, и что отклонения от простых моделей коррелируют с социологическими параметрами.
У меня есть дурацкая грубая аналогия. Это как пытаться понять внутреннюю логику того, что ускорение спутника не равно жэ, после того, как мы наблюдали за Луной и планетами и видели корреляцию с эр-квадрат.
[User Picture]
From:kirenenko
Date:February 17th, 2012 06:46 pm (UTC)
(Link)
Или если без дурацких аналогий, гипотеза линейной зависимости недействительных от числа бюллетеней - это просто предположение, что процент недействительных везде одинаковый. То есть это тоже самое "верим Гауссу", только в отношении процента недействительных.

Когда вы смотрите на участки с небольшим количеством проголосовавших - это выборка из всего диапазона явок и размеров, и вы усредняете сильно различные проценты недействительных. Конечно, в результате получается константа с точностю до какого-нибудь гаусса.
Когда вы смотрите на участки с количеством проголосовавших > 1500 (повторяюсь) - это большие участки с явкой более 45%.


Edited at 2012-02-17 07:07 pm (UTC)
[User Picture]
From:oude_rus
Date:February 18th, 2012 02:48 pm (UTC)
(Link)
"предположение, что процент недействительных везде одинаковый"

это не так: процент недействительных может быть разным, но зависимость от N останется линейной, со средним процентом в качестве коэффициента. Это, вроде, свойство пуассона, хотя я точно не помню. Другое дело, что функция распределения процентов не должна меняться с изменением N -- ну она и не меняется в довольно широких пределах. А когда она начинает меняться -- как вы правильно заметили, около 1500 -- изменений никто объяснить не в состоянии.

Кстати, у переменной "количество проголосовавших" есть вот какое серьезное преимущество: она не завязана на корреляции. А остальные переменные сильно завязаны между собой, поэтому непонятно, что из чего следует.
[User Picture]
From:kirenenko
Date:February 18th, 2012 07:33 pm (UTC)
(Link)
> зависимость от N останется линейной, со средним процентом в качестве коэффициента

Если брать случайные выборки по N бюллетеней. А не участки с N бюллетенями.

> А когда она начинает меняться -- как вы правильно заметили, около 1500 -- изменений никто объяснить не в состоянии.

Простите, но я вам 4 раза уже повторил, что после 1500 вы берете средний процент из перекошенной выборки. Все, что показывает ваш график - это что процент недействительных падает с повышением явки. Просто за счет плохого выбора переменной, до 1500 вы смотрите действительно на что-то близкое к среднему проценту, а после 1500 смотрите на средний процент среди участков с все более выской явкой.


Edited at 2012-02-19 08:13 am (UTC)
[User Picture]
From:oude_rus
Date:February 19th, 2012 08:26 pm (UTC)
(Link)
я, наверное, не очень вежливо поступаю: вы вон тут же реагируете, и даже первым делом с утра пораньше добавляете исправления, а я, типа, динамлю. Хотя на самом деле я не динамлю, а просто времени нет. Для ответа вам надо сесть и часок-другой подумать, а вот этого другого и не образуется. Извините, я не нарочно; может, завтра получится.
[User Picture]
From:kirenenko
Date:February 19th, 2012 11:27 pm (UTC)
(Link)
Ну что вы, это вы извините, что я реагирую слегка поспешно, а потом опять же поспешно кидаюсь добавлять и исправлять. Времени у меня тоже недостает, но поболтать захотелось. А надо было мне наверно тоже посидеть-подумать, облечь все в более ясную и строгую форму, и вместо 10 постов написать один, но тщательный-обстоятельный.
Но надеюсь, что хоть какие-то мысли доношу, не расплескав.
[User Picture]
From:oude_rus
Date:February 24th, 2012 05:49 pm (UTC)
(Link)
Графики, которые воспроизводят ваши в другой ветке, но мне нравятся немного больше, поскольку я недолюбливаю изображение двумерных гистограмм точечками (что приводит к зрительным искажениям).

Собственно, обсуждать тут особо нечего, поскольку уже все сказано. Замечу только, что имеет значение не средняя явка (красная кривая справа), и даже не ее дисперсия, а асимметрия распределения (т.е. 3ий момент). Распределение явок (т.е. вертикальный срез) действительно перекашивается после 1500, причем край меньших явок делается почти отвесным (я специально посмотрел). И согласен, именно эта точка соответствует перелому на правом (синем) графике.

Вопрос, который остался, -- почему так? почему на маленьких участках распределение более-менее симметричное, на средних и больших - тоже (хотя хвост и появляется, он не очень значителен), а на очень больших участках явок меньше 60% вообще нет. Загадко.
[User Picture]
From:corbulon
Date:February 24th, 2012 06:06 pm (UTC)
(Link)
Вообще говоря мы знаем долю больших УИКов, в которых числа, кратные десятке, встречаются слишком часто.
Что если уменьшить число таких УИКов на эту избыточную долю? Что-то изменится?
[User Picture]
From:oude_rus
Date:February 26th, 2012 08:28 pm (UTC)
(Link)
да их мало, всего 222 с числом проголосовавших более 1500.
и их локации удивительно знакомы.
[User Picture]
From:corbulon
Date:February 26th, 2012 08:54 pm (UTC)
(Link)
только что просчитал по своей базе.
У меня УИКов в которых "Число избирательных бюллетеней, выданных избирателям в помещении для голосования" больше 1500 получилось 5884
Избирателей там 14 234 584
И кр. Пирсона для них такие:
18,98776343 47,7675051 25,05506458 33,47905864 8,244814689
с вероятностями:
0,025297141 2,82268E-07 0,002910869 0,000110182 0,509675677

Страшные 2,8E-07 это как раз то, о чем ты говоришь - выдано бюллетеней.
Преобладают, ясен пень нули, а не хватает 0 и 9.
[User Picture]
From:kirenenko
Date:February 24th, 2012 08:59 pm (UTC)
(Link)
Спасибо, мне ети графики тоже нравятся больше моих.

По поводу аномалий. Есть 2 эффекта. Один - настояший: существенная разница всех статистик и распределений на участках с менее 750 и более 750 зарегистрированных избирателей. (это грубо; вообще я вижу 5 разных кластеров; 9 республик нужно наверно в любом случае рассматривать отдельно). Этот эффект - самый интересный для меня, остальное я все (себе) объяснил.
Кстати, один из этих кластеров отвечает за самую левую часть кривых явки и голоса за ЕР на вашем графике. Это кластер малых участков с высокой явкой и низкой долей за ЕР. Я на них давно обратил внимание, но не пытался идентифицировать территориально.

Второй эффект - рост явки (и все связанное: рост голосов за ЕР, падение доли недействительных) начиная с 1500 проголосовавших. Этот эффект возникает потому что размер участка ограничен сверху. Если максимальный размер участка грубо говоря 3000, то глядя на участки с 3000 проголосовавших, мы автоматически смотрим на участки с 100% явкой (и всем связанным). А когда 1500 проголосовавших - явка от 50 от 100.
Именно поэтому я говорю, что число проголосовавших - плохая переменная. Этот эффект искуственного форсированного роста явки доминирует над всеми физическими эффектами.
[User Picture]
From:oude_rus
Date:February 26th, 2012 08:27 pm (UTC)
(Link)
тьфу, блин, вы же мне это уже говорили, да я и сам тупо нарисовал диагональ на левом графике, а потом ее стер (это я по поводу эффекта номер 2).

Однако не так все и плохо. Я влез в базу данных и посмотрел, что же это за такие участки с числом проголосовавших более 1500. Их оказалось мало -- всего 222, хотя голосов любимой партии они дают около полумиллиона. Вот как у них распределены недействитевльные:



Надо ли говорить, что локации этих участков с числом недействительных <10 удивительно знакомы. Хотя, например, есть и 12 участков во Владимирской области в числом проголосовавших под 3000, с явкой 100% на 10 из них, ни и с голосами ЕР хорошо за 90%. Интересно, что это за участки.

По первому эффекту: согласно подмосковнику, маленькие участки с небольшим % ЕР - это временные участки на кораблях, геопартиях и т.д. Там народ ЕР не очень любит.

По поводу остальных же кластеров было бы любопытно взглянуть и послушать.
[User Picture]
From:kirenenko
Date:February 27th, 2012 04:49 am (UTC)
(Link)
> участки с числом проголосовавших более 1500. Их оказалось мало -- всего 222

вы ошиблись, или описАлись... их около 7000... гистограмма бимодальная с максимумами на 0 и около 20 (а если по процентам, то максимумы в 0 и 1%).

> По поводу остальных же кластеров было бы любопытно взглянуть и послушать.

их все можно увидеть если рассматривать график размер-явка ("член Чурова")

1) 9 "плохих" республик
2) участки с менее 700 зарег. большой диапазон явки. почти симметричные распределения явки и голосов. падение явки с ростом размера.
3) участки "промежуточного" размера от 700 до 1000. их мало. хорошая линейная корреляция явки и размера. не знаю, стоит ли выделять этот кластер, это у меня чисто эстетическое решение. когда их смешиваешь с маленькими или с большими участками, они слегка портят внешний вид распределений и там и там.
4) участки от 1000 до 3000. хвостатое распределение явки и голосов. отсутствие зависимости (или очень слабый рост) явки от размера. возможность сравнивать с данными ruelect.
5) вышеупомянутые малые участки с большой явкой и низкой поддержкой ЕР
6) участки со 100% явкой, большинство из которых скорее всего временные (явка неизвестна)
7) участки с более 3000 зарег. большинство - зарубежные.

Вот для интереса по данным ruelect переписывание голосов за ЕР и недействительных бюллетеней. Извините, что не очень наглядно получилось.
Зеленым - наблюдательские копии протоколов, красным - официальные цифры.


Из около 1000 протоколов ruelect около 640 были переписаны в пользу ЕР (на более чем 0.5% голосов). Из этих переписанных в около 100 понизилось число недействительных (на более 0.5%).
[User Picture]
From:kirenenko
Date:February 27th, 2012 10:26 pm (UTC)
(Link)
> участки с числом проголосовавших более 1500. Их оказалось мало -- всего 222

вы наверно имели в виду "с числом проголосовавших более 2500".
Тогда да, все так.

Powered by LiveJournal.com