?

Log in

No account? Create an account
Любителям статистики 2 - Maxim Pshenichnikov
December 12th, 2007
09:59 pm

[Link]

Previous Entry Share Next Entry
Любителям статистики 2
Со вчерашнего дня меня не оставляет ощущение бездарно прожитой жизни что все-таки что-то не так со вчерашним графиком.  

С одной стороны, показ каждой ТИК точкой - хоть большой, хоть маленькой - приводит к сильному искажению картинки. Если пиксел уже закрашен красным, то сколько ТИКов к нему не добавляй, красный цвет не изменится. Отсюда происходит невольная логарифмизация шкалы, т.е. отдельные пикселы видны лучше скученных. 

С другой стороны, моя идея отражения размера ТИКа, разумная с первого взгляда, со второго таковой уже не кажется. Причина проста: в ТИКях с большим числом избирателей уже произошло сглаживание особенностей (назовем их так), даже если они и были. Например, есть основания полагать, что по крайней мере в некоторых московских районах распределение явки имеет бимодальный характер, характерный для особенностей  (ссылку лень искать, но я проверял). Теперь усредните все низовые участки - особенности пропадут, но на графике эта точка окажется очень весомой. Поэтому я решил отказаться от нормирования на количество избирателей.

В общем, я написал коротенькую программку, которая считает двумерную гистограмму "голосов за" и "процент явки" (шаг усреднения - 2%, иначе слушком шумно):

                 Эксперимент                                                Best fit with a 2D Gaussian



Теперь цвет каждой точки напрямую отражает количество ТИКий с данными явкой и результатом голосования. Сразу признаюсь, что результаты при явке >85% я малодушно отклонил поскольку Восток - дело тонкое там уже действуют совершенно запредельные  непонятные факторы, которые мы назовем краевыми возмущениями. Это чуть меньше 10% избирателей. Зато остальное оказалось интересным.

1. Оба распределения вполне разумно описываются двумерными гауссовыми функциями (справа), несмотря на небольшую асимметрию данных (хвост в сторону больших процентов). Гаусс - это хорошо и приятно, как и все нормальное.

2. Коэффициенты корреляции указаны на графике. Удивительно, но (однофакторная) модель линейной связи оказалась вполне работоспособной.

3. Графики распределения по голосам при заданном проценте явки (т.е. вертикальный срез графика) совершенно одинаковы для обоих распределений. Это означает, что дисперсия по голосам (т.е. плюс-минус отклонения в процентах "за") не зависит от того, за кого голосуют.

4. Хотя распределение по голосам одинаково, его среднее (центр) постоянно для нижнего графика, но возрастает линейно с увеличением явки, причем с коэффициентом 1 (наклон длинной оси двумерного эллипсоида 46 градусов). Видимо, есть какой-то фактор, который систематически сдвигает центр распределения, не влияя на само распределение. 

В общем, верхнее распределение с точки зрения разброса голосов практически идентично распределению нижнему. Которое, в свою очередь, никаких особых эмоций не вызывает. А вот что систематически сдвигает центр верхего распределения - это не совсем понятно. Тут могут быть разные гипотезы.

(9 comments | Leave a comment)

Comments
 
[User Picture]
From:podmoskovnik
Date:December 12th, 2007 10:51 pm (UTC)
(Link)
Красиво. Осталось еще понять что это значит. Зато сразу видно, где мейнстрим. И все-таки, может теперь стоило учитывать не плотность ТИКов, а плотность избирателей?
Только одно замечание: по-моему, графики вертикальных сечений одинаковы оттого, что распределения за ЕР и за другие партии в сумме дают 100% (за вычетом нескольких % недействительных). Так что эти сечения - просто зеркальные отражения друг друга.
[User Picture]
From:podmoskovnik
Date:December 12th, 2007 11:11 pm (UTC)

проврался

(Link)
в сумме дают не 100%, конечно, а процент явки (значение абсциссы).
[User Picture]
From:rezoner
Date:December 12th, 2007 11:02 pm (UTC)
(Link)
Блядь, так не бывает!!! Это открытие что надо.

Замечание по методике. Скажи пожалуйста: ведь число голосов за едро и за остальных партий (ОП) ну, по крайней мере, сильно отрицательно коррелируют. В таком случае, график для ОП должен идти вниз с ростом явки?

Может, тебе стоило бы включить в модель ограничение - Едро+ОП=1?
[User Picture]
From:bitter_irony
Date:December 13th, 2007 08:14 am (UTC)
(Link)
Помедитировал немного на величину наклона, которая в первый момент да, впечатляет. Мне правильно кажется, что модель, при которой "истинное" распределение голосов для 100% избирателей 80:20, очень неплохо согласуется с данными? И что от простейшей модели (вероятность явки для отдельно взятого избирателя не зависит от его политических пристрастий) отклоняется скорее распределение "остальных"?
[User Picture]
From:petchik
Date:December 13th, 2007 08:58 am (UTC)
(Link)
Cлушай, а что будет, если бездушной машине скормить результаты других выборов. Скажем, 96 или 93 года? Чисто для сравнения?
[User Picture]
From:oude_rus
Date:December 13th, 2007 11:28 am (UTC)
(Link)
Давай данные для скормления бездушной машине и духовность для оператора.

Но лучше сначала напиши скрипт для скачивания данных по всем низовым избирательным участкам. А то анализ перекошенный получается.
[User Picture]
From:petchik
Date:December 14th, 2007 08:04 am (UTC)
(Link)
Виноват, я почему-то думал, что у нашего избиркома доступны данные о том кого и как он трахнул в прошлый раз прошлых выборов. То есть доступны, но в окне текущих политических концепций. Лихие 90е блин. Не считаются

А на счет духовности - это всегда пожалуйста. Приезжайте к нам на остров
From:tan_y
Date:December 14th, 2007 04:44 pm (UTC)
(Link)
я читала, что внутри россии 63% за ед.рос, а за рубежом аж 67
Это печально оказалось
[User Picture]
From:oude_rus
Date:December 26th, 2007 01:57 pm (UTC)
(Link)
Спасибо большое за комментарии, я просто не собрался ответить (прошу прощения). В общем, понятно, что нужно сделать; теперь осталось сесть и сделать. Но тут всякие дела, панимаешь. Может, завтра асилю.
Powered by LiveJournal.com