Maxim Pshenichnikov (oude_rus) wrote,
Maxim Pshenichnikov
oude_rus

Category:

Любителям статистики 2

Со вчерашнего дня меня не оставляет ощущение бездарно прожитой жизни что все-таки что-то не так со вчерашним графиком.  

С одной стороны, показ каждой ТИК точкой - хоть большой, хоть маленькой - приводит к сильному искажению картинки. Если пиксел уже закрашен красным, то сколько ТИКов к нему не добавляй, красный цвет не изменится. Отсюда происходит невольная логарифмизация шкалы, т.е. отдельные пикселы видны лучше скученных. 

С другой стороны, моя идея отражения размера ТИКа, разумная с первого взгляда, со второго таковой уже не кажется. Причина проста: в ТИКях с большим числом избирателей уже произошло сглаживание особенностей (назовем их так), даже если они и были. Например, есть основания полагать, что по крайней мере в некоторых московских районах распределение явки имеет бимодальный характер, характерный для особенностей  (ссылку лень искать, но я проверял). Теперь усредните все низовые участки - особенности пропадут, но на графике эта точка окажется очень весомой. Поэтому я решил отказаться от нормирования на количество избирателей.

В общем, я написал коротенькую программку, которая считает двумерную гистограмму "голосов за" и "процент явки" (шаг усреднения - 2%, иначе слушком шумно):

                 Эксперимент                                                Best fit with a 2D Gaussian



Теперь цвет каждой точки напрямую отражает количество ТИКий с данными явкой и результатом голосования. Сразу признаюсь, что результаты при явке >85% я малодушно отклонил поскольку Восток - дело тонкое там уже действуют совершенно запредельные  непонятные факторы, которые мы назовем краевыми возмущениями. Это чуть меньше 10% избирателей. Зато остальное оказалось интересным.

1. Оба распределения вполне разумно описываются двумерными гауссовыми функциями (справа), несмотря на небольшую асимметрию данных (хвост в сторону больших процентов). Гаусс - это хорошо и приятно, как и все нормальное.

2. Коэффициенты корреляции указаны на графике. Удивительно, но (однофакторная) модель линейной связи оказалась вполне работоспособной.

3. Графики распределения по голосам при заданном проценте явки (т.е. вертикальный срез графика) совершенно одинаковы для обоих распределений. Это означает, что дисперсия по голосам (т.е. плюс-минус отклонения в процентах "за") не зависит от того, за кого голосуют.

4. Хотя распределение по голосам одинаково, его среднее (центр) постоянно для нижнего графика, но возрастает линейно с увеличением явки, причем с коэффициентом 1 (наклон длинной оси двумерного эллипсоида 46 градусов). Видимо, есть какой-то фактор, который систематически сдвигает центр распределения, не влияя на само распределение. 

В общем, верхнее распределение с точки зрения разброса голосов практически идентично распределению нижнему. Которое, в свою очередь, никаких особых эмоций не вызывает. А вот что систематически сдвигает центр верхего распределения - это не совсем понятно. Тут могут быть разные гипотезы.
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 9 comments