?

Log in

No account? Create an account
Невозможно даже себе представить - Maxim Pshenichnikov — LiveJournal
March 7th, 2012
07:45 pm

[Link]

Previous Entry Share Next Entry
Невозможно даже себе представить

(48 comments | Leave a comment)

Comments
 
[User Picture]
From:kirenenko
Date:March 8th, 2012 04:34 am (UTC)
(Link)
Извините, надеюсь, вы не будете возражать, что я сюда это пихаю.

Кой-какие наблюдения.
1. "Член Чурова" никуда не делся. Размер-явка, медиана в бинах по 50.


2. Соответственно, надо смотреть на мелкие и большие участки отдельно (распределение по размеру, конечно, тоже почти не поменялось). Смотрим на голоса за Путина (синий- большие участки, красный – маленькие).


Естественнно, за моды на 95 и 100 отвечают этнические окраины, и мне лень их отфильтровывать. Распределение, как и на думский выборах, имеет более 3 мод. Радоваться гауссовости нет никакого повода. Все, что поменялось – уменьшился диапазон явки и моды сблизились.
3. Энтропия, теория Колмана:


Сначала – про облако точек. Черные – большие участки, фиолетовые – меньшие. Это облако отличается от думских выборов двумя вещами. Во-первых, крупные участки стали более обособлены (спекуляция: у городских жителей рациональность берет верх над конформностью, но повышение явки в сочетании с конформизмом все равно побеждает). Во-вторых, больше точек "падает вниз". (спекуляция: интуитивно, судя по цифрам ruelect по думским выборам, эти точки – переписанные украденные голоса).
Теперь про "параболы" (то есть энтропийные кривые). Красным – фит Колмана, он показывает, что явка лучше всего объясняет выбор при условии, что энтропия выбора 1.75 (выбор из 3.36 вариантов). Зеленая кривая – как бы оно выглядело, если б народ рассматривал выбор из всех шести вариантов: 5 кандидатов и испортить бюллетень. И наконец, синяя кривая отражает, куда бы легли точки, если б конформность полностью обясняла выбор, у которого реально средняя энтропия около 1.5 (2.8 кандидатов).
По сравнению с думскими выборами, разница реальной средней энтропии и энтропии, объясненной по Колману, не изменилась.

Общий предварительный вывод (базирующийся на интуиции): ничего в масштабе страны не изменилось, только явка повысилась, а с ней, естественно и поддержка лидера.
У меня еще есть идея визуализировать вклад каждого кандидата в энтропию. Будет время – нарисую.
Спасибо за внимание.


[User Picture]
From:oude_rus
Date:March 8th, 2012 07:01 am (UTC)
(Link)
спасибо, не возражаю.

1. можно попросить отрисовать 2011-картинки и разместить их рядом (слева 2011, справа 2012)? так обсуждать будет легче.

2. про гаусса речь шла про Москву.

3. где проходит граница большой/меленький участок?

4. по какой формуле вы считаете Колмана? там логарифм точно по основанию 2? а то действительно цифры другие получаются.

То есть если вы просто добавите картинки и сделаете копи-пейст в новый комментарий, то вам будет еще бОльшее спасибо.
[User Picture]
From:kirenenko
Date:March 8th, 2012 10:17 am (UTC)
(Link)
1. Сделаю через день.
2. Ясно.
3. 750 зарег.
4. Обычная энтропия по Шеннону. Логарифм двоичный. Сумма - p * log p по 6 кандидатам (5 и недейств.). У p в знаменателях действ+недейств.
Энтропия явки: 2 слагаемых - t * log t - (1-t) * log (1-t).
Сегодня перепроверю код. И надо бы наверно, большие нарисовать и зафитать отдельно.

Спасибо.
[User Picture]
From:oude_rus
Date:March 8th, 2012 11:01 am (UTC)
(Link)
ок, жду. комментировать пока не буду, чтоб 2 круга не делать.

по п2 -- на графике отложены не "голоса" (как в тексте написано), а участки, так?

энтропию я тоже проверю -- может, я двоичный лог в натуральный перевел неверно.

энтропию по партиям я делал, но она неинтересная, поскольку в основном сидит в насыщении из-за особенностей функции преобразования p*log(p).

и еще одно предложение: вместо точечных диаграмм я предпочитаю цветовые. Дело в том, что когда точки попадают в одно место, нельзя уже сказать, сколько там точек - одна или сто. А с Шенноном ситуация еще усугубляется из-за экстремума функции p*log(p). И, конечно, с теорией лучше сравнивать какую-нибудь медиану -- поскольку на эти диаграммы рассеяния какую функцию не наложи, все хорошо будет.


Edited at 2012-03-08 11:03 am (UTC)
[User Picture]
From:kirenenko
Date:March 8th, 2012 11:31 am (UTC)
(Link)
да, конечно, это участки по голосам, 100 бинов.

про плотные диаграммы я совершенно согласен, но я слабо владею техникой рисования 2мерных бинов (хотя вы меня уже почти вдохновили научиться). но точки у меня полупрозрачные, так что кое-какой динамический диапазон там есть.

насчет сравнения с фитом - учту.

да, конечно, это участки по голосам, 100 бинов.

про плотные диаграммы я совершенно согласен, но я слабо владею техникой рисования 2мерных бинов (хотя вы меня уже почти вдохновили научиться). но точки у меня полупрозрачные, так что кое-какой динамический диапазон там есть.

насчет сравнения с фитом - учту. но повторю еще раз мое мнение про Колмана, что это не априорная предсказывающая модель, а пост-хок инструмент: просто взгляд на данные еще под одним углом, и возможно попытка оценить сколько там этой конформности.
Поэтому я отчасти умышленно избегаю показывать, насколько колманский фит хороший или плохой
[User Picture]
From:kirenenko
Date:March 9th, 2012 05:45 am (UTC)
(Link)
Я свои энтропийные формулы проверил, и вроде все ок.
Вы, кстати, нули под логарифмом учитываете?
[User Picture]
From:oude_rus
Date:March 9th, 2012 08:38 am (UTC)
(Link)
а чёрт его знает.
а их надо как-то специально учитывать?
[User Picture]
From:kirenenko
Date:March 9th, 2012 03:44 pm (UTC)
(Link)
ну, может ваш софт считает, что лог 0 = -1 :)
[User Picture]
From:in_kant
Date:March 8th, 2012 08:26 am (UTC)
(Link)
Я своим профанским взглядом смотрю: очевидно, что большие участки - в больших городах, а маленькие участки - в маленьких городах и деревнях. Вообще говоря, размер участка грубо показывает плотность населения.
Тут сразу видно, что "в деревне" очевидно выше явка и поддержка Путина, чем "в городе". Ну это было известно и так.

Энтропийный график чрезвычайно интересный, но я правильно понимаю, что никакого "криминала" в нем нет?
[User Picture]
From:kirenenko
Date:March 8th, 2012 10:35 am (UTC)
(Link)
Да, город-деревня, плотность населелния - я так же это понимаю.

Никакого криминала данные не показывают. Я впрочем, придерживаюсь мнения, что думские данные тоже криминала не показывали (кроме фактических криминальных данных на ruelect.com).

Просто сейчас мне интересно увидеть, какие ключевые макро-показатели поменялись по сравнению с думскими выборами, а какие нет.



Edited at 2012-03-08 10:35 am (UTC)
[User Picture]
From:in_kant
Date:March 8th, 2012 10:42 am (UTC)
(Link)
Все-таки некоторые очевидно "криминальные" вещи вылезали и в 2011, и (гораздо меньше) в 2012. Например, аномально часто встречающиеся кратные пяти проценты, или аномально часто встречающиеся нули (и аномально редко - девятки) на последней цифре трехзначных чисел.
[User Picture]
From:kirenenko
Date:March 8th, 2012 11:12 am (UTC)
(Link)
Да, пики на круглых числах - едниственная по-настоящему подозрительная вещь. К сожалению, аккуратно проверить их значимость очень трудно.

А с нулями на конце мы же вроде там у корбулона разобрались так, что даже без эмоций не обошлось.
[User Picture]
From:oude_rus
Date:March 8th, 2012 11:19 am (UTC)
(Link)
кстати, а какой итог, с вашей точки зрения?
[User Picture]
From:kirenenko
Date:March 8th, 2012 11:53 am (UTC)
(Link)
Итог насчет последних цифр?

1. Равномерного распределения последних цифр ожидать не следует, когда зафиксировано распределение верхних границ. Хоть эта ожидаемая неравномерность мала, все равно есть сомнение что вся методика валидна, и не видно способа сделать ее валидной.
2. Тест очень чувствителен к смешиванию скоррелированных переменных; надо рассматривать только отдельные графы.
3. С учетом "исчерпанных круглых чисел", по моим расчетам (которые надо проверить), распределения в отдельных графах - равномерные по хи-кв с p-val 5%
4. Наверно, круглые числа рисовали, особенно в партийных голосах, особенно в Дагестане, но осторожно, чтоб за хи-квадрат не вылезти ;)
[User Picture]
From:in_kant
Date:March 8th, 2012 11:30 am (UTC)
(Link)
Ага, нашел тот тред у корбулона. Я таки не понял, что вы опровергли? Вы довольно хорошо показали, какие именно УИКи являются источниками аномалии. И?
Powered by LiveJournal.com