?

Log in

No account? Create an account
Небольшой разбор доклада Сулакшина - Maxim Pshenichnikov
March 15th, 2013
08:25 pm

[Link]

Previous Entry Share Next Entry
Небольшой разбор доклада Сулакшина
Поскольку уважаемый barouh подкатил ссылку на т.н. доклад Сулакшина, можно разобрать сенсационную методику -- которая дала 22% за ЕР и 28% за КПРФ -- по существу.

Если коротко, то я в совершеннешем восхищении. В восхищении от того, что можно написать 160 страниц со 138 (!!) рисунками там, где разговору-то на 12 страниц и 5 рисунков -- и это с подробными описаниями всех методик. Сколько заняло времени озвучить весь этот доклад, мне даже страшно и подумать -- часов 6, наверное, а я говорю очень быстро. Поэтому не будем углубляться во всем известные детали (такое впечатление, что автор не совсем в курсе, что вообще происходило на ниве электоральной статистики за последний год), а сразу перейдем к оригинальной методике.

Она суммирована на рис.116, стр.94 (тут сразу же вспоминается я классицизму отдал честь, хоть поздно, но введенье есть).Для лучшего понимания можно сделать шаг назад, на рис. 114:
113
(линии, судя по всему, нарисованы сплайном, что как бы намекает нам...)

На рисунке показано распределение количества УИК как функции доли проголосовавших за ЕР для УИК разных размеров (если вы поняли, что именно изображено по оси ыгрэк, расскажите мне поскорее). Вы небось не знали, что при увеличении размера участка доля голосующих за ЕР уменьшается? Вот теперь знаете. Автору, видимо, неведомо, что еще Чуров и соавторы в своей знаменитой статье писали о необходимости разделять большие городские участки и маленькие сельские, поскольку в сельских голосование более консервативное. Но не суть.

Теперь делается вот какая штука: для каждого размера берется максимум распределения (что распределения сильно асимметричные, т.е. максимум не совпадает со свредним, автора не смущает) и строится как функция размера участка для всех партий:
116

Давайте посмотрим на синюю линию, которая нарисована для ЕР. Доля ЕР падает от 50% на маленьких участках (правда, на рис.114 показано где-то 52%, но не будем придираться) до где-то 27-29% на участках больших (напомню, что хвост распределения проигнорирован). А для КПРФ ситуация ровно обратная: от 10% до 20-26%. Замечательно, но где же озвученные проценты?

И вот тут авторы применяют такой трюк: поскольку уже установлено, что фальсифицируют все участки, и маленькие, и большие -- но маленькие очень много, а большие поменьше, то надо просто экстраполировать эту тенденцию на бесконечно большой участок. После чего рисуется сплошная линия подгонки - иногда степенной функции, иногда полиномиальной (автор не замарачивается объяснением не только выбора функции, но даже не дает параметров фита) - и в асимптотике получаем искомый результат. Кремль негодует, коммики аплодируют.

Претензий (методических, а не по сути) тут две:
1. Максимум распределения на рис.114 сильно отличается от среднего. Если взять среднее (или медиану), то результаты сильно изменятся. Ну и о такой мелочи, как интервалы доверия я даже и не заикаюсь.
2. Функции фита никак не обоснованы и с очевидностью неправильно описывают данные. Во всяком случаее, для ЕР вместо гиперболы надо было брать функцию ошибки или что-то подобное с двумя горизонтальными асимптотами. Обсуждение устойчивости фита тоже не помешало бы.

Ну а по сути: отбрасывание всех маленьких участков как полностью сфальсифицированных и экстраполяция на сферического коня в вакуме - это, простите, очевидный бред никак не обосновано.

Отдельно доставляет обсуждение доклада докторами и академиками с такими, например, высказываниями:

Идея предложенного подхода проста до гениальности: по закону больших чисел распределение предпочтений выстраивается в гауссову кривую, в идеале имеющую единственный пик. Наличие огромного количества точек (известны результаты выборов по 95 тыс. избирательных участков) позволяет корректно оперировать технологиями реализации закона больших чисел... Остается удивляться не только наглядности этих результатов, но и тому, почему ранее столь убедительная интерпретация официально зафиксированных данных никому не приходила в голову.

Эти люди вчера упали с Луны?

UPD Посмотрел на выходные данные: оказывается, pdf был создан 22 января 2013, а доклад был сдан в набор (какой набор? он еще существует?) 27 ноября 2012 года, Т.е. сам доклад имел место быть еще раньше. Интересно, почему он выплыл именно сейчас.

UPD2 В начале Сулашкин говорит, что доклад корреспондирует еще и с совершенно актуальными событиями сегодняшнего
дня — подписанием Закона о митингах
. То есть это начало июля 2012, 9 месяцев назад.

(33 comments | Leave a comment)

Comments
 
[User Picture]
From:naukarus
Date:March 15th, 2013 07:35 pm (UTC)
(Link)
Наверное этот пример может смело пойти в раздел "хорошей российской социологии" явившейся самостоятельно на свет божий, примеры плохой что ни день выуживают на дневную поверхность "блоггеры" африканбо и докт-з.
[User Picture]
From:oude_rus
Date:March 15th, 2013 07:44 pm (UTC)
(Link)
тут не поймешь, что хуже: то ли плагиаторы, то ли оргинальщики.
[User Picture]
From:tsirel
Date:March 15th, 2013 08:25 pm (UTC)
(Link)
Есть еще одна методическая претензия - см. итоговую табл. 3 на стр. 96 и формулу под ней. Автор забыл о том, что проценты отличаются от абсолютных значений, и в сумме при любой явке (и даже любой фальсификации) должно быть 100 %.
[User Picture]
From:oude_rus
Date:March 15th, 2013 11:36 pm (UTC)
(Link)
20% пришлось на остальные партии!
[User Picture]
From:tsirel
Date:March 16th, 2013 08:51 am (UTC)
(Link)
Э, нет!
во-первых, судя по формуле под таблицей, 15% из 20% отводится на явку(!)
во-вторых, тогда бы четвертое место заняло бы Яблоко, а не ЛДПР. Вполне возможно, что так у него и получалось из-за экстраполяции наиболее оппозиционных городских округов на Россию, только автор предпочел заменить Яблоко явкой.
[User Picture]
From:vba_
Date:March 15th, 2013 09:47 pm (UTC)
(Link)
/И вот тут авторы применяют такой трюк: поскольку уже установлено, что фальсифицируют все участки, и маленькие, и большие, то надо экстраполировать тенденцию на бесконечно большой участок./

Погоди, даже из их картинок следует, что маленькие фальсифицируют больше, чем большие. В том-то и фишка, что авторы хотят экстраполировать (с функцией фита там хрень, да) на бесконечно большой участок; из самого такого подхода следует, что большие участки ближе к истине, чем маленькие.

Меня очень порадовали в легенде к рисунку 116 слова "Оппозиционные партии".
[User Picture]
From:oude_rus
Date:March 15th, 2013 09:57 pm (UTC)
(Link)
из какой именно картинки это следует? просто из того факта, что участок маленький, не следует per se наличие фальсификаций, причем близких к 100%.

я-то имел в виду, что автора не устраивают даже большие участки, потому что недостаточно кошерно.

а радует там многое, это да -- в том числе, как они "гаусс" рисуют.
[User Picture]
From:vba_
Date:March 15th, 2013 10:11 pm (UTC)
(Link)
Я хочу сказать, что экстраполяция на рис. 116 делается именно потому, что авторы полагают большие участки более "честными". Поэтому нельзя говорить, что авторы считают большие и маленькие участки одинаково фальсифицированными.
[User Picture]
From:corbulon
Date:March 16th, 2013 11:05 am (UTC)
(Link)
Вам надо с подмосковником садиться и писать сурьезную статью в сурьезный журнал,
а не баклуши бить, а то ишь...
[User Picture]
From:kostomarov
Date:March 16th, 2013 12:40 pm (UTC)
(Link)
Поди разберись, кто наивнее. Особенно интересно, что пресса напрочь проигнорировала самого депутата Сулакшина, пытаясь посадить в калошу Якунина.

Интересно также, что Сулакшин, который озвучивает мнение военки и спецслужб, вообще высунулся. Значит, кто-то где-то сильно недоволен ЕдРом. Вероятно, отставные вояки.

[User Picture]
From:sergeima
Date:March 16th, 2013 07:43 pm (UTC)

Сенатор все правильно говорит

(Link)
"...здесь могут быть определенные неточности при использовании различных математических формул"

перлы отсюда - http://newsru.com/russia/14mar2013/doklad.html

А если взглянуть на контекст по-шире, то что же мы имеем? Отклонениями от Гаусса, как выясняется, можно обосновать все, хоть победу КПРФ на выборах. Для широкой публики этот слив - еще одна методика коррекции не-гауссинного результата. Теперь уже есть три отечественных коррекции, по возрастанию - kobak, podmoskovnik и эти ребята при РЖД (см. уточнение в UPD ниже). И заграница помогает как может, там уже довольно большой список.

Значит, чисто методически, надо обосновывать не только применимость коррекции вообще, но и правильность своей коррекции в ряду иных-прочих, неправильных. В том числе и дилетантских. Приходится заключить, что слив этот - спойлерство чистой воды, довольно технично выполненное. В том смысле, что ваши корректные математические аргументы поймут немногие, а осадок останется широкий - вон наукообразной математикой все можно доказать. Короче, не то он украл, не то у него - но история скандальная.

Мое скромное мнение - выборы в целом достоверно нельзя откорректировать статистикой а posteriori, но статистика может помочь поймать за руку в конкретных случаях. Примеры этого - алогичные недействительные, безумные "созвездия" в 2-D облаке точек "результат-явка", красивые проценты , наконец - но тут у меня ясности полной так и нет (м.б. потому что я в танке. )

Пользуясь случаем, что вы опять вернулись к этой теме, я хотел в декабре-январе задать один вопрос, но паршивый спутниковый интернет его потерял - я был на Кюрaсао тогда, практически под одним флагом мы выступали. Вопрос был такой - как известно на красивых процентах есть пики, как на зависимости голосов от явки, так и на зависимости голосов от результата победителя выборов. А вот на какой зависимости голосов под пиками больше - "явка" или "результат"?

Если голосов физически больше на "результате" - вопрос с высокой вероятностью закрыт, пики рукотворные и иными быть логически не могут. На "явке" мы видим отголоски этой рукотворности из-за корреляционных эффектов, другое объяснение предложить трудно.

Если же голосов больше на "явке", то возможна и такая трактовка, что на местах тянули явку для красивого доклада, "мобилизуя электорат" - в чем криминала нет, явка известна в любой момент выборов на законных основаниях - а поскольку аполитичные хвосты распределения голосуют в массе за партию власти, a.k.a. "победитель выборов", они и создали соответствующие пики не только на явке, но и на кривой результата этого победителя. Слабые или на уровне шумов пики других партий на "явке" эту гипотезу по крайней мере логически подтверждают.

Так чего больше, каких голосов, на "явке" или на "результате"? Если это уже обсуждалось - прошу прощения, проглядел - дайте, пожалуйста, ссылку.

(Имело бы смысл сравнить по каждому красивому пику, включая методологически спорные 100%-е по явке участки. Суммирование же может смазать картину из-за этих доминирующих на красивых пиках 100%-ах, где сидит немалая доля самых обычных голосов )

UPD. Я прочел ваш препринт в тройном соавторстве. Там фигурирует общая оценка количества голосов, "связанных с корреляционными особенностями распределения" (associated with the turnout-UR correlation). Что означает, видимо, авторский консенсус на позициях, первоначально сформулированных kobak, как я понимаю, и отход других авторов от более ранних оценок
[User Picture]
From:oude_rus
Date:March 16th, 2013 08:14 pm (UTC)

Re: Сенатор все правильно говорит

(Link)
про пики у меня в декабре был большой пост, по всем выборам, с фурье-преобразованиями (оказалось, что пики есть и на целых процентах) и выделением голосов под пиками. Исторически, началось все с пиков на явке, а потом они переехали и на голоса за кандидата. Так что "где больше" зависит от года.

коррекция Димы Кобака -- это тот же подмосковник, но с разделением на субъекты и город/село, что в принципе устраняет корреляцию из-за неоднородностей страны. Понятно, что так и надо было делать с самого начала, но это требовало серьезного формализирования. В итоге оказалось, что такая коррекция дает не очень значительное расхождение с первоначальным результатом.

то, что предложено у Сулакшина-- это независимый и, с моей точки зрения, совершенно необоснованный метод. В нашей статье он будет примерно соответствовать рис.S1A, (неправильно) экстраполированному на "бесконечно большой УИК".
[User Picture]
From:sergeima
Date:March 16th, 2013 09:10 pm (UTC)

Re: Сенатор все правильно говорит

(Link)
"где больше" зависит от года

Ну самые последние выборы было бы актуальнее. Если есть готовая цифра - было бы весьма интересно. То что я видел в декабе - была сумма, включая 100%. А 100% - это и красивый процент и вполне себе законная явка на спецучастаках с обычным голосованием. Ее включение просто гробит этот логический тест, который я описал

коррекция Димы Кобака -- это тот же подмосковник

Я следил за событиями и помню последовательность. Первоначально подмосковник жестко оппонировал Чурову и др., не соглашаясь с разделением город-село, а требуя чистого Гаусса в масштабе страны. На мой взгляд, в его случае произошло не количественное уточнение (там вроде 3М голосов разница , если помню), а, если хотите, политическое решение на изменение фундаментального подхода

я совершенно согласен с тем, что РЖД лажанулось, но дело совершенно не в этом
[User Picture]
From:nonenoun
Date:March 16th, 2013 10:48 pm (UTC)
(Link)
> Мое скромное мнение - выборы в целом достоверно нельзя откорректировать статистикой а posteriori

Можно, но не такими примитивными методами как в докладе Сулакшина. Есть отличное исследование podmoskovnik'а по КОИБам (где идёт сравнение с соседними участками без КОИБов), есть исследование СКО barouh'a (где анализируется СКО в городах и корреляция ЕР-ЛДПР). Но самое главное - это подключение статистики за прошлые годы и установление причинно-следственных связей. Например, в 2011 явка в Москве была крайне далека от Гаусса, а в 2000 и 2012 - почти идеальный Гаусс. Если сопоставить это с отчётами наблюдателей, то картина получается цельной.
[User Picture]
From:oude_rus
Date:March 16th, 2013 11:12 pm (UTC)
(Link)
эта чегой-то вы мой любимый наклон называете примитивным методом?

Я сделал прикидку по методу Сулакшина, только считал голоса, а не участки. Вот что получилось:
qqq
qqq1

(Если хотите, можете продолжить: вам это запросто, а я уже устал вручную файл дробить.)

Понятно, что асимптота здесь на 29%, а ни разу не на 22%, но вот что интересно. Вроде как "большие" участки - в основном городские, и распределение голосов должно быть если не гауссовым, то вменяемым -- но уж никак не таким, как показано на графиках. Почему так, если не прибегать к слову на букву "ф"?
Powered by LiveJournal.com