?

Log in

No account? Create an account
Борис Овчинников про электоральную статистику - Maxim Pshenichnikov
March 28th, 2018
06:54 pm

[Link]

Previous Entry Share Next Entry
Борис Овчинников про электоральную статистику
Борис Очинников написал важный текст про электоральную статистику. К сожалению, текст помещен на площадку для школоты (copyright мой), где он всенепременно канет в вечность -- а жаль.
К слову, Борис Овчинников бесконечно милостив, поскольку написал этот текст как ответ на пост, который содержал причудливую смесь хамства, невежества и демагогии, и который, с моей точки зрения, не заслуживал никакого другого ответа, кроме троллинга (увы, я не настолько милостив, как Борис -- страшно ему завидую).

Вот он, текст:

1. "Требовать" от избирательных участков нормального распределения в строгом смысле действительно нельзя. Слова "Гаусс" и "нормальное распределение" могут звучать лишь как указание на распределение, ПОДОБИЕ которого можно ожидать. Если говорить аккуратно, то речь идет о колоколообразных распределениях - которые могут быть существенно шире и с менее острыми вершинами, чем нормальное распределение, но при этом все равно остаются симметричными (или точнее "лог-симметричными").

2. Колоколообразное распределение имеет вполне понятное теоретическое обоснование. Результат выборов на типичном участке определяется суммой индивидуальных выборов 2000-2500 избирателей, а каждый индивидуальный выбор в свою очередь определяется сотнями факторов (от семьи и воспитания до того, что слышал от соседей в лифте и нашел ли в квартире паспорт, собираясь на участок). Какие-то из этих факторов являются "универсальными" (общими для всей страны или для всего города) - но при этом сила влияния у такого фактора на каждом участке своя. Какие-то факторы атерриториальны - влияют только на некоторых людей, которые разбросаны по всему городу. Какие-то факторы локальны - действуют только в определенном районе, квартале, доме или даже подъезде. Какие-то факторы индивидуальны для человека или семьи. Для суммы воздействий всех этих факторов куда выше вероятность, что она будет близка к нулю, чем что она будет давать большое отклонение участка от среднего. Тем более что многие электорально значимые переменные (например, доля людей с высшим образованием, средний возраст и т.д.) сами по себе имеют территориальное распределение, приближенное к нормальному

3. Да, могут быть и сильные отклонения. Например, негритянские кварталы в американских городах, поселения ортодоксальных евреев (или, наоборот, арабов) в Израиле. В России относительно сильные отклонения могут создаваться за счет явной специфики электората (студенческие общежития или участки, к которым приписаны военные части) или за счет локальной популярности отдельных политиков (примеры - успех Грудинина в своем совхозе и в ближайших к совхозу частях Москвы и области, высокие результаты Яблока на родине лидера его пермского отделения или в Гагаринском районе в квартале, где проживает Елена Русакова). Но при этом и теория, и эмпирика говорят нам, что такие отклонения должны удовлетворять трем условиям: (а) они должны быть устойчивы во времени, повторяться из раза в раз (если они конечно не были связаны с участием в выборах конкретного кандидата); (б) они должны быть географически "логичными" - поскольку воздействие различных факторов обычно не привязано к границам избирательных участков, то если на участке Х мы видим сильное отклонение от "нормы", тогда и на соседних участках мы должны увидеть аналогичное отклонение, пусть и не столь явно выраженное; (в) они должны иметь понятное объяснение - фактор, который влияет на поведение существенной части избирателей компактной территории, не может оставаться незамеченным. В вышеприведенных примерах эти требования выполняются. Для большинства российских "аномалий" они не выполняются.

4. Это заблуждение, что оценка Шпилькина построена на отклонении от "колокола". Оценка Шпилькина основана на сравнении распределений по шкале явки двух величин - (а) голосов "за власть" и (б) голосов "за оппозицию". В одних регионах формы этих двух распределений совпадают друг с другом на всем протяжении шкалы (и на низких, и на высоких явках), т.е. при любой явке доля голосов "за власть" примерно одинаковая, в других же регионах два распределения совпадают только в левой части шкалы или не совпадают вовсе. И при этом там, где формы двух распределений совпадают, они обычно выглядят именно как колокол (можно это конечно считать это просто совпадением :) )
(Sergey Shpilkin меня поправит и дополнит, если я где-то неточен в пересказе)

5. Сама по себе часто встречающаяся в России ситуация, когда на низких и средних (типичных) уровнях явки нет никакой зависимости между явкой и результатом победителя, а на явках, выбивающихся из "колокола", такая зависимость вдруг проявляется (и проявляется очень сильно), выглядит странно - но доказательством фальсификаций еще не является. Вдруг действительно есть территории, где власти умеют мобилизовывать даже те слои избирателей, которые в других регионах не голосуют, и которые если уж мобилизуются, то поголовно голосуют за власть. Однако подобный феномен (корреляция результата лидера от явки при высоких уровнях явки) "почему-то" крайне неустойчив - он заметно проявился в России только с 2003-2004 годов, он ярко проявляется в одних регионах и вообще не виден в соседних, наконец, даже внутри одного региона подобная зависимость то возникает, то исчезает. В качестве примеров можно назвать резкое восстановление "колоколообразности" в Москве в 2012 г, в Республике Коми в 2016-м, в Тульской области в 2018-м. Если бы феномен "верхнего правого угла" (кластер участков с высокой явкой и высокой поддержкой власти) имел естественную природу, то у него была бы стабильная и внятная география.

6. Списки регионов, которые выглядят "подозрительными" исходя из методики Шпилькина, хорошо коррелируют с другими сигналами о фальсификациях - например, сообщениями наблюдателей, аномальной частотой круглых цифр и круглых процентов в результатах выборов, разницей в результатах между участками с КОИБами и без КОИБов и так далее. Да и общая оценка объема фальсификаций "по Шпилькину" согласуется с оценкой, которая получается по альтернативному "методу Мятлева", основанному на анализе оотношения количества голосов "за власть" и недействительных голосов. Иными словами, данная методика дает результаты, которые не противоречит другим источникам знаний о масштабах и географии фальсификаций.

7. Вообще полезно разделять два вопроса - были ли масштабные фальсификации и если они были, то каков примерный масштаб этих фальсификаций. Метод Шпилькина не отвечает на первый вопрос - он всего лишь предлагает вариант оценки масштаба явления. И здесь вопрос - что именно вы оспариваете. Если вы спорите с самим фактом массовых (исчисляемых минимум сотнями тысяч голосов) фальсификаций - то тогда нет смысла спорить со Шпилькиным, потому что фальсификации доказываются другими методами и другими источникам. Если спорите с фактом массовых фальсификаций, тогда надо объяснять феномены пиков на "круглых" процентах (и нет, эти пики не объясняются эффектами целочисленного деления) и повышенной частоты ноликов на конце чисел в протоколах, надо объяснять корреляцию результатов голосования с наличием или отсутствием КОИБов (а теперь выясняется, что и с наличием видеонаблюдения), надо объяснять аномальные совпадения результатов на разных участках вроде 62,2% в Саратове-2016, надо объяснять обнаруживаемые на множестве участков расхождения между официальным количеством проголосовавших и количество проголосовавших, наблюдаемых по записям с видеокамер (например, для Казани-2016 такое расхождение обнаружено более чем на 100 участках - примерно для 60-70% от всех отсмотренных записей). Если же факт массовых фальсификаций признаете, то тогда да, уместно обсуждать, какие методики лучше подходят для оценки масштаба и географии явления.

8. Совпадение результатов экзит-полла (ФОМа -- МП) и результатов выборов - слабый аргумент. Я бы даже сказал - опасный (потому что самое точное попадание у экзит-поллов в Казахстане, где при этом результаты выборов просто нарисованы). Достаточно посмотреть на то, какая доля избирателей отказывается отвечать на вопросы интервьюеров, чтобы согласиться с тем, что точность экзит-полла отчасти случайна. А если учесть, что в официальных результатов выборов точно есть определенная доля фальсификата (вопрос только, какова эта доля), то получается, что результаты экзит-полла и не должны были совпадать с официальными результатами голосования.

9. Последнее и самое жесткое. Вы сокрушаетесь, что Шпилькину верят больше, чем тысяче интервьюеров (ФОМа -- МП). Оставим за скобками вопрос, насколько вообще опросные методики могут применяться для оценки уровня фальсификаций. Вспомним другое. Шпилькин никогда не был замечен в утаивании и сокрытии неудобных для него данных. А ФОМ - к сожалению был. В 2011 году, когда сначала результаты экзит-полла были опубликованы с выделением Москвы, а потом эти данные были спрятаны, поскольку подтверждали оценку о почти двухкратном искусственном завышении рейтинга ЕР в Москве. Так что в сложившемся балансе доверия во многом виноват сам ФОМ.

(39 comments | Leave a comment)

Comments
 
[User Picture]
From:golos_dobra
Date:March 28th, 2018 06:26 pm (UTC)
(Link)
Если бы “вы" с самого начала четко отделили “эффект Пшеничникова” в виде целочисленных пичков, который трудно оспорить,
от шабаша с сотнями миллионов голосов, потерянных гауссом, всем бы полезнее было.

И таки нет, тысячу раз нет, - "любая электоральная статистика” с оценками погрешности тупым применением физико-биологических методов статистики без учета страшной силы пространственной корреляции является абсолютной чепухой, это вам любой профессиональный специалист по эконометрике подтвердит. Это не значит, что эффекта нет, это значит что оценка ВОЗМОЖНОЙ ПОГРЕШНОСТИ заведомо занижена.
[User Picture]
From:vit_r
Date:March 28th, 2018 07:10 pm (UTC)
(Link)
Если правду говорят, что УИКи боятся шайтан-машины, то можно считать, что есть две выборки: правдоподобная и сомнительная.
[User Picture]
From:golos_dobra
Date:March 28th, 2018 09:04 pm (UTC)
(Link)
Селюки и городские, как вы очевидно знаете мою модель на этот счет.
[User Picture]
From:nonenoun
Date:March 28th, 2018 08:34 pm (UTC)
(Link)
> от шабаша с сотнями миллионов голосов, потерянных гауссом

Опять откуда-то взялся Гаусс. Хотя оценка Шпилькина не основана на распределении Гаусса.

Однако при всём при этом, распределение явки в Москве стало гауссовым после шабаша (реального) на выборах в 2011 году.

Есть другой метод оценки фальсификаций - выкидывание заведомо мусорных результатов (сюда попадёт большинство результатов на Северном Кавказе). Вот что делать с результатами, как в Кабардино-Балкарии, где 100% результатов нарисованы? Здесь, конечно, оценка Шпилькина не имеет смысла.
https://kireev.livejournal.com/1459257.html?thread=35893817#t35893817

Рассмотрение результатов только на КОИБ относится к этому же методу.
[User Picture]
From:golos_dobra
Date:March 28th, 2018 09:30 pm (UTC)
(Link)
То есть как откуда?
Может у меня ложная память о митингующих с плакатами гауссиан от Шпилькина?

Хорошо хоть наконец перестали говорить о нормальном распределении, что вообще БЫЛО чудовищно, хотя бы добавили лог приставкой, уже лучше стало.

Осталось только с явной бимодальностью распределения разобраться как следует чтобы квалифицировано масштабы “избирательной разницы” оценить.

http://www.pnas.org/content/pnas/suppl/2012/09/21/1210722109.DCSupplemental/pnas.201210722SI.pdf

It becomes apparent that the largest deviations from normality are not observed for Russia and Uganda but for turnout in Poland and Spain.

Ну и? Вот об этом, хотя бы, можно сказать научном, факте все сотни тысяч на шабаше в фейсбуках осведомлены тем же Шпилькиным?
[User Picture]
From:seyachaspomru
Date:March 28th, 2018 10:07 pm (UTC)
(Link)
Гы, красивые результаты у них в Кабардино-Балкарии

http://www.kabardin-balkar.vybory.izbirkom.ru/region/region/kabardin-balkar?action=show&tvd=100100084849073&vrn=100100084849062®ion=7&global=1&sub_region=7&prver=0&pronetvd=null&vibid=2072000393413&type=227

на сорок тысяч проголосовавших нет ни одного испорченного бюллетеня.
[User Picture]
From:in_kant
Date:March 29th, 2018 08:54 pm (UTC)
(Link)
Потому что целочисленные пички и корреляции распределения явки/результата - это признаки двух совершенно разных типов массовых фальсификаций.
Вообще сейчас механизма массовых фальсификаций на уровне УИКов всего три.

1 - при подсчете голосов тупо перекладывать часть бюллетеней из стопки "неправильного" кандидата в стопку "правильного". Судя по некоторым косвенным признакам, применяется редко и не дает внятного статистического следа.

2 - вбрасывание бюллетеней тех, кто не пришел на голосование, в пользу правильного кандидата. Судя по всему, один из самых распространенных типов фальсификаций. Статистически должен давать ту самую "аномалию Шпилькина" (корреляция явки/голосов за власть, несовпадение и асимметричность "колоколов" на высокой явке).

3 - тупо заполнение протокола нужными цифрами из головы, когда реальный бюллетени вообще никак не учитываются. Из-за не особо большого ума исполнителей дает те самые пики на круглых процентах aka "гребенка Чурова".

Последний пункт особо интересен. Хотя Овчинников и декларирует что статистические аномалии сами по себе не доказывают массовых фальсификаций, как раз гребенка Чурова, ИМХО, доказывает. Но использовать только её для оценки масштаба фальсификаций нельзя, потому что она показывает только один из видов фальсификаций.
[User Picture]
From:golos_dobra
Date:March 29th, 2018 09:43 pm (UTC)
(Link)
Да, насчет последнего пункта нет разногласий, только лучше бы переименовать в “эффект Пшеничникова”, потому что Чурова уже нет и незачем его память в веках хранить.
[User Picture]
From:seyachaspomru
Date:March 28th, 2018 09:59 pm (UTC)
(Link)
Любые фальсификации осмысленны только если имеют большой масштаб или даже тотальный охват, в противном случае они тонут в массе которую создаёт страна в целом и почти никак не влияют на итоговые проценты.
[User Picture]
From:oude_rus
Date:March 30th, 2018 11:36 am (UTC)
(Link)
расскажите это панфиловой.
[User Picture]
From:seyachaspomru
Date:March 30th, 2018 11:49 am (UTC)
(Link)
Тем не менее есть фальсификации и неосмысленные ( seyachaspomru.livejournal.com/155859.html ), которые на итоговой результат выборов ну ни как не вляют, но люди ими всё равно занимаются.
[User Picture]
From:in_kant
Date:March 30th, 2018 01:35 pm (UTC)
(Link)
Это смотря для кого. Чтобы Путину выиграть выборы, эти фальсификации очевидно бессмысленны.
Чтобы Путину получить больше 50% голосов всех избирателей (х/з зачем, может, чтобы объявить себя в будущем вождем народа) - осмысленны.

Чтобы председатель УИКа получил похвалу от своего начальника за то, что обеспечил рекордную явку по району - полностью осмысленны.
[User Picture]
From:doctor_notes
Date:March 28th, 2018 10:46 pm (UTC)
(Link)
Весьма внятно, респект.
[User Picture]
From:irbis_s
Date:March 30th, 2018 10:22 am (UTC)
(Link)
Хорошая статья, спасибо за извлечение.
[User Picture]
From:oude_rus
Date:March 30th, 2018 11:36 am (UTC)
(Link)
это Борису спасибо за написание.
Powered by LiveJournal.com