?

Log in

No account? Create an account
ВременнЫе диаграммы - Maxim Pshenichnikov
September 9th, 2013
03:59 pm

[Link]

Previous Entry Share Next Entry
ВременнЫе диаграммы
Я вообще люблю всякие динамические процессы, а тут anderson_mike предложил посмотреть на динамики процентов кандидатов -- т.е. как они менялись по времени обнародования данных на официальном сайте ЦИК. shipilev сделал отличную бродилку, которая собирала данные с сайта ЦИК и представляла их в форме удобоваримых таблиц (за что ему огромное спасибо). Вот тут представлены результаты эксперимента  anderson_mike в качестве таблицы; я же их просто визуализую. Сразу предупрежу, что пунктирные линии - это не более чем для обозначения соответствия точек; никаких изменений вдоль линий не происходило.
dynamics
По горизонтальной оси - время от закрытия участков. Как видно, первое обновление с 3.5% голосов прошло уже через 2.5 часа, и именно из этих данных появилась явка в 35%, собянинский результат в 56%, и навальновский в 23%. Еще через 2.5 часа последовало следующее обновление, где учитывались 32% голосов и явка уже стала 32.4%, Собянин набрал 52.7%, а Навальный - 26.2%. Это вполне объяснимо, поскольку первыми отрапортовались всякие полузакрытые учреждения, которые традиционно голосуют за власть. Следующее обновление следует через 2 часа, учитывает 70% голосов и изменяет результаты кандидатов на 1% в те же стороны.

А потом следует пауза на 8 часов, после которой публикуются официальные данные, которые меняют результаты на какие-то вшивые две десятых процента.

Интересно, зачем была нужна эта пауза, и что в ее течении происходило.

Понятно, что вы мне сейчас скажете, что по мере увеличения выборки среднее стремится в его истинному значению, и, понятно, что я соглашусь, что именно так и должно быть. Вот только стремится-то оно не случайным, а вполне закономерным образом. Мой опыт работы с молекулярными системами говорит мне, что должен быть систематический процесс, который изменяет среднее по мере накопления статистики. Что будет аналогом подобного процесса в этом случае? Начальное сильно-нерепрезентативное отклонение?

Ну и в качестве бонуса -- те же данные, только вид сбоку: результат кандидатов как функция от доли посчитанных голосов:
dynamics1

UPD Прозорливый barouh предложил, а любезный
shipilev посчитал разницу между результатами дампов данных, т.е. какой именно результат получен в выборке с, например, 5:00 до 6:30. Таким образом, удалось избавится от эффекта памяти, т.е. когда предыдущая (особенно первая) точка влияет на последующие результаты. Новые точки показаны открытыми кружочками, и таки да, я готов, наверное, согласиться, что разброс точек вокруг среднего значения более-менее случаен (точнее, я не возьмусь доказать, что отклонения выпадают из случайного тренда за исключением первой точки, которую уже обсудили).

Но тут возникает вот какой забавный сценарий. Посмотрите на Собянинские результаты с точки зрения избиркома: за четыре первых же часа каждые 10% посчитанных данных понижают результат Собянина на 1%! И таким жизнерадостным образом тренд доезжает до 50.3%, а впереди еще 35% необработанных данных, т.е. верных минус 3%. На горизонте уже маячат 47% за Собянина... вот чтоб бы сделали в такой ситуации? правильно, приостановили бы разглашение новых данных, пока сами не убедитесь в переломе тренда. Даже наплевав на все обещания сообщить результаты уже в день выборов. Страшно же!

Не, anderson_mike - это голова. Не догнали, так хоть согрелись!

UPD2 По просьбе afrikanbo (который "диссеррубка") добавил остальных кандидатов. Ну, у них первая же выборка попала в цель, что говорит о том, что они никому неинтересны ... а о чем это говорит?

(86 comments | Leave a comment)

Comments
 
[User Picture]
From:nonenoun
Date:September 9th, 2013 02:10 pm (UTC)
(Link)
> Интересно, зачем была нужна эта пауза, и что в ее течении происходило.
Оценивали, не будет ли меньше 50%, если ввести оставшиеся данные :) Они использовали стандартную схему - вводили ТИКи с наивысшим результатом Собянина и смотрели, что из этого получается. Возня в УИКах и ТИКах была достаточно активной - но судя по отсутствию сообщений о переписывании, к криминалу прибегать не пришлось. Хотя, они могли вычислить, где есть наблюдатели от Навального (по SMS-ЦИК) и сфальсифицировать на оставшихся участках, но это уж слишком сложно.
[User Picture]
From:davnym_davno
Date:September 10th, 2013 04:27 am (UTC)
(Link)
Почему сложно? Из 3600 участков SMS-ЦИК получил потоколы чуть более с 3000, так что поле для деятельности было. Характерный пример: в Арбатском районе 9 участков, на 8-ми результаты весьма сходные, на 9-м - аномальные. Причем, согласно протоколам, именно этот участок является единственным, УИК которого получил перед голосованием бюллетеней больше, чем был избирателей в списках, по памяти, там 1600 человек в списках, а бюллетеней получено 1900.
(Suspicious comment)
[User Picture]
From:naukarus
Date:September 9th, 2013 02:10 pm (UTC)
(Link)
и что это нам говорит?
[User Picture]
From:oude_rus
Date:September 9th, 2013 02:31 pm (UTC)
(Link)
именно это я и хочу знать.
[User Picture]
From:muh2
Date:September 9th, 2013 02:24 pm (UTC)
(Link)
Безотносительно к предмету. Что значит - стремится закономерным способом? Случайным, но окрашенным в краснеющие со временем тона?
[User Picture]
From:oude_rus
Date:September 9th, 2013 02:31 pm (UTC)
(Link)
при увеличении выборки среднее флуктуирует вокруг истинного значения случайным образом -- иногда оно повыше, иногда - пониже. А когда оно всегда повыше или пониже -- это уже закономерность.
[User Picture]
From:shipilev
Date:September 9th, 2013 03:11 pm (UTC)
(Link)
Да, и кстати, эти линии на графиках -- они misleading, ибо намекают на равномерность процесса. Реально же данные менялись скачкообразно, я для того и показывал временные интервалы, в которых они произошли. Лучше умудриться это кусочно-постоянной функцией показать. Это, конечно, не так красиво, но больше отражает Суть (tm). А то ведь сейчас набегут и расскажут, что все восемь часов в ЦИКе аккуратно подгоняли данные, вот же видно на плавном графике.
[User Picture]
From:naukarus
Date:September 9th, 2013 03:16 pm (UTC)
(Link)
это не противоречит плавной подгонке. долго подгоняли, а потом вбросили по достижению нужного результата зараз.
From:gomberg
Date:September 9th, 2013 03:38 pm (UTC)
(Link)
Тут надо думать про механику процесса. Объяснение может быть вполне невинным - а может и не быть.

Мой любимый пример - Мексика (естественно) 2006ого года (когда в итоге, разница между двумя лидерами была ок. полупроцента от общего числа голосов). Тут надо учесть, что в Мексике проводится два публичных подсчета: неофициальный, в ночь выборов, когда считают участки и результаты этого подсчета публикуются на специальных сайтах (с кучей зеркал во всех газетах). Там считают не совсем до конца - какие-то акты в ночь выборов куда надо не доходят, или регистрируются с ошибками и т.п. Но где-то 97% актов или даже больше, в ночь выборов уже опубликованы - но это подсчет неофициальный. А официальный подсчет актов производится через несколько дней, когда в "ТИКах" вскрывают запечатаные в ночь выборов пакеты, в каждом из которых урна и копия акта (по идее, идентичная той, которую публиковали в ночь выборов) и фиксируют официальный результат (по мотивированым требованиям представителей партий может быть проведен пересчет и содержимого урны). Это бэкграунд.

Так вот, в ночь выборов 2006ого года, кандидат "правых" неплохо лидировал с самого начала, и всю ночь его лидерство таяло и таяло, пока к концу подсчета там не осталось заметно менее одного процента. Поскольку это было слишком мало, чтобы по неполным данным объявлять победителя,"ЦИК" заявил, что официальная декларация будет только после официального подсчета. В день официального подсчета, с самого начала лидировал кандидат "левых", и теперь уже монотонно таяло его лидерство, пока в самые последние 2 часа оно не сменилось отставанием, которое в итоге составило чуть более 0.5% (почти идентично первому подсчету, с поправкой на то, что сколько-то участков были подсчитаны только в этот раз).

Многие сторонники проигравшего кандидата искали мрачный смысл в этой монотонности динамики обоих подсчетов. Хотя, на мой взгляд, оно все было вполне очевидно-невинно. "Правые" были сильней на более образованом севере и в крупных городах (кроме столицы), а "левые" - в столице, мелких городах, и на малообразованом юге. Т.е., если не считать столицы, правые были сильней в таких местах, где и считали, в среднем, быстрей, и ошибок делали меньше - а глубинка догоняла уже потом. Напротив, в день официального подсчета представители "левых" отчаянно оспаривали каждую урну в "правых" округах (они ведь уже знали, что отстают, и что, если не будут найдены большие нарушения там, где они слабы, то они проиграли). Когда за пару часов до конца подсчета их кандидат еще чуть-чуть опережал соперника, то все равно было понятно, что он проиграет - просто исходя из того, где, собственно говоря, оставались неподсчитаные урны (чуть не две трети из них, если я сейчас правильно помню, были в самом "правом" штате страны).

В данном случае, я бы проверил теорию, что изначально было отрапортовано много сравнительно небольших участков в местах, где у властей все хорошо. Те же воинские части, маленькие деревни в Новой Москве и проч. Это могло задать изначально хороший резултат - относительно невинно и неспланировано.

Возможно, конечно, например и то, что в среднем быстрее всего были отрапортованы участки, где было самое слабое представительство наблюдателей - где некому было протестовать против того, чтобы все сделать быстро. Это намного опасней, т.к. в таких местах и намухлевать было много проще.

Обе теории, надо полагать, проверяемы напрямую?

Edited at 2013-09-09 03:41 pm (UTC)
[User Picture]
From:oude_rus
Date:September 9th, 2013 03:46 pm (UTC)
(Link)
по п1 я же написал, что именно так дело и обстояло.
по п2 - не знаю.
[User Picture]
From:afrikanbo
Date:September 9th, 2013 05:57 pm (UTC)
(Link)
Для даловерующих хорошо бы проиллюстрировать такой же картинкой для каких-нибудь Левичевых-Митрохиных. Там ожидается, что сходимость будет следовать естественному статистическому закону, в пику тому, что делают с данными ССС-А.Н.
[User Picture]
From:oude_rus
Date:September 9th, 2013 08:04 pm (UTC)
(Link)
сделал.
[User Picture]
From:Евгений Овчаренко
Date:September 9th, 2013 06:03 pm (UTC)
(Link)
Комментарий от свидетеля.

Полночи провел на участке 1590 в кузьминках и рязанском ТИКе.

Данные этого участка ввели только утром в 9, после ручного пересчета, хотя участок был с КОИБом. Получив распечатку с КОИБа председатель просто убежала, урны вскрыли, бюллетени унесли, ПРГ без одежды вытолкали на улицу.

Вся канитель продолжалась до утрас участием доверенных лиц Навального, Яблока и даже собянина.
Пересчитали - получилось что-то около итоговых...

У меня такое видение: результаты по мере поступления в ТИТи вносились, если у собянина было больше 50%.
Все что было меньше, особенно там где было сильно меньше или не было наблюдателей придерживалось. Потом, когда общая картина примерно сложилась было принято решение скорректировать результаты на 2-3% на некоторых участках.

[User Picture]
From:oude_rus
Date:September 9th, 2013 07:23 pm (UTC)
(Link)
разумно. а какой у вас был результат?
[User Picture]
From:nonenoun
Date:September 9th, 2013 06:35 pm (UTC)
(Link)
А что если убрать начальную точку? Насколько большой вклад вносят самые первые участки? Можно также посчитать не интегральную кривую, а дифференциальную.
[User Picture]
From:oude_rus
Date:September 9th, 2013 07:24 pm (UTC)
(Link)
уже сделано, barouh предложил (в другом месте).
[User Picture]
From:putnik
Date:September 10th, 2013 10:32 am (UTC)
(Link)
Данные на мониторе в ЦИКе обновлялись очень часто, иногда даже раз в 10—15 минут.
Если у кого-то они все сохранились, можно получить куда более интересную статистику. Но даже если не все, то часть можно вытащить из репортажей телеканалов (как миним, Дождь показывал экран).
[User Picture]
From:01petr
Date:September 10th, 2013 05:17 pm (UTC)
(Link)
как узнать какой участок поступил? уравнения считать?
Powered by LiveJournal.com