?

Log in

No account? Create an account
Немного тестируемости (исключительно для фриков) - Maxim Pshenichnikov — LiveJournal
December 7th, 2011
12:21 pm

[Link]

Previous Entry Share Next Entry
Немного тестируемости (исключительно для фриков)
В комментариях было высказано предположение, что пики на 5-кратных процентах могут быть связаны с квантанизацией человеков. Ну, мы все в детстве смеялись над двумя землекопами и две трети. То есть, если на участке голосует 20 человек, то любой исход будет обязан быть кратным 5. Я это проверил путемотсекания из статистики участков, где голосовало менее 100 человек, что дает дискретность в 1%.


Как видно, никакой существенно разницы нет.
А вот статистика по участкам, где глолосовало меньше 100 человек:


Такие же особенности, ничего нового. Кроме разве что порадовал провал до нуля на 49.5% -- счастье-то было так возможно, так близко. UPD Провал на 49.5% и пик на 50% получили объяснение в рамках деления ноль на ноль целых чисел.

Еще не удержался и нарисовал гауссианы -- это то, как ожидается при полной независимости отдельных избирателей. За исключение коеччего где-то порой, вполне разумные распределения. То есть на маленьких избирательных участках теория больших чисел вполне себе работает.

(18 comments | Leave a comment)

Comments
 
From:a_shen
Date:December 7th, 2011 11:27 am (UTC)

ожидание

(Link)
кратных пяти чисел в частном соответствует столь же необъяснимому ожиданию делителей 20 в знаменателе (а чем уж так они выделяются? почему не 21 или 24)? то есть это, imho, можно было бы и не проверять, а отвергнуть из чисто статистических соображений...
[User Picture]
From:podmoskovnik
Date:December 7th, 2011 05:33 pm (UTC)

Re: ожидание

(Link)
На самом деле некие особенности типа функции Римана на гистограмме большого набора случайных рациональных чисел с ограниченным знаменателем действительно должны быть, но в нашем случае они не такого размера.
From:a_shen
Date:December 7th, 2011 06:14 pm (UTC)

должны быть,

(Link)
но не именно на кратных пяти и десяти - это уж особенности десятичной системы, которые в неискажённых данных не должны проявляться
[User Picture]
From:podmoskovnik
Date:December 7th, 2011 07:04 pm (UTC)

Re: должны быть,

(Link)
Да, конечно.
[User Picture]
From:_winnie
Date:December 11th, 2011 07:45 pm (UTC)

Re: ожидание

(Link)
Пики (возможно, не такие большие) могут получится и при больших размерах участков, и при "естественной" гладком распределении голосов. То, что в решётке-гистограмме сто корзин, может усиливать пики на делителях 100.

Может, вы сможете прокомментировать здесь? http://users.livejournal.com/_winnie/327776.html?view=4324192#t4324192
[User Picture]
From:oude_rus
Date:December 11th, 2011 08:00 pm (UTC)

Re: ожидание

(Link)
все верно, только модель распределения голосов немного грубоватая.
я завтра напишу про это дело.
[User Picture]
From:kobak
Date:December 7th, 2011 11:29 am (UTC)
(Link)
Красиво было бы посчитать спектр -- должен быть явный пик на гармонике 5%. Интересно, достаточно ли данных для этого анализа в отдельных регионах: можно было бы посмотреть на размер этой гармоники по каждому региону.

И еще было бы любопытно проделать кластерный анализ на двумерных картинках по каждому региону по отдельности -- как Вы сделали для Москвы. На общем графике по стране никаких кластеров не видно, но это может быть потому, что "вторичные" кластеры разных регионов сливаются в общий "хвост". Было бы интересно посмотреть.

Я могу сделать и то, и другое, но, наверное, не раньше, чем завтра.
[User Picture]
From:oude_rus
Date:December 7th, 2011 11:39 am (UTC)
(Link)
разумеется, и на кратных частотах тоже. Только видно это так себе из-за большой компоненты на нулевой частоте.

На общей картине кластеров действительно нет. Частично это связано с различными паттернами кластеризациии -- например, я смотрел СП, так тоже 2 фокуса, но на одной явке. Но это огромная работа, а зачем все это делать, не очень понятно.
[User Picture]
From:kobak
Date:December 7th, 2011 11:56 am (UTC)
(Link)
А какая разница, что там на нулевой частоте? Не очень понял, но я попробую посчитать и посмотрю, что получается.

А про кластеры -- ну смотреть на 90 регионов по отдельности мне тоже неохота, но можно на каждую картинку напустить кластерный анализ и получить результаты автоматически. По крайней мере можно попытаться.
[User Picture]
From:oude_rus
Date:December 7th, 2011 01:23 pm (UTC)
(Link)
ну да, для этого нужны данные по отдельным регионам.
[User Picture]
From:zhul_knight
Date:December 7th, 2011 12:49 pm (UTC)
(Link)
Коллеги,

может имеет смысл упростить себе задачу?

Скажем, в качестве реперных выбрать регионы (буквально 2-3 по каждому пункту) где:

1) самые низкие показатели ЕР
2) самые высокие

Предполагаю, что в первом случае мы увидим вполне себе нормального Гаусса без подозрительных хвостов справа, а во втором что-нибудь похоже на сильное плато после пика на 50%
[User Picture]
From:kobak
Date:December 7th, 2011 12:53 pm (UTC)
(Link)
Не совсем так: в регионах с самым высоким процентом за ЕР УИКов с низкой явкой (и малым процентом за ЕР) просто нет вообще. То есть возможна интерпретация, что в этих регионах люди просто очень любят ходить на выборы и голосовать за ЕР, и статистически ее не отвергнуть. Именно поэтому очень важно делать анализ отдельно по регионам.
[User Picture]
From:oude_rus
Date:December 7th, 2011 01:24 pm (UTC)
(Link)
самые выскокие показатели ЕР известно где. Но там будет сплошная дельта-функция.
From:(Anonymous)
Date:December 7th, 2011 12:57 pm (UTC)
(Link)
99/200 на участке с <100 человек получить нереально.
нет рациональной дроби, которая туда округляется.
Должны быть еще всякие закономерности из той же оперы....

Интересно бы посмотреть на эти данные в неокругленном виде.

Sean.







[User Picture]
From:green_fr
Date:December 7th, 2011 01:40 pm (UTC)
(Link)
Шикарно, спасибо!
[User Picture]
From:alar563
Date:December 13th, 2011 06:51 am (UTC)
(Link)
Очень интересно.
Еще интересней посмотреть последний график для УИК с числом избирателей 100-500, 500-1000 и т.д.
[User Picture]
From:nik_vic
Date:December 19th, 2011 02:37 pm (UTC)
(Link)
Добавлю другой вариант. Все избиратели ЕР "раскидываются" по 10001 суммам - в сответствии с точностью ЦИКа, 0.01%. Вместо 1%-го бина берётся скользящее среднее по сотне членов.

14.50 КБ
[User Picture]
From:oude_rus
Date:December 19th, 2011 02:50 pm (UTC)
(Link)
тоже красиво.
замечу только, что я также ясно вижу пики на 51% (это Москва) и 60% (не знаю кто). Хотя эти пики безусловно не такие чурастые как 65%+.
Powered by LiveJournal.com