0

Наиболее подходящий размер бина

Евгения (Moderator (RUS)) 10 years ago updated by azagoskin 1 year ago 7

Много авторов статистической документации предлагают использовать от 6 до 15 бинов для гистограммы.Можно экспериментировать и подбирать это значение. 

Все таки, существует практическое правило для определения наиболее подходящего размера бина: определить диапазон данных (из максимального значения вычесть минимальное), результат разделить на 50,полученное число округлить до целого значения.

Например, наиболее подходящим размером бина для данных опробования, которые изменяются от 4% до 71%, будет:

71 - 4 = 67

67 / 50 = 1.34

Округляем полученное значение до целого числа.

В итоге, наиболее подходящий размер бина для наших данных равен 1%, таким образом, гистограмма будет состоять из 67 бинов.


К своему посту хочу добавить несколько примеров гистограмм.


В этом примере использовано 268 бинов. Как видите, гистограмма выглядит шумной.


Здесь бины слишком большие. Не хватает детализации. Здесь использовано 9 бинов.


Правильный размер бина. Уровень детализации достаточный. Нет шума. Здесь использовано 67 бинов.




Добрый день.

Откуда взялось число 50?

Исходя из чего оно рассчитано? Для какой выборки (100, 1000 или 10000 проб)?

При выборке 100 проб тоже использовать коэффициент 50?

Если отталкиваться от сообщения уважаемого GIPRO, то 50 - это не константа, а зависит от размера выборки.

Здравствуйте.

Это не коэффициент, а количество бинов на гистограмме.

Данное значение используется как исходное, от которого можно отталкиваться при подборе параметров для визуализации гистограмме, а затем это значение меняется в зависимости от вида гистограммы и приводится к виду, который Вы сможете проанализировать.

Приводите гистограмму к такому виду, чтобы Вы могли её проанализировать, избегая вида штрих-кода (первая гистограмма с шумами, в примере Евгении) или наоборот слишком больших бинов (вторая гистограмма, которая не демонстрирует позволяет уловить границы между популяциями).

  Спасибо за быстрый ответ!

  Такой ответ, к сожалению меня не устраивает.

  К примеру: у меня есть выборка из 100 геохимических проб, к примеру меди. Мне необходимо рассчитать фон по содержанию,какого-либо компонента. На гистограмме  у меня присутствуют значения с аномальными содержаними меди. Для расчета фона мне необходимо "очистить" от этих аномальных проб выборку. При этом от размера бина зависит минимальное значение содержания меди в аномальных пробах.

Поэтому, я использовал несколько рекомендаций по расчету количества бинов, что бы получить значение, от которого можно плюс-минус отталкиваться.

  Размер бина, полученный по вашим рекомендациям, отличается на порядок от значений, которые получаются при расчете метдом Стерджеса, квадратного корня, правила Райса и т.д.

Это влияет на результат. 

+1

День добрый. Так же актуален данный вопрос. Спасибо за предоставленную информацию. Единственное с чем не соглашусь - разница на порядок. В целом значения количества бинов получаются довольно близкие (если использовать формулу Стерджеса):

для 

2421 проба - 27 (мой вариант выборки)

5000 - 29

17200 - 33

102000 - 39 (бывают и такие базы)

Как видно, первые три варианта вообще можно уверенно округлить до 30, несмотря на порядок разницы величины выборки.

Дальнейший выбор количества бинов - дело предпочтений и привычки. Полагаю, что количество 50 даст более детализированную картину.

вариант 50 бинов


вариант 27 бинов

для вашего варианта (100 проб) получается значение 16, что выглядит логичным. не понятно одно: реально на такой выборке определить значение выдающихся содержаний?

 

Честно говоря, всегда визуально подбирал количество бинов, примерно от 30 до 80, в зависимости от того, вижу ли я достаточно деталей на гистограмме. Далее ММ автоматом рассчитывает ширину бина. На малых объемах выработок конечно и бинов будет меньше.


Почерпнул много нового из этой ветки обсуждения!