Тонкости анализа данных

Опубликовано: 24.08.2018

В дополнение к базовым вещами про измерение погрешностей и про вездесущую «сигму» полезно рассказать и о некоторых более тонких аспектах анализа данных, которые регулярно возникают в физике элементарных частиц и которые могут на первый взгляд показаться непонятными.

«Неопределенность» в количестве событий

В физике элементарных частиц данные часто представляют в виде количества событий, попавших в тот или иной диапазон изучаемой величины. Для примера, на рис. 1 показан результат ранних поисков бозона Хиггса в детекторе ATLAS. Здесь каждая точка показывает число событий, которые были идентифицированы как кандидаты в рождение W+W–-пары, в зависимости от некоторой измеряемой величины mT.

Поскольку количество событий невелико, можно легко увидеть, что все экспериментальные точки попадают строго на целые числа. Но у каждой точки указаны также «усы» погрешностей (по вертикали), причем заметно, что эти погрешности равны √n , то есть четко следуют правилу, описанному на страничке про статистические погрешности . И вот это может сбить с толку. Что эти погрешности означают? Означает ли точка со значением, например, 4 ± 2 события, что экспериментаторы сами не знают, сколько таких событий они отловили? А если они всё-таки уверены, что их ровно четыре, к чему тогда погрешности?

Разгадка в том, что такое число (4 ± 2) показывает сразу две вещи. Во-первых, это непосредственно измеренное количество событий, и оно действительно точно равно четырем. А во-вторых, оно показывает оценку истинного , природного значения этой величины, на основании этих данных. Усы погрешностей сообщают, что в пределах одной сигмы это истинное значение лежит от 2 до 6. Это истинное значение нужно указывать, потому что цветные гистограммы, приведенные на этой картинке, отражают теоретические предсказания для истинного же значения.

Особенности слепого поиска

Когда физики ищут новую частицу или новое явление, они могут вести поиск направленно или вслепую. «Направленно» означает, что они заранее знают куда, в какую область энергий или масс смотреть, и пытаются там заметить искомый сигнал. «Вслепую» означает, что они заранее не знают, в какой области энергий проступит искомый сигнал, поэтому они ищут сразу в широком энергетическом диапазоне.

Это проще всего сравнить с астрономическими поисками новых объектов. Если вы по каким-то косвенным признакам выяснили, где на небе находится новый объект, то вам надо просто навести туда телескоп и постараться этот объект увидеть. Знаменитый пример такого рода — открытие планеты Нептун . Если же вы не знаете заранее, где находится интересующий вас объект (и вообще, существует ли он), вам приходится делать обзор всего неба. В физике частиц есть аналогичные примеры. Если вы ищете редкий распад какой-то известной частицы, вы фокусируетесь на том интервале энергий, который как раз соответствует массе этой частицы. Если же вы ищете частицу, массу которой вы заранее не знаете (например, бозон Хиггса ), вы ведете поиск сразу в большом интервале возможных масс.

У второго, «слепого», поиска есть одна важная особенность, связанная с погрешностями. В англоязычной литературе она называется «look-elsewhere effect». Устоявшегося перевода на русский язык пока нет, условно это можно перевести как «эффект заглядывания во все углы» .

Поясним суть сначала на простейшем примере. Вероятность того, что у произвольного, но одного человека день рождения (только день, без года) совпадает с вашим, очень мала, примерно 1/365. Но если вы находитесь в коллективе из 100 человек, то вероятность того, что хоть у кого-то из них день рождения совпадает с вашим, уже резко возрастает. Если в случае одного конкретного человека вы удивитесь: «надо же, какое совпадение!», то в большом коллективе это совпадение уже не произведет никакого эффекта. Более того, если вы не интересуетесь конкретно своим днем рождения, а просто ищете двух людей в коллективе с совпадающими днями рождения, вероятность возрастает еще сильнее. Уже в группе из 20 человек вероятность найти такую пару больше половины.

Так получается потому, что в коллективе вы не ограничиваете свой поиск одной парой людей, а проверяете все имеющиеся варианты.

Аналогичный эффект имеет место и в физике. Вероятность статистического отклонения в 3σ (она равна примерно 0,2%) можно считать чем-то подозрительным только для единичного сравнения . Если же у вас слепой поиск частицы в широком диапазоне масс, то вы проверяете не одну, а сразу много гипотез: что частица есть в одном узком интервале, в другом, в третьем и т. д. Если вы разбили всю область поиска на 100 интервалов и независимо друг от друга проверяете там наличие частицы, то вероятность того, что хоть где-то у вас будет беспричинная, чисто статистическая флуктуация в 3σ, вырастает почти до 20%. То есть обнаружение в такой ситуации какого-то одного всплеска на 3σ не является ничем значительным. Эта ситуация проиллюстрирована на рис. 2.

Для того чтобы называть вещи своими именами, физики стали использовать два термина: локальная и глобальная статистическая значимость. Локальная показывает вероятность найти такую флуктуацию именно в этом месте , глобальная характеризует вероятность найти эту флуктуацию хоть где-либо во всём широком диапазоне. При слепом поиске более честной является глобальная статистическая значимость.

В принципе, эта тонкость была известна давным-давно, просто она стала привлекать к себе особое внимание в последние годы, в связи с поиском бозона Хиггса. Большой адронный коллайдер ведет поиск хиггсовского бозона в интервале масс от 100 до 600 ГэВ, но если бозон проявится хоть где-то, он будет выглядеть как узкий пик. Поэтому, когда начали проступать первые флуктуации и особо горячие головы стали интерпретировать их как проявления новых частиц, экспериментаторы остужали неоправданный энтузиазм указанием на низкую глобальную статистическую значимость.

Ненаблюдение сигнала

Погрешности хорошо считать, когда искомый эффект зарегистрирован и довольно сильный. А что делать, когда поиск ведется, вся статистика обработана, но зарегистрировано ноль событий нужного типа? Значит ли это, что истинная вероятность такого процесса тоже равна нулю?

Нет, конечно не значит. Процесс может быть слишком редкий, и мы просто не дождались, когда первое такое событие произойдет в нашей установке. На основании наших данных мы лишь можем установить ограничение сверху: даже если этот процесс и происходит, то вероятность его меньше такого-то числа. Эта честная формулировка автоматически включает в себя вариант полного отсутствия этого процесса в природе и вариант просто редкого процесса.

Другой, более сложный вариант этой ситуации: вы зарегистрировали много событий нужного типа, но моделирование показывает, что все они вполне согласуются с «фоном». Может быть, искомый процесс и есть в ваших данных, но вы его не можете отличить от посторонних процессов. В этом случае вы тоже устанавливаете ограничение сверху: если искомый процесс и идет, он происходит не чаще, чем некоторое число.

Подобная ситуация совершенно типичная для любых поисков новых частиц или редких распадов. Эволюция таких поисков выглядит примерно так: набрали данных, не видят никакого отличия от фона, значит устанавливается ограничение сверху на вероятность процесса. Ждут еще какое-то время, увеличивают статистику в несколько раз, но по-прежнему не видят отличия от фона, значит устанавливают новое ограничение сверху, более жесткое, чем предыдущее. К этой ситуации с полным правом относится фраза « отрицательный результат — тоже результат ».

Иногда эта игра в прятки с природой заканчивается успехом: процесс или частицу наконец-то находят. На LHC так было с хиггсовским бозоном , со сверхредким распадом Bs-мезона , с некоторыми другими процессами. Иногда положительного результата так и не видно, как, например, с поисками суперсимметрии . Так что пока остается неизвестно, есть она в природе, но плохо воздействует на обычные частицы, или же ее нет вообще.

Свято – Андреевский Кафедральный собор

Тонкости анализа данных

«Неопределенность» в количестве событий

Особенности слепого поиска

Ненаблюдение сигнала