CMS опробовал новую методику «разведки данных»

ГлавнаяScience Тимур Галчанов

Ограничения сверху на константу связи гипотетического тяжелого бозона Z’B, распадающегося на адроны. Черная линия — результаты CMS, полученные с помощью методики «разведки данных». Кривые других цветов — результаты разных экспериментов с традиционным набором статистики. Изображение из обсуждаемой статьи

Темп протонных столкновений на Большом адронном коллайдере столь высок, что детекторы буквально балансируют на грани того, чтобы не захлебнуться в потоке данных. Столкновения протонных сгустков происходят десятки миллионов раз в секунду. Каждое из них приводит к десяткам отдельных протон-протонных соударений и, как следствие, к рождению сотен частиц. Каждое такое событие оставляет отклик в детекторе, который, после оцифровки, «весит» порядка мегабайта. Ясно, что передавать и записывать весь этот поток данных — а это были бы многие терабайты в секунду — просто некуда.

На самом деле, все эти данные записывать и не нужно. Подавляющее большинство столкновений — это «скучная» адронная физика, которая и так была изучена вдоль и поперек, либо на прошлых ускорителях, либо на LHC в самых первых сеансах работы. Главный же интерес представляют собой относительно редкие события рождения тяжелых частиц или жесткие процессы с большими поперечными импульсами. Масштабы редкости процессов, доступных для изучения на LHC, описаны в популярной статье Раритеты микромира.

В современных детекторах существуют специальные устройства, триггеры, которые успевают на лету минимально проанализировать каждое столкновение и сказать, есть смысл его записывать для дальнейшего анализа или нет (см. раздел «Сто тысяч миллионов» в статье Анатомия одной новости). Система триггеров обычно многоуровневая. Например, в детекторе CMS есть первичный триггер L1, — быстрая электроника, построенная по специальной архитектуре, которая только-только успевает снять самые первичные данные с калориметров и мюонных детекторов и сказать, было там какое-то существенное энерговыделение или нет. Если L1 видит что-то, он пропускает событие дальше.

За него тогда берется триггер высокого уровня HLT, представляющий собой ферму из 13 тысяч CPU. Здесь уже физики выставляют некоторые требования по отбору событий, например, минимальный порог энерговыделения. Если событие не удовлетворяет этому критерию, оно выбрасывается; если удовлетворяет — событие оцифровывается полностью со всех детекторных компонентов и записывается на носитель. Поток событий в CMS, прошедший этот жесткий двухэтапный отбор, составляет 400 событий в секунду; это та статистика, с которой потом и будут работать физики в офлайн режиме.

В этой схеме работы можно заметить некоторую «растрату» мощностей. Когда триггер HLT анализирует данные, он выполняет минимальную оцифровку, в частности, восстанавливает энергии адронных струй, но потом эта информация выкидывается. Поэтому в 2012 году коллаборация CMS решила внедрить новую, параллельную методику записи данных, которая получила название data scouting («разведка данных»).

Речь идет про сохранение информации о событиях, которые не дотягивают до критериев отбора HLT, но в которых тоже есть заметная адронная активность. Поток таких событий достигает тысячи в секунду, и все их записывать целиком было бы накладно. Однако можно записать не весь отклик детектора, а только маленькую долю информации, которая, собственно, и использовалась при работе HLT. Тогда объем каждого события будет на порядки меньше, и эти данные удастся сохранить без проблем.

Смысл такой процедуры в том, что даже неполная информация позволит физикам малыми силами «разведать» ту область средних энергий, в которую на основе обычной статистики заглянуть трудновато. Там обычно не ожидается ничего такого, что не было бы видно при высоких энергиях. Но если вдруг обнаружится аномалия, скажем, новый резонанс в чисто адронном канале с массой в несколько сот ГэВ, то физики в будущем смогут перенастроить триггеры и заняться этой аномалией более плотно.

Недавно коллаборация CMS показала первый пример результата, полученного с помощью такой разведки данных (arXiv:1604.08907). Она проанализировала эту параллельно набранную статистику в поисках гипотетических резонансов, которые могли бы распадаться на две адронные струи (см. рисунок). Область инвариантных масс, которую покрывает эта статистика, начинается от 400 ГэВ, что примерно вдвое ниже, чем при анализе обычной статистики.

Никаких новых резонансов найдено не было. Но главное тут в том, что установленные ограничения на свойства этих резонансов оказались заметно лучше, чем при традиционном отборе данных. Это доказывает, что методика работает хорошо, и потому она будет применяться в будущем. Популярный рассказ о новой работе можно также найти в блоге Томмасо Дориго, члена коллаборации CMS.

Смотрите также


Новости партнеров