Основная статья о качестве воздуха здесь.

В своем дата-исследовании мы использовали данные датчика качества воздуха, установленного на территории посольства США в Бишкеке. Подобные датчики установлены во многих странах мира, в том числе и во всех странах Центральной Азии.

Датчик измеряет качество местного воздуха, основываясь на наличии в нем мелкодисперсных частиц диаметром менее 2,5 микрометров на м3, также известных как РМ2.5. Воздух проходит через специальное устройство, которое регистрирует уровень загрязнения, печатая его на специальной полосе бумаги. Затем измеряется уровень концентрации частиц РМ2.5.

Для мониторинга качества воздуха используются разные показатели или сводные индексы. Например, в Канаде это — Air Quality Health Index, в Гонконге — Air Pollution Index, в Индии — The National Air Quality Index. Но самым распространенным является Air Quality Index — AQI. Данный показатель конвертирует элементы твердых частиц РМ2.5 в относительный индекс. Он позволяет сравнивать качество воздуха в разных странах и отслеживать динамику степени загрязненности воздуха. AQI говорит о ежечасных и суточных уровнях фактического загрязнения качества воздуха в непосредственной близости от датчика.

Формулу для расчета AQI можно посмотреть здесь. А здесь вы можете переконвертировать значения PM2.5 в AQI и наоборот.

Какие именно данные мы использовали?

Данные по AQI ежедневно доступны на сайте посольства США. В датасете содержится информация о локации, загрязнителе, месяце, дне, часе наблюдения и категории, в которую попадает значение AQI.

В своем исследовании мы анализировали данные с 6 февраля 2019 года — именно тогда был установлен датчик и стали регистрироваться первые наблюдения — по 5 января 2020 года.

Всего мы проанализировали 7856 наблюдений AQI, то есть данные за 7856 часов. Из этих данных количество “чистых” наблюдений составило 7830 или 99.6%. Нехватка данных составила 154 наблюдения или менее 2% от чистых данных.

Как мы аудиолизировали данные?

Аудиолизация или сонификация данных — это кодирование данных, при котором каждому значению соответствует определенная музыкальная нота. Таким образом, из всего датасета можно создать полноценную мелодию.

Для сонификации данных мы рассчитали средние дневные значения AQI, которые затем агрегировали в недельные показатели. Учитывая, что в месяцах разное количество дней, а первые наблюдения стали нам доступны в среду, за первую неделю мы приняли показатели с первой среды до следующей среды и так далее. Для упрощения видео-ряда, который сонифицикацию сопровождает, мы агрегировали данные таким образом, что каждый месяц представляет из себя 4 недели.

Какие расчеты мы делали?

В своих расчетах мы ориентировались на международную методологию анализа качества воздуха. Мы рассчитывали средние показатели AQI, включая среднее арифметическое, моду и медиану, анализировали количество часов и дней по различным категориям уровня загрязненности воздуха и провели анализ зависимости значений AQI от времени суток.

  • Категории уровня загрязненности воздуха

Описание категорий можно почитать здесь.

Для того, чтобы оценить, как меняется качество воздуха в зависимости от сезона, мы раздели данные на два датасета — AQI в отопительный и неотопительный сезоны.

В датасет по отопительному сезону вошли данные с 6 февраля 2019 года по 19 марта 2019 и с 27 октября 2019 года по 5 января 2020 года. Все остальные данные попали в неотопительный сезон.

Для анализа категорий AQI, которые наиболее часто встречаются в разные сезоны, мы рассчитали сколько раз за весь период наблюдений категории встречались:

По этой же аналогии мы рассчитали количество дней со средней категорией. Для этого мы вывели среднее арифметическое AQI в каждый конкретный день, определили его категорию и подсчитали какое количество категорий сколько раз встречается. Результаты описаны в основной статье.

Кроме того, для всего датасета, мы проанализировали среднее арифметическое, моду и медиану значений AQI. В неотопительный сезон средняя, мода и медиана примерно одинаковые, в отопительный — они отличаются, но ненамного.

  • Минимум и максимум

Для расчета самого безопасного времени суток мы использовали данные о минимальных и максимальных значениях AQI, которые встречались каждый день.

Мы вычислили минимальное значение AQI и соотнесли его со временем суток в каждый день. Далее мы подсчитали частоту времени суток, с которой минимальный AQI встречался. То же самое мы проделали и с максимальными значениями AQI.

Получившееся распределение мы проверили на вторых минимуме и максимуме.

Таким образом, наши расчеты подтверждают выводы о самом безопасном времени суток, которое составляет с 6 до 9 утра, и самое небезопасное — с 8 вечера до полуночи.