Риск использования «чистых данных» для машинного обучения
Необходимость в указаниях
Технический директор одной молодой компании, которая занимается машинным обучением, как-то сказал: «дайте мне данные, и я решу любые проблемы». К сожалению, это так не работает. Технологии анализа данных, в том числе машинного обучения, универсальны для всех отраслей, а предметные знания — нет. Поэтому для успешной работы нужны оба слагаемых.
Аналитическое решение должно отличать причинно-следственные связи от простой корреляции и сообщать только о реальных проблемах. Но чтобы с помощью аналитики находить верные ответы на вопросы, нужны правильные указания. В противном случае возникают бессмысленные результаты, например утверждение о том, что рост потребления маргарина приводит к разводам в штате Мэн. Указания — это предметные знания, которые ограничивают контекстуальные данные, определяют разумные ожидания и исключают ничего не значащие взаимосвязи.
Используя кластеризацию при работе без участия человека, система машинного обучения может обнаруживать и запоминать модели поведения. В процессе проектирования и производства с помощью кластеризации можно определить стандартные сигналы, поступающие с датчиков на установках и вокруг них. А затем, опираясь на отклонения от нормы, называемые аномалиями, можно обнаруживать сбои в работе оборудования.
Еще одна технология машинного обучения — машинное обучение с учителем — требует участия человека, который сообщает о событии и называет дату и время, когда оно произошло. При этом система машинного обучения не знает, что именно произошло. Чтобы определить значение события, ей нужны предметные знания и понимание контекста данных. Узнав о событии, система машинного обучения запоминает признаки определенного поведения, которое предшествовало событию. Например, при эксплуатации в отраслях тяжелой промышленности станок может выйти из строя из-за повреждения подшипника. Запомнив точную модель поведения при износе или сбое, ИИ анализирует новые данные, чтобы обнаружить в них повторение этой модели до того, как произойдет сбой. Упреждающие уведомления позволяют не ждать полного износа и проводить ремонт до поломки. В результате снижаются затраты на обслуживание и увеличивается время бесперебойной работы.
Специалисты предприятия понимают взаимосвязи моделей поведения станков и механику износа. Опираясь на эти знания, они направляют систему машинного обучения, помогая обнаружить верные модели поведения при сбое. Кроме того, с помощью эмпирических и неэмпирических моделей мы можем прогнозировать примерный диапазон результатов, а затем определять указания для машинного обучения, которые помогут найти точные модели поведения при износе. Контекст данных очень важен при маркировке событий, выборе переменных и управлении очисткой данных. Эффективные решения сочетают в себе знания о процессах, служащих источником данных, и опыт использования аналитических технологий. Таким образом, указания должны быть жесткими и надежными.
Применение на практике
Как это работает на практике? Возьмем двухэтапный подход. Начнем с проектирования. Следует изучить генерирующий данные процесс, правильно промаркировать важные события и вычислить наиболее значимые из них, например известные физические ограничения. Эту информацию можно использовать в качестве указаний для очистки данных и соответствующих моделей поведения с учетом режимов работы оборудования. Завершив процесс проектирования, нужно переключиться в режим анализа данных.
На этом этапе предоставляется контекст данных: теперь алгоритмы не учитывают конкретные проблемные области. Сейчас данным, алгоритмам и моделям поведения неизвестны их источники: данные — это просто данные. Масштабы, единицы оборудования и источники данных разнообразны и неважны. В этом контексте нам не нужны строгие технические модели и сложные дифференциальные уравнения.
Напомним еще раз: указания по вводу данных играют важную роль. Чтобы прийти к верным выводам, нужны четко обозначенные наборы данных. Предметные знания определяют контекст данных. Поэтому нужно изучать тонкости каждого производственного процесса, а затем переходить от проектирования к аналитике с использованием указаний.