Новый алгоритм, протестированный на марсоходе NASA Perseverance на Марсе, может помочь улучшить прогнозирование ураганов, лесных пожаров и других экстремальных погодных явлений, которые затрагивают миллионы людей по всему миру.
Аспирант Georgia Tech Остин П. Райт — первый автор статьи, в которой представлен Nested Fusion. Новый алгоритм улучшает способность ученых искать признаки жизни на поверхности Марса.
Это нововведение поддерживает миссию NASA Mars 2020. Кроме того, ученые из других областей, работающие с большими, перекрывающимися наборами данных, могут использовать методы Nested Fusion для своих исследований.
Райт представил Nested Fusion на Международной конференции по обнаружению знаний и интеллектуальному анализу данных 2024 года (KDD 2024), где он занял второе место в номинации «Лучшая статья». Работа опубликована в журнале Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
«Nested Fusion действительно полезен для исследователей во многих различных областях, а не только для ученых NASA», — сказал Райт. «Метод визуализирует сложные наборы данных, которые может быть трудно получить в целом на начальных этапах разведочного анализа».
Nested Fusion объединяет наборы данных с разным разрешением для создания единого визуального распределения с высоким разрешением. Используя этот метод, ученые NASA могут легче анализировать несколько наборов данных из разных источников одновременно. Это может привести к более быстрым исследованиям состава поверхности Марса для поиска подсказок о прошлой жизни.
Алгоритм демонстрирует, как наука о данных влияет на традиционные научные области, такие как химия, биология и геология.
Еще дальше Райт разрабатывает приложения Nested Fusion для моделирования меняющихся климатических моделей, жизни растений и животных и других концепций в науках о Земле. Тот же метод может объединять перекрывающиеся наборы данных из спутниковых снимков, биомаркеров и климатических данных.
«Пользователи расширили возможности Nested Fusion и аналогичных алгоритмов в контексте наук о Земле, и мы получили очень положительные отзывы», — сказал Райт, изучающий машинное обучение (МО) в Технологическом институте Джорджии.
«Кросс-корреляционный анализ занимает много времени и не проводится на начальных этапах исследования, когда появляются закономерности и формируются новые гипотезы. Вложенное слияние позволяет людям обнаруживать эти закономерности гораздо раньше».
Райт — руководитель отдела науки о данных и машинного обучения в PIXLISE, программном обеспечении, которое ученые из NASA JPL используют для изучения данных с марсохода Mars Perseverance.
Perseverance использует свой планетарный инструмент для рентгеновской литохимии (PIXL) для сбора данных о минеральном составе поверхности Марса. Два основных инструмента PIXL, которые выполняют эту задачу, — это рентгеновский флуоресцентный спектрометр (XRF) и многоконтекстная камера (MCC).
Когда PIXL сканирует целевую область, он создает два совмещенных набора данных из компонентов. XRF собирает мелкомасштабный элементный состав образца. MCC создает изображения образца для сбора визуальных и физических деталей, таких как размер и форма.
Один спектр XRF соответствует примерно 100 пикселям визуализации MCC для каждой точки сканирования. Уникальное разрешение каждого инструмента делает сопоставление между перекрывающимися слоями данных сложным. Однако Райт и его коллеги разработали Nested Fusion, чтобы преодолеть это препятствие.
Помимо прогресса в науке о данных, Nested Fusion улучшает рабочий процесс ученых NASA. Используя этот метод, один ученый может сформировать первоначальную оценку минерального состава образца за считанные часы. До Nested Fusion та же задача требовала нескольких дней совместной работы групп экспертов на каждом отдельном инструменте.
«Я думаю, один из самых важных уроков, которые я извлек из этой работы, заключается в том, что очень важно всегда основывать свои проблемы машинного обучения и науки о данных на реальных, конкретных примерах использования нашими коллегами», — сказал Райт.
«Я узнаю от коллег, какие части анализа данных важны для них и с какими проблемами они сталкиваются. Понимая эти вопросы, мы можем открыть новые способы формализации и формулирования проблем в науке о данных».
Nested Fusion занял второе место в номинации «Лучшая статья в треке прикладной науки о данных». Сотни других статей были представлены на исследовательском треке конференции, воркшопах и учебных курсах.
Наставники Райта, Скотт Дэвидофф и Поло Чау, были соавторами статьи Nested Fusion. Дэвидофф — главный научный сотрудник Лаборатории реактивного движения NASA. Чау — профессор Школы вычислительной науки и техники Georgia Tech (CSE).
«Я был чрезвычайно рад, что эта работа была отмечена наградой за лучшую работу, занявшую второе место», — сказал Райт. «Иногда бывает трудно найти правильное академическое пристанище для такого рода прикладной работы, поэтому найти сообщества, которые оценят эту работу, очень воодушевляет».
Информация от: Технологическим институтом Джорджии