Аннотация
В статье представлено проектирование распределённой системы машинного обучения для автоматической классификации патогенности генетических вариантов на основе клинических данных ClinVar. Актуальность определена необходимостью ускорения интерпретации результатов секвенирования нового поколения в клинической практике, где ручной анализ сотен тысяч вариантов занимает недели работы генетиков.
Исследуются архитектурные решения для обработки больших объёмов генетических данных с применением технологии Apache Spark MLlib и методов ансамблевого обучения. Применены методы системного анализа биомедицинских баз данных, feature engineering для категориальных генетических признаков, кросс-валидации и сравнительного анализа алгоритмов классификации.
Разработана трёхэтапная методология: подготовка данных с нормализацией и категоризацией clinical significance, feature engineering с использованием StringIndexer и OneHotEncoder, обучение трёх моделей (Logistic Regression, Random Forest, Gradient Boosted Trees) с оптимизацией гиперпараметров через Grid Search. Спроектирована система рекомендаций с пятиуровневой приоритизацией вариантов (CRITICAL/HIGH/MEDIUM/LOW/MINIMAL) на основе вероятностей патогенности.
Результаты включают масштабируемую архитектуру для обработки 1млн+ записей, и модуль автоматической генерации клинических рекомендаций.