PDF

Ключевые слова

машинное обучение, биоинформатика, патогенность мутаций, Apache Spark, Random Forest, классификация генетических вариантов, ClinVar, персонализированная медицина

Как цитировать

Проектирование системы ML для предсказания патогенности мутаций. (2025). SMART TECHNOLOGIES JOURNAL, 1(8). https://doi.org/10.62687/STJ.8.1.2025.6

Аннотация

В статье представлено проектирование распределённой системы машинного обучения для автоматической классификации патогенности генетических вариантов на основе клинических данных ClinVar. Актуальность определена необходимостью ускорения интерпретации результатов секвенирования нового поколения в клинической практике, где ручной анализ сотен тысяч вариантов занимает недели работы генетиков.

Исследуются архитектурные решения для обработки больших объёмов генетических данных с применением технологии Apache Spark MLlib и методов ансамблевого обучения. Применены методы системного анализа биомедицинских баз данных, feature engineering для категориальных генетических признаков, кросс-валидации и сравнительного анализа алгоритмов классификации.

Разработана трёхэтапная методология: подготовка данных с нормализацией и категоризацией clinical significance, feature engineering с использованием StringIndexer и OneHotEncoder, обучение трёх моделей (Logistic Regression, Random Forest, Gradient Boosted Trees) с оптимизацией гиперпараметров через Grid Search. Спроектирована система рекомендаций с пятиуровневой приоритизацией вариантов (CRITICAL/HIGH/MEDIUM/LOW/MINIMAL) на основе вероятностей патогенности.

Результаты включают масштабируемую архитектуру для обработки 1млн+ записей, и модуль автоматической генерации клинических рекомендаций.

 

 

 

 

PDF