Создана самая крупная база данных растворимости органических соединений в неводных растворителях

Ученые из Института общей и неорганической химии им. Н.С. Курнакова РАН (ИОНХ РАН) совместно с коллегами из НИУ «Высшая школа экономики», МГУ им. М.В. Ломоносова и Венского университета представили самую крупную базу данных растворимости органических соединений в неводных растворителях BigSolDB 2.0 на более чем 100 тысяч экспериментальных значений и разработали для нее онлайн-приложение. Полученные данные открывают широкие возможности для применения методов машинного обучения при разработке новых материалов и химических составов.

Растворимость — одно из ключевых свойств органических соединений, определяющих их применение в химии, материаловедении и фармацевтике. Предсказание значений растворимости в любом растворителе, кроме воды, остается сложной задачей в современной хемоинформатике. Для решения этой задачи целесообразно использовать методы машинного обучения, которые позволяют прогнозировать свойства химических соединений без необходимости в экспериментах, однако для такого подхода нужны большие и разнообразные наборов данных.

«Мы проанализировали 1595 рецензируемых научных статьи и извлекли из них 103 944 экспериментальных данных о значениях растворимости для 1448 органических соединений в 213 различных растворителях, в температурном диапазоне от 243 до 425 K. Особое внимание было уделено качеству данных — мы проводили тщательную проверку и стандартизацию всех записей, устранение дубликатов и валидацию источников», — прокомментировал работу один из авторов, младший научный сотрудник лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев Краснов.

Все молекулярные структуры представлены в машиночитаемом формате SMILES, а значения растворимости приведены в логарифмических единицах (LogS), что делает базу оптимальной для использования в алгоритмах машинного обучения. Кроме того, разработано онлайн-приложение для интерактивного поиска и визуализации данных по химической структуре или названию соединения.

По словам авторов, созданная база данных решает критическую проблему недостатка комплексных наборов данных для растворимости органических веществ, которая ранее ограничивала развитие методов машинного обучения в этой области. Большинство предыдущих исследований были сосредоточены только на водной растворимости, тогда как BigSolDB 2.0 охватывает широкий спектр органических растворителей.

В представленной базе данных среди наиболее распространенных растворителей выделяются низкомолекулярные спирты, вода, этилацетат, ацетон и ацетонитрил. Это особенно важно для разработки многих химических и технологических процессов, где точное знание растворимости критично для выбора растворителей в синтезе, разработки лекарственных препаратов и создания эффективных методов экстракции и кристаллизации.

Исследование выполнено при поддержке Минобрнауки России в рамках государственного задания.