Uploaded by Никита Зинович

НИР 7 семестр

advertisement
ВВЕДЕНИЕ
Контроллируемый синтез наноматериалов с точно определенными свойствами
является одним из важнейших направлений исследования в этой области. Известно, что
форма и размер наноматериала имеют наиболее значимое влияние на оптические,
электрические, магнитные и множество других его свойств, определяющих область
применения. С другой стороны, фазовый состав наночастиц не менее важен, так как
различные фазы могут иметь различные свойства. Так, намагниченность насыщения
гематита
(α-Fe2O3)
на
два
порядка
меньше,
чем
у
маггемита
(γ-Fe2O3)
[https://www.researchgate.net/publication/268217778_Processing_of_iron_oxide_nanoparticles_by_supercritical_fl
uids].
Таким образом, точный контроль как формы и размера, так и фазового состава
синтезируемых наноматериалов имеет высокое значение.
Наночастицы оксидов железа, в частности магнетита, активно исследуется в
последнее время, благодаря его магнитным уникальным свойствам и потенциалу для
применения в биомедицине в качестве контрастных агентов, систем целевой доставки
лекарств или для гипертермии [Włodarczyk, A.; Gorgoń, S.; Radoń, A.; Bajdak-Rusinek, K.
Magnetite Nanoparticles in Magnetic Hyperthermia and Cancer Therapies: Challenges and Perspectives.
Nanomaterials 2022, | Pedro Tarta et al., Topical Review, “The Preparation of Magnetic Nanoparticles for
Applications in Biomedicine”, Journal of Physics D: Applied Physics; 36 2003]. Однако,
контроллируемый синтез наночастиц магнетита сопряжен с рядом трудностей, так как
требует не только тщательного изучения современных исследований, но и определенного
количества эмпирических проб и ошибок для оценки параметров синтеза. Так же, из-за
обилия параметров синтеза их подбор может оказаться затруднительным. Все это, делает
синтез наночастиц кропотливой и времязатратной процедурой.
Машинное обучение может помочь решить эти проблемы, благодаря способности
алгоритмов улавливать скрытые зависимости в данных, не заметных даже опытному
исследователю. Так же, нарастающее количество статей и экспериментов только улучшит
работу математических моделей, позволяя им «предсказывать» материалы с новыми
свойствами.
В недавних работах предложено множество математических моделей для
предсказания свойств наночастиц, таких как размер и форма, фазовый состав [Tao, H., Wu, T.,
Aldeghi, M. et al. Nanoparticle synthesis assisted by machine learning. Nat Rev Mater 6, 701–716 (2021)],
коэрцитивная сила [Tomitaka, Asahi et al. “Machine learning assisted-nanomedicine using magnetic
nanoparticles for central nervous system diseases.” Nanoscale advances vol. 5,17 4354-4367. 28 Jul. 2023],
клеточный захват (CELLULAR UPTAKE), цитотоксичность [David E. Jones, Hamidreza Ghandehari,
Julio C. Facelli, A review of the applications of data mining and machine learning for the prediction of biomedical
properties of nanoparticles, Computer Methods and Programs in Biomedicine, Volume 132, 2016, Pages 93-103,], а
также оптические и электрические свойства [Fast and Reliable Metamodeling of Complex Reaction
Spaces Using Universal Kriging Richard M. Maceiczyk and Andrew J. DeMello The Journal of Physical Chemistry
C 2014]. В этих работах было показано, что алгоритмы машинного обучения имеют высокий
потенциал к обобщению экспериментальных данных и предсказанию характеристик
синтезируемых наночастиц.
С другой стороны, поиск статей и оценка эффективности предложенных методов
вручную становится все более сложной, что открывает нишу для рекомендательных систем,
основанных на алгоритмах машинного обучения. Такие системы могут существенно
облегчить исследовательскую работу, засчет более эффективной обработки данных и
рекомендации методов и изначальных параметров синтеза, согласно нуждам исследователя.
Целью данной работы является оценить потенциал использования машинного
обучения для предсказания размеров наночастиц магнетита, полученных методом
термического разложения из различных прекурсоров при различных условиях синтеза,
предложенных в раннее опубликованных статьях, а так же – для рекомендации параметров
синтеза для получения заданных характеристик наночастиц. <ДОПИСАТЬ>
1. Синтез наночастиц Fe3O4 методом термического разложения
Метод термического разложения заключается в разложении металл-содержащего
прекурсора при высокой температуре с последующим окислением для получения
наночастиц оксида металла. Наночастицы, полученные этим методом, обладают высокой
монодисперностью, кристалличностью и намагниченностью насыщения [Shixiang Liu, Bing Yu,
Song Wang, Youqing Shen, Hailin Cong, Preparation, surface functionalization and application of Fe3O4 magnetic
nanoparticles, Advances in Colloid and Interface Science, Volume 281, 2020].
используются
высокотемпературные,
в
основном
В качестве растворителя
органические,
растворители
с
добавлением органических поверхностно-активных веществ. Наночастицы Fe3O4 методом
термического разложения получают путем разложения олеата, ацетилацетоната железа(III)
или пентакарбонил-железа в октадецене, докозане, бензиловом или фениловом эфире в
присутствии олеиновой кислоты, олеиламина и других ПАВов или их смесей [Xavier Batlle,
Carlos Moya, Mariona Escoda-Torroella, Òscar Iglesias, Arantxa Fraile Rodríguez, Amílcar Labarta, Magnetic
nanoparticles: From the nanostructure to the physical properties, Journal of Magnetism and Magnetic Materials,
Volume 543, 2022,].
Полученные наночастицы требуют очистки от токсичных органических
растворителей и гидрофилизации для дальнейшего исследования и использования.
Контроль размера и морфологии наночастиц осуществляется подбором прекурсора,
растворителя, ПАВов, скорости нагрева и временем выдержки. Так, наночастицы Fe3O4,
полученные разложением олеата железа(III) в октадецене, имеют размер около 15 нм и
сферическую форму, в то время как добавление в систему олеиновой кислоты привело в
формированию кубических наночастиц [Jiang, FuYi; Li, XiaoYi; Zhu, Yuan; Tang, ZiKang (2014).
Synthesis and magnetic characterizations of uniform iron oxide nanoparticles. Physica B: Condensed Matter, 443(),
1–5].
В других работах предложены методы синтеза с использованием Fe(CO)5 и Fe(AcAc)3
в качестве прекурсора и различные комбинации растворителей и ПАВов; размер,
полученных наночастиц, варьировался от 4 до 50 нм [Batlle, Xavier; PeÌrez, N.; Guardia, P.; Iglesias,
O.; Labarta, A.; BartolomeÌ, F.; GarciÌa, L. M.; BartolomeÌ, J.; Roca, A. G.; Morales, M. P.; Serna, C. J. (2011).
Magnetic nanoparticles with bulklike properties (invited). Journal of Applied Physics, 109(7) // Yuan Zhu; F.Y. Jiang;
Kexin Chen; Feiyu Kang; Z.K. Tang (2011). Size-controlled synthesis of monodisperse superparamagnetic iron oxide
nanoparticles. , 509(34), 0–8553
//
Moya, Carlos; Batlle, Xavier; Labarta, Amílcar (2015). The role of the oleic acid on the
synthesis of Fe3-xO4 nanoparticles over a wide size range. Phys. Chem. Chem. Phys.].
Так же отмечается, что
увеличение температуры синтеза приводит к увеличению размеров наночастиц,
предположительно, благодаря повышению скорости роста наночастиц при повышенной
температуре; с другой стороны, при повышении температуры наблюдается более широкое
распределение наночастиц по размерам [Maity, D., Ding, J., & Xue, J.-M. (2008). Synthesis Of Magnetite
Nanoparticles By Thermal Decomposition: Time, Temperature, Surfactant And Solvent Effects. Functional Materials
Letters, 01(03), 189–193.].
Эти и другие эффекты, такие как влияние природы и концентрации
прекурсора, растворителя и поверхностно-активных веществ, скорости нагрева и времени
выдержки на характеристики получаемых наночастиц, делают анализ опубликованных
экспериментальных данных вручную практически невозможным.
2. Методы машинного обучения
В исследовании наноматериалов алгоритмы машинного обучения, в основном,
применяются для двух задач: предсказание характеристик наночастиц [Fast and Reliable
Metamodeling of Complex Reaction Spaces Using Universal Kriging Richard M. Maceiczyk and Andrew J. DeMello
The Journal of Physical Chemistry C 2014]
и планирование эксперимента [Pick a Color MARIA: Adaptive
Sampling Enables the Rapid Identification of Complex Perovskite Nanocrystal Compositions with Defined Emission
Characteristics Leonard Bezinge, Richard M. Maceiczyk, Ioannis Lignos, Maksym V. Kovalenko, and Andrew J.
DeMello ACS Applied Materials & Interfaces 2018 10 (22), 18869-18878].
Цель предсказания
характеристик – с помощью математической модели описать зависимость результата
синтеза от входных параметров, в то время как планирование эксперимента решает
обратную задачу – по заданным характеристикам наночастиц определить входные
параметры синтеза (см. рисунок 1).
Рисунок 1 – Справа – пример задачи предсказания; слева – пример задачи планирования
эксперимента [Tao, H., Wu, T., Aldeghi, M. et al. Nanoparticle synthesis assisted by machine learning. Nat Rev
Mater 6, 701–716 (2021)]
Алгоритмы предсказания называют алгоритмами обучения с учителем, так как
изначально требуют некоторого количества данных (датасет), содержащих пары «входные
параметры – результат». Алгоритмы планирования, с другой стороны, не требуют входных
данных и служат для поэтапной оптимизации параметров синтеза, исходя из результатов
предыдущих экспериментов.
2.1. Алгоритмы предсказания
По постановке задачи задача предсказания делится на два класса: регрессии и
классификации. Регрессия решает задачу, при которой искомый параметр – непрерывная
величина (например, размер или коэрцитивная сила); в классификации искомый параметр –
дискретная величина (например, форма наночастицы).
Наиболее простым и известным алгоритмом регрессии является линейная регрессия,
суть которой в выявлении линейных зависимостей искомой величины (таргета) от входных
параметров (признаков). Простота линейной регрессии является как несомненным
достоинством этого алгоритма, так и самым главным его недостаткам: будучи
вычислительно наиболее простым и быстрым, алгоритм линейной регрессии обладает
крайне низкой способностью к обобщение, так как наличие строго линейных зависимостей
в сложных системах маловероятно. Аналог линейной регрессии в задачах классификации –
логистическая регрессия, обладающая теми же достоинствами и недостатками.
Регрессия
На практике использование линейных моделей не дает требуемых показателей
качества, поэтому используются более сложные модели, такие как случайный лес [Breiman,
L. Random Forests. Machine Learning 45, 5–32 (2001)],
градиентный бустинг [J. Friedman, Greedy Function
Approximation: A Gradient Boosting Machine, The Annals of Statistics, Vol. 29, No. 5, 2001.],
кригинг [Rasmussen, C.E.
Gaussian Processes in Machine Learning. In: Bousquet, O., von Luxburg, U., Rätsch, G. (eds) Advanced Lectures on
Machine Learning 2003].
Случайный лес и градиентный бустинг относятся к алгоритмам на деревьях.
Случайный лес строит N деревьев на разных подмножествах исходных данных с
повторением (бутстрап), а затем усредняет значения всех деревьев для получения
предсказания (см. рисунок 2а). Градиентный бустинг так же строит N деревьев, однако
деревья
строятся
последовательно:
следующее
дерево
«исправляет»
ошибки
предшественника (см. рисунок 2б).
Кригинг основан на моделировании таргета гауссовским процессом. По теореме
Байеса, кригинг обновляет имеющееся знание (prior) согласно тренировочным данным
(likelihood), для того, чтобы получить предсказание (posterior) (см. рисунок 3).
Преимуществом данного метода является то, что вместе с предсказанием алгоритм дает
оценку уверенности (например, стандартное отклонение). Так же, алгоритм показывает
хороший результат на небольших данных, поэтому он может использоваться в условиях
полного отсутствия экспериментальных данных: исследователь самостоятельно задает
prior, исходя из своего опыта, и итеративно улучшает модель (задача рекомендации).
В работе R. Maceiczyk et al. (Fast and Reliable Metamodeling of Complex Reaction Spaces Using
Universal Kriging Richard M. Maceiczyk and Andrew J. DeMello The Journal of Physical Chemistry C 2014)
был
использован кригинг для моделирования максимума длины волны и интенсивности
излучения у края полосы для наночастиц CdSe и CdSeTe.
Рисунок 2 – Схема алгоритмов градиентного бустинга (а) и случайного леса (б)
Рисунок 3 – Кригинг в одномерном пространстве (синие крестики – экспериментальные
данные; серые области – доверительный интервал 95%)
Функции потерь и метрики регрессии
Функция потерь – это мера расстояния между предсказанием и тагретом
[https://developers.google.com/machine-learning/glossary#loss]. Наиболее часто в задачах регрессии
используют среднеквадратичное и абсолютное среднее отклонение. Эти функции легко
дифференцируемы, что позволяет использовать их в методах градиентной оптимизации.
Метрикой, в свою очередь, является некоторое число, отражающее качество работы
модели [https://developers.google.com/machine-learning/glossary#metric]. В регрессионных задачах
метрикой могут является как вышеперечисленные функции потерь, так и их производные
(относительное абсолютное отклонение, корень среднеквадратичного отклонения). Так,
например, в задачах планирования метрикой может является время, потраченное на
достижение результата.
Классификация
Регрессионные алгоритмы на деревьях так же могут выполнять задачу
классификации (в этом случае, их называют классификаторы). Для этого предсказание
осуществляется не усредением предсказания, а «голосованием» – предсказанием будет
класс, предсказанный большинством. Другие алгоритмы классификации включают в себя
метод опорных векторов, нейросетевые классификаторы, логистическую регрессию, kближайших соседей и т.д.
По количеству классов задачу классификации делят на бинарную (2 класса) и
мультиклассовую (>2 классов).
Например, J. Li et al. (Li, J., Chen, T., Lim, K., Chen, L., Khan, S. A., Xie, J., & Wang, X. (2019). Deep
Learning Accelerated Gold Nanocluster Synthesis. Advanced Intelligent Systems, 1(3), 1900029.)
использовали
метод опорных векторов и цепь из графовых сверточных нейросетей и сиамских нейросетей
для определения вероятности успеха получения атомно-точных (atomically precise)
наночастиц золота.
Функции потерь и метрики классификации
Так как предсказание классификатора часто интерпретируют как вероятность
принадлежности к тому или иному классу, регрессионные функции потерь в задачах
классификации не используются.
В задачах классификации чаще всего используется логарифмическая функция потерь
для бинарной классификации и ее обобщение – кроссэнтропия (см. формулу 1) – для
многоклассовой.
𝑘
𝐶𝑟𝑜𝑠𝑠𝐸𝑛𝑡𝑟𝑜𝑝𝑦𝑘 (𝑝; 𝑞) = ∑ 𝑝𝑖 log 𝑞𝑖 ,
(1)
𝑖=0
где pi – таргет,
qi – предсказание модели.
k – число классов.
Для рассмотрения метрик введем понятие матрицы ошибок. Матрица ошибок – это
таблица, которая позволяет визуализировать эффективность алгоритма классификации
путем сравнения прогнозируемого значения целевой переменной с ее фактическим
значением. На рисунке 4 представлен вид матрицы ошибок: TP – true positive (предсказание
= 1, таргет = 1), TN – true negative (предсказание = 0, таргет = 0), FP – false positive
(предсказание = 1, таргет = 0), FN – false negative (предсказание = 0, таргет = 1) [Ashish Tiwari,
Chapter 2 - Supervised learning: From theory to applications, Editor(s): Rajiv Pandey, Sunil Kumar Khatri, Neeraj
kumar Singh, Parul Verma, Artificial Intelligence and Machine Learning for EDGE Computing, Academic Press,
2022,].
Рисунок 4 – Матрица ошибок
Матрица ошибок существует только для задач бинарной классификации. Однако, в
задачах мультиклассовой классификации можно составить N матриц ошибок для каждого
из N классов.
Метрики классификации:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝐹𝑁 + 𝐹𝑃 + 𝑇𝑁
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑅𝑒𝑐𝑎𝑙𝑙 =
𝐹1 – 𝑠𝑐𝑜𝑟𝑒 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑃
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
2 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙
Последние 3 из метрик классификации позволяют качественно оценивать работу
модели в случае дизбаланса классов (например, в задачах определения рака у пациентов, в
которых отношение количества здоровых пациентов (класс 0) к количесству больных (класс
1) может достигать 1:10000).
2.2. Алгоритмы планирования
Задача планирования (или рекомендации) заключается в подборе параметров
синтеза, с учетом предыдущих опытов. Алгоритмы планирования основаны на методах
активного обучения [Tong, S. “Active learning: theory and applications.” (2001)] и байесовской оптимизации
[Mockus, Jonas and Linas Mockus. “Bayesian approach to global optimization and application to multiobjective and constrained
problems.” Journal of Optimization Theory and Applications 70 1991].
В процессе активного обучения
выбирается точка с наибольшей неопределенностью, поэтому такой алгоритм может
использоваться для исследования новых материалов с неизвестными свойствами.
Байесовская оптимизация является логическим продолжением активного обучения, при
котором алгоритм «исследует» ту область, в которой таргет принимает необходимое
значение (например, изначально заданный размер наночастиц). Байесовская оптимизация
балансирует между «исследованием» неизвестного и «эксплуатацией» знакомых областей
признакового пространства. Наиболее часто в алгоритмах планирования используется
гауссовский процесс и Tree-structured Parzen Estimator [Watanabe
S. Tree-structured Parzen estimator:
Understanding its algorithm components and their roles for better empirical performance //arXiv preprint arXiv:2304.11127. –
2023.].
В своей работе L.Bezinge et al.bezinge использовали кригинг в качестве базового
алгоритма для адаптивного подбора параметров в трехмерном признаковом пространстве
для длины волны эмиссии в нанокристаллах (Cs/FA)Pb(I/Br)3.
2.3. Тренировка и анализ моделей машинного обучения
Процесс моделирования эксперимента с использованием машинного обучения включает
в себя следующие этапы [Chip Huyen]:
1) Сбор и очистка данных. На этом этапе исследователь собирает данные из внешних
источников. Очистка данных может включать в себя обработку пропусков в данных,
статистический анализ, нахождение и удаление выбросов. Все эти шаги направлены на
улучшение качества данных, что, в дальнейшем, позволит более качественно
моделировать данные и интерпретировать результаты.
2) Инженерия и отбор признаков. На этом этапе исследователь преобразует «сырые»
данные, исходя из математических соображений (логарифмирование или нормализация
сильно смещенного признака) и собственного опыта (использование физических и
химических свойств прекурсоров вместо названия). Далее с помощью статистических
методов
(f-регрессия,
количество
общей
информации,
корреляция
Пирсона)
исследователь отбирает наиболее информативные признаки. Этот шаг особенно важен
при наличии небольшого количества данных.
3) Тренировка модели. На этом этапе происходит тренировка и подбор гиперпараметров
моделей. Для этого данные разделяют на тренировочный и валидационный (используется
для оценки работы) датасет. Существует множество стратегий разделения датасета,
однако наиболее часто используют k-кратную кроссвалидацию (датасет случайно
разделяется на k групп; модель тренируется k раз на каждом кроме одного из них,
который используется для валидации) и leave-one-out кроссвалидация (для малых
датасетов; аналогично k-кратной кроссвалидации, где k равно количеству экспериментов
в датасете). После кроссвалидации метрики для каждой модели усредняются для оценки
работы.
Изначально
задается
пространство
гиперпараметров
модели,
поиск
оптимального набора может происходить как методами перебора, так и методами
оптимизации. По результатам моделирования может проводиться повторный отбор
признаков и тренировка.
4) Анализ ошибок и интерпретация модели. Анализ ошибок заключается в исследовании
предсказаний модели (например, нахождении экспериментов с наибольшей ошибкой).
Так же анализ ошибок позволяет более детально сравнить модели по распределению их
ошибок. Интерпретация модели направлена на изучение выученной структуры модели и
анализ влияния признаков на таргет. Например, алгоритмы на деревьях содержат в себе
меры «важности» каждого признака. Так же существуют внешние алгоритмы и методы
интерпретации моделей машинного обучения, такие как LIME, SHAP и другие. Важно
отметить, что интерпретация модели не эквивалентна интерпретации физических или
химических процессов.
Download