Analiza Danych

Entropia – pomost pomiędzy fizyką a uczeniem maszynowym

Entropia jako koncept naukowy i mierzalna wielkość określająca nieuporządkowanie, niejednorodność, przypadkowość i niepewność funkcjonuje we wszystkich naukach przyrodniczych, socjologii, ekonomii i teorii informacji. Krótko mówiąc im większa entropia tym większy nieporządek, a mówiąc potocznie chaos i bałagan.

Pierwszy raz entropia została zdefiniowana w połowie XIX wieku przez fizyków w termodynamice jako funkcja stanu określająca kierunek zachodzących zmian i przepływu energii. Bardzo szybko zaczęto koncepcję entropii termodynamicznej przekładać na inne dziedziny naukowe. Szybko też naukowcy doszli do wniosku, że musi być ona powiązana z tak abstrakcyjnym tworem jak informacja.

Z punktu widzenia uczenia maszynowego to właśnie analogia pomiędzy entropią w fizyce a entropią w teorii informacji umożliwia lepsze wykorzystanie uczenia maszynowego w fizyce oraz rozwój uczenia maszynowego z wykorzystaniem obserwacji i praw fizyki.

Entropia w fizyce

Obserwując otaczającą nas rzeczywistość możemy ją mierzyć w wielu wymiarach makroskopowych jak temperatura, ciśnienie, czy objętość. Przechodząc do opisu mikroskopowego zamiast wymiarów makroskopowych rozpatrujemy położenie każdej cząsteczki z której ta rzeczywistość się składa, jej prędkość i pęd oraz zmiany w czasie. Obserwowane wymiary makroskopowe są odzwierciedleniem średnich wielkości mierzonych mikroskopowo, np. średnia prędkość cząsteczek. Cząsteczki mogą więc być rozłożone na wiele sposobów przy takich samych wartościach średnich, a więc obserwowanych pomiarów makroskopowych.

Mechanika statystyczna, która zajmuje się badaniem stanów mikroskopowych, określa entropię jako logarytmiczną miarę możliwych konfiguracji układu. Im więcej jest możliwych konfiguracji dla tych samych parametrów, tym większa jest entropia, a więc nieuporządkowanie. Wzór na entropię w ujęciu Gibbsa, który później porównamy z wzorem na entropię w teorii informacji wygląda następująco:

$$ S = -k_B\sum_{i} p_i \ln(p_i), $$

gdzie:

$k$ – stała Boltzmanna, która mówi o proporcji energii kinetycznej cząsteczek do temperatury układu i może być ustawiona na 1, jeśli zostanie użyta odpowiednia jednostka temperatury, $p_i$ – prawdopodobieństwo, że układ jest w $i$-tym stanie

Entropia w teorii informacji

Entropia w teorii informacji w poniższej formie została wprowadzona w 1948 roku przez Claude’a Shannona, który zdefiniował ją dla zmiennej losowej jako średni poziom „informacji” lub „niepewności” związany z możliwymi wynikami zmiennej. Entropia informacji (zwana też entropią Shannona), czyli średnia ilość informacji zdefiniowana jest za pomocą wzoru:

$$ H = -\sum_{i} p_i \log_b(p_i) $$

gdzie:

$p_i$ – prawdopodobieństwo zajścia $i$-tego zdarzenia

$\log_b$ – logarytm o podstawie $b$, gdzie $b=2$ dla informacji binarnej

Gdy entropia rośnie informacja znika.

W bałaganie trudniej coś znaleźć…

Oznacza to, że jeśli na podstawie posiadanych informacji wiemy jaki wynik będzie mieć zmienna losowa, czyli prawdopodobieństwo jego wystąpienia wynosi 1, to entropia jest równa 0. Czyli im większa ilość informacji, tym łatwiej jest nam coś przewidzieć, a zatem entropia informacji jest mniejsza. Można powiedzieć, że gdy entropia rośnie to informacja znika.

Entropia ma liczne i ścisłe związki z innymi koncepcjami dotyczącymi przetwarzania i przechowywania informacji. Dywergencja Kullbacka-Leiblera zwana entropią względną mierzy różnicę pomiędzy rozkładami prawdopodobieństwa. Wywodząca się z niej entropia krzyżowa (ang. cross-entropy) również jest też miarą różnicy między rozkładami, ale bezwzględną i ma inne zastosowanie. Bardzo blisko związane z entropią jest pojęcie informacji wzajemnej (ang. mutual information), która określa ilość informacji zdobytej o zmiennej X przez obserwację innej zmiennej Y.

Relacja pomiędzy termodynamiką a informacją

Oba wyżej wymienione wzory na entropię są wręcz identyczne jeśli pominiemy stałą Boltzmanna. W obu dziedzinach nauki entropia dotyczy średnich wartości obserwowanych zmiennych, czy to temperatura, czy informacja. Nim jednak Shannon wprowadził swoją definicję entropii, intuicja i podobieństwa filozoficzne skłoniły uczonych do prób wprowadzenia ściślejszych powiązań pomiędzy tymi wydawałoby się tak odseparowanymi światami: namacalną otaczającą nas rzeczywistością i niematerialną informacją.

Pierwszy raz entropia termodynamiczna z informacją została powiązana w pracy naukowej w 1929 roku przez Leo Szilarda, który rozwiązał zagadkę demona Maxwella (eksperyment myślowy Jamesa Maxwella), w którym to ów hipotetyczny demon narusza drugą zasadę termodynamiki.

Druga zasada termodynamiki mówi o tym, że dwa ciała o różnej temperaturze, zetknięte ze sobą i odizolowane od reszty Wszechświata, przejdą po odpowiednio długim czasie do równowagi termodynamicznej, w której mają w przybliżeniu tę samą temperaturę, a więc ich wspólna entropia nigdy nie zmaleje. Jeśli ciała te byłyby zbiornikami A i B z gazem, to demon miałby otwierać małe drzwi między nimi i przepuszczać tylko szybkie cząsteczki ze zbiornika A w jedną stronę do zbiornika B a wolne z B do A. Po pewnym czasie temperatura w obu zbiornikach bardzo by się różniła, a entropia zmalała, co jest sprzeczne z drugą zasadą termodynamiki.

Szilard stwierdził, że w rzeczywistości demon Maxwella musiałby mieć jakąś masę i wydatkować energię na pomiar prędkości cząsteczek gazu, a więc wchodziłby w interakcję z samym gazem, a energia zużyta na pomiar zwiększała by entropię całego układu łącznie z demonem. Pozyskanie informacji wpływa zatem na entropię.

Zostało to potwierdzone eksperymentalnie 80 lat później w 2010 roku. Wykorzystując mikroskop kontrastowo-fazowy (pozwala zobaczyć obiekty nie pochłaniające światła,  a jedynie zmieniające fazę fali świetlnej, np. przezroczyste szkło w wodzie) zamieniono informację na energię sterując ruchami Browna cząsteczek. Zdefiniowanie entropii informacji przez Shannona pozwoliło w matematyczny sposób powiązać ją z jej fizyczną postacią.

Problem utraty informacji ze wzrostem entropii został wykazany w pracach badawczych Jacoba Bekensteina i Stevena Hawkinga w latach 70-tych XX wieku dotyczących czarnych dziur.

Najnowsze prace wykorzystujące powiązanie entropii termodynamicznej i informacji są związane z fizyką cząstek elementarnych i materii skondensowanej, czy badaniami czarnych dziur. Pokazują one, że rosnąca entropia termodynamiczna powoduje utratę informacji, co jest także zgodne z przytoczoną definicją entropii w teorii informacji.

Entropia w uczeniu maszynowym

Entropia w uczeniu maszynowym występuje w kilku ujęciach w zależności od zastosowania. Entropia Shannona używana jest jako podstawa w algorytmach klasyfikujących i regresji opartych na drzewach decyzyjnych oraz na uczeniu bayesowskim (modele probabilistyczne oparte na prawdopodobieństwie warunkowym).

Entropia krzyżowa używana jest w modelach nadzorowanych opartych na głębokim uczeniu i sieciach neuronowych jako funkcja straty lub kosztów podczas jego trenowania – im mniejsza strata, tym lepszy model.

Entropia pozwala uczyć maszyny, a także rozpoznawać wzorce w danych oraz znajdować anomalie.

Uczenie nienadzorowane wykorzystywane jest przede wszystkim do znajdowania wzorców i anomalii, gdzie właśnie entropia jako miara niepewności i niejednorodności jest coraz częściej wykorzystywana. Modyfikowane są już istniejące sprawdzone algorytmy by korzystały z entropii, np. popularny algorytm Isolation Forest do znajdowania anomalii. Uczeni pracujący nad modelowaniem zmian klimatu wykorzystują algorytmy operujące na grafach zdarzeń pomiędzy wieloma zmiennymi (w postaci szeregów czasowych), gdzie entropia tworzy metryki.

Przykładem jest też maszyna Boltzmanna będąca siecią neuronową wykorzystującą rozkład Maxwella-Boltzmanna mówiący o prędkości cząsteczek gazu doskonałego, czyli coś co jest jedną z podstaw termodynamiki i mechaniki statystycznej. Entropia jest tu obok energii jednym z parametrów termodynamicznych służących do trenowania sieci.

Podsumowanie

Postęp w uczeniu maszyn rozwiązywania naszych problemów tych codziennych i tych bardziej abstrakcyjnych nie byłby możliwy bez oparcia w fizyce. Przeniesienie entropii jako uniwersalnej miary nierozerwalnie związanej z informacją na wiele dziedzin nauki i życia pozwala na wykorzystanie nie tylko zdobyczy naukowych z matematyki i fizyki, ale przede wszystkim na zrozumienie świata i praw nim rządzących.

Bibliografia

  1. S. W. Hawking – Particle creation by black holes
  2. Physicists observationally confirm Hawking’s black hole theorem for the first time
  3. Jacob D. Bekenstein – Black Holes and Entropy
  4. Sangchul Oh, Abdelkader Baggag, Hyunchul Nha – Entropy, Free Energy, and Work of Restricted Boltzmann Machines
  5. Shoichi Toyabe, Takahiro Sagawa, Masahito Ueda, Eiro Muneyuki, Masaki Sano – Information heat engine: converting information to energy by feedback control
  6. A Gentle Introduction to Cross-Entropy for Machine Learning
  7. KL Divergence for Machine Learning
  8. Shannon entropy in the context of machine learning and AI
  9. Daniel Berrar – Bayes’ Theorem and Naive Bayes Classifier
  10. Entropy and mutual information in models of deep neural networks
  11. Marisa Mohr – The Mystery of Entropy: How to Measure Unpredictability in Machine Learning
  12. Introduction to Random Forest in Machine Learning
  13. Gen Li & Jason J. Jung – Entropy-based dynamic graph embedding for anomaly detection on multiple climate time series
  14. Entropy: How Decision Trees Make Decisions
  15. Entropy and Information Gain to Build Decision Trees in Machine Learning