-
Mierzenie poprawności odpowiedzi LLM
Odpowiedź modelu językowego (LLM) jest zawsze obarczone pewną niepewnością, podobnie jak każdej innej głębokiej sieci neuronowej i klasycznych modeli uczenia maszynowego. LLM generując odpowiedź na zapytanie (prompt) dobiera kolejne tokeny, czyli słowa i znaki interpunkcyjne, w oparciu o prawdopodobieństwo ich występowania. Ta niepewność powinna ograniczać nasze zaufanie do wyników działania modeli językowych o ile jesteśmy świadomi jej istnienia. Z drugiej strony w zależności od zastosowania różna jest też nasza tolerancja na błędy LLM’ów. W niniejszym artykule chciałem osiągnąć dwa cele. Pierwszym było porównanie odpowiedzi LMM dla obszarów, które znacząco różnią się zasobem wiedzy, na której uczono model językowy. Drugim celem było porównanie możliwości testów narzędziami offline oraz z użyciem OpenAI,…


