LLM-as-a-Judge: Kto ocenia sztuczną inteligencję?
Mamy już Golden Set i wiemy, co chcemy mierzyć. Pozostaje tylko jedno pytanie: kto ma to wszystko oceniać? Dlaczego manualne testowanie LLM-ów nie ma szans na przetrwanie i jak wdrożyć zautomatyzowanego sędziego.