Blog | Michalina Graczyk

19 lip 2026

Human-in-the-loop: AI nie zastąpi człowieka (człowiek z AI - owszem)

Zbudowaliśmy cały pipeline: evals, golden set, guardrails, LLM-as-a-Judge. Wygląda jak pełna automatyzacja. Nie jest. Ostatni artykuł serii o tym, dlaczego za każdym skutecznym systemem AI i tak musi stanąć człowiek.

LLM QA Human-in-the-loop Evals AI

Czytaj więcej

7 lip 2026

🇵🇱

Gdy halucynacja staje się prawdą: O ślepych trafach algorytmów i koszmarze ewaluacji LLM-ów

Gemini wymyślił wydarzenie, którego oficjalnie nie było. A jednak telebim stał na plaży i ludzie kibicowali. Historia o tym, jak losowy strzał algorytmu zamienił się w fascynujący edge case z pogranicza ewaluacji AI.

LLM Hallucination Evals AI Edge Case

Czytaj więcej

30 maj 2026

🇵🇱

LLM-as-a-Judge: Kto ocenia sztuczną inteligencję?

Mamy już Golden Set i wiemy, co chcemy mierzyć. Pozostaje tylko jedno pytanie: kto ma to wszystko oceniać? Dlaczego manualne testowanie LLM-ów nie ma szans na przetrwanie i jak wdrożyć zautomatyzowanego sędziego.

llm evals testing quality-assurance ai llm-as-a-judge

Czytaj więcej

28 maj 2026

🇵🇱

Co opowiedziałam w Testing Station: human-in-the-loop, golden set i numer telefonu zaufania

Rozszerzona notatka z mojego występu w podcaście Testing Station. O tym, dlaczego LLM bez człowieka się nie obejdzie, czym naprawdę są guardrails i co zmienia się w roli QA.

LLM QA Guardrails Evals Podcast

Czytaj więcej

7 kwi 2026

🇵🇱

Testowanie odporności AI: Jak uchronić LLM przed nieprzewidywalnym użytkownikiem albo testerem?

W idealnym środowisku testowym model odpowiada perfekcyjnie. Na produkcji użytkownicy robią literówki, wklejają dziwne formaty i piszą bez ładu i składu. Dowiedz się, czym jest robustness i jak testować AI w takich wypadkach.

LLM QA Robustness Evals Testing

Czytaj więcej

9 mar 2026

🇵🇱

Guardrails i Safety: Kto wyznacza granice moralne Twojemu LLM-owi?

Twój model AI nie ma kręgosłupa moralnego. Dowiedz się, czym są guardrails, jak testować safety i dlaczego to człowiek musi chronić aplikację przed generowaniem niebezpiecznych treści.

LLM QA Safety Guardrails AI

Czytaj więcej

22 lut 2026

🇵🇱

Golden set + evals: Fundament wiarygodnych testów LLM

Pora połączyć niedeterministyczność i oceny w proces, który ma sens. Dowiedz się, jak zbudować i wykorzystać Golden Set w testowaniu AI.

LLM QA Evals Golden Set

Czytaj więcej

9 lut 2026

🇵🇱

Kategorie evals: co właściwie oceniamy?

Jak zdefiniować kategorie oceny (fidelity, relevance, safety, tone, context), by testować LLM-y wielowymiarowo i skalowalnie.

llm evals testing quality-assurance ai

Czytaj więcej

27 sty 2026

🇵🇱

Jak testować LLM-y: Ach, ta niedeterministyczność

Modele językowe są niedeterministyczne - nawet przy identycznym promptcie mogą generować różne odpowiedzi. Jak to zmienia podejście QA do testowania?

llm testing quality-assurance ai

Czytaj więcej

11 kwi 2025

🇬🇧

Shift Left Done Right: QA in the Modern SDLC

Shifting left is about building quality from the ground up - during planning, design, and development phases. Learn how to introduce it in your organization.

shift-left quality-assurance testing software-engineering

Czytaj więcej

29 lis 2024

🇬🇧

From Cypress to Playwright - Saleor's Voyage

This is the story of Saleor's path from our early days of automated testing, to adapting to new tools, and finally to where we stand today with a more robust and efficient testing framework.

testing playwright cypress automation

Czytaj więcej