Metodologia

DI Index łączy ewaluację techniczną z analizą wpływu behawioralnego — bo platforma AI może być technicznie doskonała, a jednocześnie pogarszać jakość decyzji człowieka.

Formuła DI Index

DI Index = 50% Tech Quality + 30% Behavioral Safety + 20% Human Reliance Safety

Tech Quality (50%)

Procent z ewaluacji technicznej (17 kryteriów, max 350 pkt). Mierzy dojrzałość platformy.

Behavioral Safety (30%)

Odwrócone ryzyko behawioralne (100 − risk score). Mierzy ochronę decyzji człowieka.

Human Reliance Safety (20%)

Odwrócony Human Reliance Index. Mierzy niezależność decyzyjną człowieka.

Wymiar techniczny: 17 kryteriów

Kryteria są ważone: W5 (krytyczne — Hard Gate), W4 (ważne), W3 (istotne). Kryterium W5 z oceną 0 = automatyczny REJECT.

Bounded AgencyW5

Czy agent działa w zdefiniowanych granicach?

Policy EnforcementW5

Czy polityki są egzekwowane automatycznie?

Human-in-the-LoopW5

Czy człowiek zachowuje kontrolę nad krytycznymi decyzjami?

Audit TrailW5

Czy każda decyzja agenta jest śledzona i audytowalna?

Adversarial DefenseW5

Czy system jest odporny na ataki prompt injection?

Data IsolationW5

Czy dane klientów są separowane na poziomie infrastruktury?

Context ManagementW4

Jak system zarządza kontekstem konwersacji?

Memory ControlW4

Jak zarządzana jest pamięć agenta (retencja, TTL)?

Agent LifecycleW4

Wersjonowanie, deployment, rollback agentów

Cost ControlW4

Mechanizmy kontroli kosztów LLM API i compute

IntegrationW3

Zdolność integracji z istniejącą infrastrukturą

Continuous LearningW3

Czy system poprawia się na podstawie feedback loops?

+ 5 dodatkowych kryteriów (Cognitive Bias Detection W3, Halucynacje W5 +, Skalowalność W4, Compliance W4, Decision Quality W4)

Wymiar behawioralny: 12 kryteriów

Ocenia wpływ platformy AI na jakość decyzji człowieka. Pytanie: “Czy AI sprawia, że człowiek podejmuje gorsze decyzje?”

Uzależnienie (Reliance)

Human Reliance Risk
Automation Complacency
Decision Reversibility

Procesy poznawcze (Cognition)

Cognitive Bias Amplification
Critical Thinking Preservation
Cognitive Load Management
Feedback Loop Integrity

Transparentność (Transparency)

Decision Transparency
Confidence Calibration

Autonomia (Autonomy)

Framing Neutrality
Alternative Exploration
Authority Bias Resistance

System Tierów

Tier	DI Index	Znaczenie
S	≥ 85	Referencyjny standard rynku. Bezpieczny dla krytycznych decyzji.
A	75–84	Gotowy do enterprise z minimalnymi ryzykami.
B	65–74	Solidne fundamenty, wymaga uwagi w wybranych obszarach.
C	55–64	Podstawowa funkcjonalność, istotne luki behawioralne.
D	45–54	Istotne braki — wymaga due diligence.
F	< 45	Nie spełnia minimalnych wymagań Decision Integrity.

Proces oceny

Każda ocena w DI Index — zarówno techniczna jak i behawioralna — przechodzi przez ustandaryzowany proces ewaluacji.

Źródła danych

Oficjalna dokumentacja techniczna vendora
Publiczne whitepapers i raporty bezpieczeństwa
Certyfikacje i audyty (ISO 42001, SOC 2, etc.)
Peer-reviewed publikacje akademickie
Publicly disclosed incidents i case law

Zasady scoringu

Skala 1–5 z wewnętrznym rubrikiem per kryterium
Każda ocena oparta na weryfikowalnym źródle (szczegółowe źródła dostępne w raportach)
Ocena opisuje obserwację, nie interpretację producenta
Brak ocen opartych na statystykach bez źródła
Data weryfikacji źródeł jest podana przy każdej ocenie

Transparentność i prawo do sprzeciwu

Decision Integrity Index™ — autorska metodologia Stefana Podedwornego — ocenia integralność decyzyjną platform AI na podstawie publicznie dostępnej dokumentacji vendorów. Nie jest to crowdsourcingowy konsensus ani automatycznie generowany benchmark.

Każda ocena jest weryfikowalna: źródła są dokumentowane w procesie ewaluacji i dostępne w raportach szczegółowych. Jeśli vendor uważa, że ocena nie odzwierciedla aktualnego stanu produktu, zachęcamy do zgłoszenia uwagi z konkretnymi odniesieniami do dokumentacji.

Źródła publiczne Decision Integrity Methodology Prawo do sprzeciwu

Ograniczenia metodologii

Decision Integrity Index™ jest autorskim frameworkiem opartym na rzetelnej metodologii naukowej. Jednocześnie, jak każdy framework ewaluacyjny, posiada ograniczenia, które jawnie deklarujemy:

📚Źródła publiczne

Ewaluacja opiera się wyłącznie na publicznie dostępnych informacjach. Mechanizmy wewnętrzne vendorów mogą nie być publicznie udokumentowane.

📝Oceny eksperckie

Część ocen ma charakter ekspercki i interpretacyjny. Każda taka ocena jest oznaczona odpowiednim poziomem pewności (Confidence Score).

❓Brak dowodu ≠ brak funkcji

Brak publicznej dokumentacji danej funkcji nie oznacza jej braku. Stosujemy zasadę "No Evidence ≠ Negative Evidence".

📊Nie jest rekomendacją

Wyniki DI Index nie stanowią rekomendacji zakupowej. Są narzędziem analitycznym wspierającym proces decyzyjny.

Vendor Challenge Process

Vendorzy mają formalne prawo do zakwestionowania swojej oceny. Proces jest transparentny i udokumentowany.

Zgłoszenie

Vendor zgłasza uwagę poprzez formularz kontaktowy z odniesieniem do konkretnych kryteriów.

Dowody

Vendor dostarcza dokumentację techniczną, certyfikaty lub polityki bezpieczeństwa.

Re-ewaluacja

Analityk weryfikuje dostarczone dowody i aktualizuje ocenę odpowiednich kryteriów.

Publikacja

Zaktualizowany profil vendora z notą o re-ewaluacji i nowym ECS (Evidence Completeness Score).

Zgłoś uwagę do oceny

Epistemiczna samoobrona frameworku

Decision Integrity Index™ nie tylko mierzy integralność decyzyjną systemów AI — mierzy również własną epistemiczną niepewność. Każda ocena zawiera wskaźniki pewności i kompletności dowodów.

Verified Fact

Obiektywnie stwierdzalne na podstawie publicznej dokumentacji. Np. „Vendor posiada API do guardrails”.

Expert Assessment

Ocena ekspercka na podstawie dostępnych danych. Np. „Deklarowany HITL wydaje się ograniczony do fazy wdrożeniowej”.

Missing Evidence

Brak publicznych danych do weryfikacji. Ocena oznaczona jako niepewna z niskim Confidence Score.

Evidence Completeness Score (ECS)

Każdy profil vendora zawiera wskaźnik ECS — procent kryteriów opartych na bezpośrednich, weryfikowalnych źródłach. Pozostała część (Inference Ratio) to oceny wymagające eksperckiej interpretacji. Wysoki ECS oznacza, że ocena jest głównie faktograficzna; niski ECS sygnalizuje większy udział interpretacji.

Powrót do rankingu