Úvod do RAG
- Proč RAG vznikl
- limity LLM (knowledge cutoff, halucinace)
- proč „víc promptu“ nefunguje
- grounding odpovědí
- Kdy RAG použít
- firemní dokumenty
- znalostní báze
- technická, právní, procesní data
- Kdy RAG nepoužít
- jednoduché CRUD dotazy
- strukturovaná data bez textu
Architektura RAG systému
- High-level architektura
- ingestion pipeline
- embeddings
- vector store
- retrieval
- generation
- Varianty RAG
- basic RAG
- conversational RAG
- hybrid RAG
- agentic RAG (náhled)
- Typické problémy
- špatný retrieval
- nekvalitní data
- přetížený kontext
Data ingestion, chunking & metadata
- Typy vstupních dat
- PDF, DOCX, HTML
- SharePoint / Confluence
- e-maily, tabulky
- Chunking strategie
- fixed-size
- semantic chunking
- adaptive chunking
- overlap vs kontext
- Metadata (kritické)
- jazyk
- zdroj
- typ dokumentu
- datum / verze
- oprávnění
Embeddings & Vector Databases
- Embeddings
- co embedding reprezentuje
- dimenze, normalizace
- vícejazyčnost
- limity embeddingů
- Vectorová databáze
- PostgreSQL + pgvector
- specializované vector DB
- škálování (miliony chunků)
- Indexy & výkon
- cosine / dot / L2
- HNSW vs IVF
- latency × přesnost
Typy vyhledávání v RAG
- Vector similarity search (baseline)
- sémantická podobnost
- top-k, threshold
- slabiny (čísla, názvy, přesné termíny)
- Fulltext / BM25
- lexikální relevance
- silné pro názvy, ID, verze
- slabé na parafráze
- Hybridní vyhledávání (Vector + FTS)
- paralelní vyhledávání
- dvoufázové strategie
- vážené kombinace
- RRF / RRT (Reciprocal Rank Fusion)
- fúze pořadí místo skóre
- robustní vůči špatnému scoringu
- ideální pro: vector + FTS, multi-query, agentní retrieval
- Query rewriting (LLM-assisted)
- přeformulování dotazu
- domain-specific dotazy
- guardrails, náklady
- Multi-query retrieval
- jeden dotaz → více dotazů
- fúze výsledků (RRF)
- lepší pokrytí vágních dotazů
- Metadata-aware retrieval
- filtrace před / po vyhledávání
- jazyk, zdroj, datum
- zásadní pro enterprise RAG
- Hierarchické vyhledávání
- dokument → kapitola → chunk
- vhodné pro dlouhé dokumenty
- snížení šumu
- Agent-assisted retrieval (úvod)
- agent jako orchestrátor
- iterativní vyhledávání
- adaptivní strategie
Generation & prompt design
- Kontextové prompty
- systémový prompt
- pravidla citací
- práce se zdroji
- Grounding odpovědí
- „odpovídej jen z kontextu“
- fallback strategie
- kontrola halucinací
- Typické chyby
- příliš mnoho kontextu
- špatné pořadí chunků
- ignorování relevance
Pokročilé RAG scénáře
- Conversational RAG
- práce s historií
- re-query podle kontextu
- Agentic RAG
- agent jako planner
- iterativní retrieval
- validace odpovědí
- GraphRAG (úvod)
- entity & vztahy
- kdy dává smysl
- kdy je overkill
Kdy RAG (ne)používat
- Anti-patterny
- RAG místo SQL
- RAG bez metrik
- RAG bez kvalitních dat
- Decision framework
- LLM only × RAG × Hybrid × Agent
- náklady
- latence
- údržba