Koji model trebamo koristiti?

Onaj koji pobjeđuje na vašem eval setu. Benchmarkamo Claude, GPT i Gemini na vašim podacima prije preporuke. Često je odgovor dva — jedan za kvalitetu, jedan za cijenu.

Kako rješavate halucinacije?

Tool calls umjesto freeform generacije gdje god je moguće. Retrieval preko vaših podataka. Citati na svakom odgovoru. Evali hvataju regresije prije deploya.

Možemo li samostalno hostati model?

Ponekad. Šaljemo Claude / OpenAI preko API-ja, i šaljemo open-source modele na Bedrocku ili VLLM-u kad data residency zahtjeva. Biramo što paše, ne što je trendy.

Praćena po pozivu od prvog dana. Većina produkcijskih feature-a sleti na €0.02–€0.20 po interakciji. Dizajniramo na cost ceiling, ne na maglovitu budžetsku liniju.

Sve usluge

Usluge / Što gradimo

04 · Isporučen AI · Evali i review

AI integracije

Claude, OpenAI, Gemini — u produktu, ne u press releaseu.

AI-native pretraga, support agenti, content pipelinei, interni copiloti, RAG preko vaših podataka, automation flowovi. Arhitekturiramo integraciju, gradimo prompt i tool sloj u TypeScriptu, isporučimo u produkciju s evalima.

Tipičan opseg · po projektu · uključeni evali

Simptomi koje prepoznajemo

Pišite nam ako…

Pustili ste chatbot demo, ali nikad nije stigao u produkciju.
Vaš tim copy-pasta između ChatGPT-a i alata — i želi taj workflow unutar produkta.
Proveli ste mjesece na RAG prototipu kojem nitko ne vjeruje.
Želite mjerljive AI feature, ne stavku u press releaseu.

Što isporučujemo

/ 04 deliverables

Konkretne isporuke, ne mutna obećanja.

Produkcijski

AI feature koji isporučuje, ne demonstrira.

Claude, OpenAI ili Gemini — wireano u vaš produkt kroz tipizirani prompt + tool sloj koji preživljava sljedeći model release.

Evali prvo

Test suite za promptove, ne vibes.

Prije nego prompt promjena ode u produkciju, prolazi evalove na stvarnim slučajevima. Regresije se hvataju u CI-ju, ne kod korisnika.

Tracing i versioning

Vidljivost u svaki poziv modela.

Svaki call traced, svaka verzija prompta zabilježena, cijena praćena. Debugate javno, ne pogađajući što je model napravio.

Čovjek u petlji

Review tamo gdje je važno.

Customer-facing copy i high-stakes akcije idu kroz ljudski approval step. AI ubrzava; ljudi prihvaćaju.

Kako teče angažman

Četiri faze. Bez klupe.

Tjedan 1 · Dizajn evala

Krećemo od test seta, ne od prompta.

Pišemo 20–50 reprezentativnih slučajeva iz vaših pravih podataka prije bilo kojeg poziva modela. Eval je spec; prompt dolazi drugi.

Tjedni 2–3 · Prompt + tool sloj

TypeScript wrapperi oko SDK-a.

Svaki tool je mali, tipiziran, pojedinačno testabilan. Promptovi versionirani kao kod. Schema-validirani izlazi, ne freeform JSON.

Tjedan 4 · Integracija

Wireamo u pravi UI i workflow.

Feature-flagged rollout. Tracing na svakom pozivu. Prvo interni korisnici, pa 5% canary, pa puna baza.

Mjerimo · Iteriramo

Pratimo metriku koja je važna.

Deflection rate, vrijeme rješavanja, točnost na eval setu. Iteriramo promptove. Mijenjamo modele kad nešto bolje sleti. Bez ega u izboru modela.

Stack na koji radimo

Claude · OpenAI · Gemini SDK-ovi
TypeScript prompt + tool sloj
Evali · tracing · prompt versioning

Propustit ćemo kad

Trebate deck o AI-u umjesto mjerljive promjene u produktu, ili ne možete se obvezati na evalove i ljudski review prije mergea.

Pitanja s terena

Iskreni odgovori.

Koji model trebamo koristiti?
Onaj koji pobjeđuje na vašem eval setu. Benchmarkamo Claude, GPT i Gemini na vašim podacima prije preporuke. Često je odgovor dva — jedan za kvalitetu, jedan za cijenu.
Kako rješavate halucinacije?
Tool calls umjesto freeform generacije gdje god je moguće. Retrieval preko vaših podataka. Citati na svakom odgovoru. Evali hvataju regresije prije deploya.
Možemo li samostalno hostati model?
Ponekad. Šaljemo Claude / OpenAI preko API-ja, i šaljemo open-source modele na Bedrocku ili VLLM-u kad data residency zahtjeva. Biramo što paše, ne što je trendy.
Što s cijenom?
Praćena po pozivu od prvog dana. Većina produkcijskih feature-a sleti na €0.02–€0.20 po interakciji. Dizajniramo na cost ceiling, ne na maglovitu budžetsku liniju.

Riječ glavnog inženjera

AI bez evala je demo. AI s evalima je softver. Prvi impresionira boardroom; drugi je onaj koji korisnici stvarno koriste.

Povezani radovi

— / no shipped cases under this door yet

Discovery

Izaberite vrata. Ili recite što je puklo.

Krećemo od problema, ne od platforme.

Započni razgovor Ili pišitekresimir.galic@fronttribe.com

Odgovaramo u jednom radnom danu · Bez naplate discovery decka