Sve usluge

Usluge / Što gradimo

04 · Isporučen AI · Evali i review

AI integracije

Claude, OpenAI, Gemini — u produktu, ne u press releaseu.

AI-native pretraga, support agenti, content pipelinei, interni copiloti, RAG preko vaših podataka, automation flowovi. Arhitekturiramo integraciju, gradimo prompt i tool sloj u TypeScriptu, isporučimo u produkciju s evalima.

Tipičan opseg · po projektu · uključeni evali

Simptomi koje prepoznajemo

Pišite nam ako…

  • Pustili ste chatbot demo, ali nikad nije stigao u produkciju.
  • Vaš tim copy-pasta između ChatGPT-a i alata — i želi taj workflow unutar produkta.
  • Proveli ste mjesece na RAG prototipu kojem nitko ne vjeruje.
  • Želite mjerljive AI feature, ne stavku u press releaseu.

Što isporučujemo

/ 04 deliverables

Konkretne isporuke, ne mutna obećanja.

Produkcijski

AI feature koji isporučuje, ne demonstrira.

Claude, OpenAI ili Gemini — wireano u vaš produkt kroz tipizirani prompt + tool sloj koji preživljava sljedeći model release.

Evali prvo

Test suite za promptove, ne vibes.

Prije nego prompt promjena ode u produkciju, prolazi evalove na stvarnim slučajevima. Regresije se hvataju u CI-ju, ne kod korisnika.

Tracing i versioning

Vidljivost u svaki poziv modela.

Svaki call traced, svaka verzija prompta zabilježena, cijena praćena. Debugate javno, ne pogađajući što je model napravio.

Čovjek u petlji

Review tamo gdje je važno.

Customer-facing copy i high-stakes akcije idu kroz ljudski approval step. AI ubrzava; ljudi prihvaćaju.

Kako teče angažman

Četiri faze. Bez klupe.

  1. 01

    Tjedan 1 · Dizajn evala

    Krećemo od test seta, ne od prompta.

    Pišemo 20–50 reprezentativnih slučajeva iz vaših pravih podataka prije bilo kojeg poziva modela. Eval je spec; prompt dolazi drugi.

  2. 02

    Tjedni 2–3 · Prompt + tool sloj

    TypeScript wrapperi oko SDK-a.

    Svaki tool je mali, tipiziran, pojedinačno testabilan. Promptovi versionirani kao kod. Schema-validirani izlazi, ne freeform JSON.

  3. 03

    Tjedan 4 · Integracija

    Wireamo u pravi UI i workflow.

    Feature-flagged rollout. Tracing na svakom pozivu. Prvo interni korisnici, pa 5% canary, pa puna baza.

  4. 04

    Mjerimo · Iteriramo

    Pratimo metriku koja je važna.

    Deflection rate, vrijeme rješavanja, točnost na eval setu. Iteriramo promptove. Mijenjamo modele kad nešto bolje sleti. Bez ega u izboru modela.

Stack na koji radimo

  • Claude · OpenAI · Gemini SDK-ovi
  • TypeScript prompt + tool sloj
  • Evali · tracing · prompt versioning

Propustit ćemo kad

Trebate deck o AI-u umjesto mjerljive promjene u produktu, ili ne možete se obvezati na evalove i ljudski review prije mergea.

Pitanja s terena

Iskreni odgovori.

  • Koji model trebamo koristiti?

    Onaj koji pobjeđuje na vašem eval setu. Benchmarkamo Claude, GPT i Gemini na vašim podacima prije preporuke. Često je odgovor dva — jedan za kvalitetu, jedan za cijenu.

  • Kako rješavate halucinacije?

    Tool calls umjesto freeform generacije gdje god je moguće. Retrieval preko vaših podataka. Citati na svakom odgovoru. Evali hvataju regresije prije deploya.

  • Možemo li samostalno hostati model?

    Ponekad. Šaljemo Claude / OpenAI preko API-ja, i šaljemo open-source modele na Bedrocku ili VLLM-u kad data residency zahtjeva. Biramo što paše, ne što je trendy.

  • Što s cijenom?

    Praćena po pozivu od prvog dana. Većina produkcijskih feature-a sleti na €0.02–€0.20 po interakciji. Dizajniramo na cost ceiling, ne na maglovitu budžetsku liniju.

Riječ glavnog inženjera

AI bez evala je demo. AI s evalima je softver. Prvi impresionira boardroom; drugi je onaj koji korisnici stvarno koriste.

Povezani radovi

— / no shipped cases under this door yet

Discovery

Izaberite vrata. Ili recite što je puklo.

Krećemo od problema, ne od platforme.

Odgovaramo u jednom radnom danu · Bez naplate discovery decka