ai-ml

9 de junio de 2026

Staff augmentation para equipos de IA/ML: el talento de Costa Rica

Costa Rica tiene talento real en applied ML, RAG y LLM ops. Acá está cómo se ve el pool, qué se paga, qué señales funcionan en entrevista y cuándo conviene contratar afuera.

Sí, podés contratar ingenieros de IA/ML desde Costa Rica. El pool es más pequeño que el de React o Node, pero la gente que está dentro es más profunda de lo que la mayoría de los fundadores gringos espera. Esta es la versión de practicante de ese caso: qué tipo de trabajo de IA/ML soporta el pool tico de verdad, cuánto pagar, y cómo entrevistar para no terminar con alguien que leyó la documentación de OpenAI y se autodenominó ML engineer.

Qué quiere decir “AI/ML engineer” en 2026

El título es una carpa que cubre trabajos muy distintos. Antes de escribir la descripción del rol, definí cuál de estos necesitás de verdad.

Applied ML engineer. Entrena, hace fine-tuning y shippea modelos contra un caso de uso real del producto. Vive en Python, PyTorch o JAX, sklearn para lo aburrido, fine-tuning sobre LoRA o unsloth para LLMs. Dueño del feature pipeline, del training loop y de un eval harness real. Esta es la cubeta más grande de contrataciones útiles de IA para una empresa de producto.

LLM/RAG engineer. Construye pipelines de retrieval, scaffolding de prompts, loops de agentes y uso de herramientas. Vive en Python o TypeScript, los SDKs de Anthropic y OpenAI, un vector store (Pinecone, Weaviate, o pgvector en Postgres) y una capa de eval y observabilidad (Braintrust, Langfuse, Arize). LangChain aparece menos que hace dos años, LlamaIndex sigue ganándose el sueldo para pipelines de indexación.

ML ops / plataforma. Dueño de infraestructura de entrenamiento, serving de modelos, costo de GPU, deploy y rollback, detección de drift, versionado de datos. Suele ser un ex SRE al que jalaron a ML. Cada vez más, el cuello de botella cuando un producto ya tiene unos cuantos modelos reales en producción.

ML research. Lee NeurIPS, prototipa nuevas arquitecturas, corre entrenamientos nuevos. Trabajo de foundation models. Honestos: no es donde Costa Rica es competitiva a escala.

Las primeras tres cubetas son la mayoría de lo que las empresas de producto realmente necesitan. La cuarta es rara. Saber cuál querés es la diferencia entre pagar $90/h por la persona correcta y pagar $90/h por alguien que va a girar en círculos seis meses.

Cómo se ve el pool de Costa Rica de verdad

Algunas observaciones honestas de sourceár acá todos los meses.

El pool de applied ML es real y está creciendo. El país tiene carreras de ciencias de la computación en el TEC, la UCR y Cenfotec, y muchos ingenieros backend senior han rotado a applied ML en los últimos tres años con movimientos internos en Intel, Amazon y las fintech locales. Vienen de software engineering primero, lo cual es feature, no bug. Saben entregar.

El pool de RAG y LLM ops es el más fuerte de las cuatro cubetas. La mitad del trabajo de IA que se está shippeando en Costa Rica ahora es algún sabor de “retrieval sobre nuestros docs, llamada a LLM, eval suite, observabilidad”. Los seniors locales son buenos en esto porque es software engineering con un modelo en el loop, y ya son ingenieros de software.

ML ops es más delgado pero real. La mayoría de la gente de ML ops que colocamos tiene un fondo fuerte de SRE o DevOps y creció hacia serving de modelos. Si necesitás a alguien que levante un cluster de vLLM, ponga guardrails de costo, y escriba el runbook, lo podés contratar acá.

Foundation model research es donde le decimos a la gente que mire en otro lado. El pool de PhDs haciendo trabajo de arquitectura novedosa en Costa Rica es chico. La optimización a nivel de kernels CUDA es igual de delgada. Si tu roadmap necesita a alguien que vaya a publicar en ICML, contratá en el Bay Area, Toronto o Londres y pagá lo que cuesta. Te lo decimos de entrada, igual que en el marco de decisión de Costa Rica.

Bandas de tarifa

Estas son tarifas reales de senior en Costa Rica a mediados de 2026. Siempre rangos, nunca fijo.

Senior applied ML / RAG / LLM engineer: $60-$110/h. El tope de la banda es para gente con track record real en producción sobre un sistema de alto throughput y un portafolio fuerte de evals.
Mid applied ML: $40-$65/h. Productores sólidos, pueden necesitar supervisión senior en decisiones de arquitectura.
Senior ML ops / plataforma: $70-$110/h. Sigue la banda senior de DevOps con un premium por serving de modelos.
ML research: no es una tarifa tica. Si la encontrás, es un individuo raro, con precio por reputación.

Para contexto de cómo esto compara con el mapa más amplio de tarifas de Costa Rica, nuestro mapa de roles y demanda lo cubre cruzando el resto de la ingeniería, y el pilar sobre staff augmentation técnico cubre el modelo en sí.

Stacks comunes que vemos y colocamos

No es exhaustivo, solo lo más común en nuestros placements ahora.

Python con PyTorch, a veces JAX para entrenamiento serio, Hugging Face Transformers en todas partes
Fine-tuning con LoRA / QLoRA sobre unsloth o axolotl
SDKs de Anthropic y OpenAI, con Bedrock y Vertex para deploys enterprise
Vector stores: pgvector cuando “ya tenemos Postgres”, Pinecone para escala administrada, Weaviate para búsqueda híbrida, Qdrant para los que se autohospedan
Orquestación: LangGraph y LlamaIndex son los sobrevivientes, LangChain está en modo mantenimiento para la mayoría de nuestros clientes
Evals y observabilidad: Braintrust, Langfuse, Arize Phoenix, Helicone. Las eval suites internas cada vez más son la respuesta correcta sobre las soluciones de estante
Serving: vLLM para autohospedado, Modal y Replicate para picos administrados, Triton para los setups de ops más pesados
Datos: dbt, Dagster, Great Expectations, y Postgres o Snowflake del lado del warehouse

Si tu stack está en esta lista, lo podemos cubrir. Si está muy fuera (Mojo en producción, frameworks de inferencia novedosos, aceleradores exóticos), contanos en la primera llamada y te decimos honestamente cómo está la oferta.

Cómo entrevistar sin que te chamuscan

El filtro más útil que corremos para una contratación de applied ML es una sola pregunta: “mostrame el eval suite de un pipeline de RAG que hayas shippeado”. No el diagrama de arquitectura, no la elección del modelo. El eval suite.

La razón: cualquiera puede conectar una llamada a OpenAI con un vector store en un fin de semana. La gente que de verdad corrió un modelo en producción tiene un eval suite, porque ya los mordió una regresión silenciosa. Saben de golden sets, LLM-as-judge con sus sesgos conocidos, detección de drift, catálogo de modos de falla, y la diferencia entre eval offline y eval online. Si tu candidato no tiene nada de eso y la respuesta es “vemos los outputs y ya”, no ha shippeado.

Tres señales más que funcionan.

Un take-home que pida instrumentar un pipeline chico de RAG y agregarle tres evals. Dos horas de trabajo, completamente revelador. Calificalo vos mismo.

Una sesión de debugging en vivo sobre un prompt roto o un retrieval inestable. Tiralo a un Jupyter notebook con una falla real y mirá cómo trabaja. En quince minutos vas a ver si razona sobre lo que el modelo está haciendo o si lo primero que toca es “déjame probar otro modelo”.

Una pregunta de lectura sobre costo. “Caminame cómo bajarías el costo de inferencia en este pipeline un 50%”. Un practicante real tiene opinión sobre caching, compresión de prompts, modelos más chicos para subtareas baratas, batching, y destilación offline. Alguien que solo consumió la API seis meses no la tiene.

También escribimos el pilar de qué es el staff augmentation técnico y el mapa de roles si querés el contexto cruzado de roles. Y si tu caso de uso de IA está envuelto en un build de producto más grande, construir un SaaS a la medida cubre cómo lo scopeamos.

Cuándo Costa Rica no es la respuesta

Dos casos donde te vamos a decir que contratés en otro lado, o que mezcles.

Si necesitás tres a cinco PhDs haciendo investigación de foundation models, contratá en una ciudad Tier 1 de EE.UU. o Europa. Costa Rica no es donde está ese pool.

Si necesitás cobertura on-call 24x7 con ML ops profundo, necesitás un equipo multirregional. Costa Rica para la cobertura de horario laboral en las Américas, más alguien en zonas horarias UE o APAC. Tratar de correr on-call para serving de ML con un solo equipo en Costa Rica es receta para burnout.

Para todo lo demás, sobre todo applied ML, RAG, LLM ops sobre sistemas en producción, y la capa de ingeniería alrededor de los modelos, el pool tico puede cargar el trabajo. Tenemos la banca. El patrón híbrido que funciona para la mayoría de nuestros clientes es un senior tico anclando el rol con soporte mid-level desde otro punto de Latam, lo cual cubrimos en el próximo cómo entrega 5e Labs.

Mandanos el caso de uso

Si tenés un caso de uso real de IA/ML en marcha y querés ver a quién pondríamos sobre él, el camino más rápido es contarnos el caso en una oración. Volvemos con dos o tres perfiles emparejados que podés entrevistar.

Escribinos por WhatsApp, casi siempre respondemos dentro de la hora.

¿Tienes un proyecto en mente?

Contáctanos

Más Artículos

5e-labs

Cómo trabaja 5e Labs: diseño, software, staffing y soporte desde Costa Rica

Una mirada práctica a cómo trabajamos con clientes: cuándo corremos proyectos completos, cuándo sumamos talento senior y cómo conectamos diseño e ingeniería.

Leer

Workflows AI en sistemas a medida: automatizar sin perder control

Los mejores workflows AI mantienen a la persona en control. Automatizan borradores, resúmenes, enrutamiento y revisiones sin quitar aprobación ni responsabilidad.

Leer

Integraciones AI en software empresarial: dónde ayudan y dónde meten riesgo

Las integraciones AI funcionan cuando mejoran un flujo concreto. Fallan cuando se agrega un chatbot sin datos, evaluación, permisos ni caso de uso real.

Leer