KI-Engineering & AI Solutions
RAG, MCP, AI-Agents — produktiv integriert, nicht nur prototypisiert.
Aus 25+ Jahren verteilten Systemen kommend baue ich AI-native Architekturen, die in echten Produktionsumgebungen bestehen. Nicht nur eine Demo, die läuft — sondern Latenz, Kosten, Wartbarkeit und Compliance gleichzeitig im Griff.
Mein Ansatz
Die meisten gescheiterten KI-Projekte hatten keine schlechten Modelle — sie hatten keine Architektur. Drei Prinzipien, an denen ich Projekte ausrichte:
Modular statt monolithisch – LLM, Retrieval, Tooling als austauschbare Bausteine. So überlebt das System die nächsten 18 Monate Modell-Generation.
Beobachtbar statt Black Box – Tracing über jede Inferenz, Token-Kosten pro Request, Eval-Pipeline für Regressionen.
Konservativ vor Magic – RAG vor Fine-Tuning, Tool-Use vor Multi-Agent, deterministisch vor LLM, wo immer möglich.
Capabilities
RAG-Systeme
Document Ingestion, Chunking-Strategien, hybride Suche (Vektor + Keyword). Produktiv im Einsatz mit Dify + Weaviate auf eigenem Kubernetes-Cluster — diese Website selbst. Hands-on auch mit pgvector und Qdrant.
MCP-Server & AI-Tooling
Mehrere produktive MCP-Server entwickelt — u.a. für Enterprise-DataHub-Abfragen bei der Hoffmann Group. Claude, GPT-4 und lokale Modelle mit echten Tools verbunden.
AI-Agents & Workflow-Automatisierung
Eigene AI-Agents, die Entwicklungsaufgaben autonom übernehmen und über das Ticketing-System mit dem Team kommunizieren — echte Human-Machine Integration. Automatisierte Code-Reviews in GitLab, GitHub und Azure DevOps.
LLM-Integration in Enterprise
OpenAI, Anthropic sowie Open-Source-Modelle (Llama, Mistral). Model-Selection, Cost-Optimization, Fallback-Chains. Fine-Tuning evaluiert (LoRA, OpenAI), gezielt eingesetzt wo RAG nicht reicht.
KI-native Infrastruktur
Kubernetes-native AI-Workloads, GitOps für ML-Pipelines, Model Versioning. Selbst gehostet auf eigenem Kubernetes-Cluster — diese Website plus Dify plus Weaviate ist das laufende Beispiel.
KI in Produktion – echte Projekte
th3chris.com – RAG-powered Portfolio (Live-Demo)
Diese Website selbst: Dify-basiertes RAG-System mit Weaviate Vector DB, hauseigene Knowledge Base, GPT-4 und Streaming-Antworten. Self-hosted auf eigenem Kubernetes-Cluster mit GitOps.
Hoffmann Group – KI-Integration in Enterprise-DataHubs
Der MCP-Server hat das DataHub-Backend erstmals direkt für KI-Tools zugänglich gemacht — Entwickler können seitdem in natürlicher Sprache Queries formulieren, statt GraphQL-Schemata auswendig zu lernen. Die KI-Assistenz im Playground beschleunigt das Onboarding neuer Use-Cases und Konsumenten spürbar.
Human-Machine Integration – AI-Agents im Dev-Workflow
Eigenentwickelte AI-Agents übernehmen Entwicklungsaufgaben vollautomatisch und kommunizieren über das Ticketing-System (GitLab) mit den menschlichen Teammitgliedern. Zusätzlich automatisierte Code-Reviews über GitLab, GitHub und Azure DevOps. Brückentechnologie zwischen klassischen Microservice-Landschaften und LLM-gestützten Werkzeugen.
Wann KI nicht die Antwort ist
Souveränität heißt auch zu wissen, wann man KI weglassen sollte. Vier typische Fälle, in denen ich klassische Lösungen oder einen Menschen im Loop empfehle:
Wenn Determinismus zählt — Buchhaltung, Compliance, Abrechnung. Regelbasierte Systeme schlagen LLMs in jedem Audit.
Wenn der Korpus ins Context-Window passt — alle Dokumente direkt ins Prompt zu geben ist einfacher, deterministischer und beweisbarer als RAG. Vector-DB + Embeddings rechtfertigt sich erst ab Bestandsgrößen, bei denen ein Full-Dump zu teuer in Tokens wird.
Wenn der Output nicht überprüfbar ist — LLM-Antworten ohne Eval-Pipeline und Guardrails sind ein Compliance-Risiko, kein Feature.
Wenn die Konsequenz irreversibel ist — medizinische Diagnosen, Compliance-Entscheidungen, finanzielle Freigaben, sicherheitskritische Steuerung. KI gehört in solche Workflows als Vorschlagsgeber und Beschleuniger, nicht als Letztentscheider. Ein Mensch im Loop ist hier kein Bremsklotz, sondern Voraussetzung: Verantwortung muss delegierbar bleiben — und LLMs antworten auch dann selbstbewusst, wenn sie danebenliegen.
Klingt nach deinem Projekt?
Ein paar gezielte Fragen statt starres Formular — ich verstehe in 2–3 Minuten, worum es geht, und melde mich persönlich.