Handleiding

Hoe u uw eigen AI draait in plaats van ChatGPT (Handleiding Zelf-Gehost 2026)

Draai ChatGPT-niveau AI op uw eigen servers met open-source modellen. Opties, hardwarevereisten en stap-voor-stap installatiehandleiding.

U kunt een groot taalmodel dat even capabel is als ChatGPT draaien op een server in uw kantoor — of in een Europees datacenter dat u beheert. De modelgewichten zijn gratis. De inference-software is gratis. Uw data raakt nooit de infrastructuur van iemand anders.

Waarom zelf hosten

Drie krachten drijven Europese bedrijven richting zelfgehoste AI: datasoevereiniteit is niet onderhandelbaar (elke prompt die OpenAI bereikt vormt een AVG-aansprakelijkheid), Shadow AI zit al in uw bedrijf (77% van medewerkers gebruikt niet-goedgekeurde AI-tools), en kostenvoorspelbaarheid (vaste infrastructuurkosten versus per-seat prijzen die lineair stijgen).

De modellen: wat te draaien in 2026

Het open-source modellandschap is dramatisch volwassen geworden. De topkeuzes: Llama 3.3 70B voor de beste balans tussen capaciteit en resourcevereisten, DeepSeek R1 67B voor code en complex analytisch redeneren, en Mistral 7B of Gemma 9B voor een kleiner, sneller model op bescheiden hardware.

De tools: hoe modellen te serveren

Ollama is het eenvoudigste pad. vLLM is de productieklare inference-engine. Hugging Face TGI biedt geavanceerde serverfuncties. ORCA is geen toolkit maar een compleet platform met inferentie, modelbeheer, RAG-pipeline, gebruikersinterface en audit trail.

Hardwarevereisten

Minimum (ontwikkeling/klein team): 16 GB RAM, GPU aanbevolen, 7B-13B modellen. Productie (10-50 gebruikers): NVIDIA A100 40GB, 70B modellen, budget EUR 10.000-25.000. Enterprise (50-200+ gebruikers): 2-4x NVIDIA A100 80GB, budget EUR 50.000-150.000.

Wanneer zelf hosten niet genoeg is

Als u geen ML-engineeringcapaciteit heeft, gegarandeerde SLA’s nodig heeft, compliance complex is, of u zich wilt richten op het gebruik van AI in plaats van het beheren ervan — dan overbrugt een beheerde on-premise oplossing de kloof. ORCA van HT-X is precies hiervoor gebouwd.

Veelgestelde vragen

On-premise LLM's (Large Language Models) zijn AI-modellen die direct op bedrijfsservers worden geinstalleerd, in plaats van via clouddiensten te worden gebruikt. Dit garandeert dat data nooit de bedrijfsinfrastructuur verlaat, wat totale privacy en AVG-conformiteit biedt.

De toonaangevende open-source modellen in 2026 zijn: Llama 3 (Meta) voor algemeen gebruik, Mistral voor efficientie en Europese taalprestaties, DeepSeek voor geavanceerd redeneren, Qwen 3.5 (Alibaba) voor multimodale en meertalige taken. ORCA ondersteunt al deze modellen.

Het hangt af van het model en het aantal gebruikers. Voor een MKB-bedrijf met 10-50 gebruikers volstaat een server met een NVIDIA A100 GPU of equivalent voor 7-13B parameter modellen. Voor grotere modellen (70B+) zijn multi-GPU configuraties nodig.

Zelf hosten te complex?

ORCA biedt u private AI zonder infrastructuurbeheer. Dezelfde open-source modellen, dezelfde datasoevereiniteit — maar HT-X regelt de setup, updates en ondersteuning.

Vraag een pilot aan