L'alternative au Cloud : Auto-héberger 30 Po de stockage pour l'IA
Pour entraîner une intelligence artificielle révolutionnaire basée sur l'apprentissage vidéo, cinq jeunes développeurs ont choisi de rejeter les offres des géants du cloud. En un seul week-end, ils ont conçu et assemblé leur propre infrastructure de stockage de 30 pétaoctets (Po), surmontant des défis techniques majeurs avec pragmatisme.
💡 Le Besoin & Le Problème L’entraînement de leur IA, conçue pour utiliser un PC comme un humain, exige un dataset vidéo de 30 Po. Face aux devis mensuels prohibitifs d'AWS (130 000 $) ou Cloudflare (270 000 $), les fondateurs ont remis en question la nécessité de la haute redondance du Cloud (durabilité de 99,999999999%). Leurs données d'entraînement n'étant pas critiques, une perte marginale de fichiers restait tout à fait acceptable.
🛠️ Solution Matérielle & Coûts En louant une baie locale (17 500 $/mois pour l’électricité et un réseau 100 Gbps dédié), ils ont investi 426 500 $ en capital (CapEx) :
- 300 000 $ pour 2 400 disques durs de 12 To.
- 100 châssis JBOD d'occasion de 24 baies.
- 10 serveurs d'occasion eBay à 600 $/unité (double Xeon, 128 Go RAM).
- 20 000 $ de connectique et commutateurs. Cet investissement en capital initial est devenu rentable en seulement un mois et demi d'exploitation.
🚀 Installation & Choix Techniques L’assemblage s'est fait en un week-end collaboratif baptisé le « Storage Stacking Saturday », en réunissant de nombreux proches. Pour simplifier l'architecture logicielle, l'équipe a rejeté les systèmes distribués complexes (Ceph) au profit d’un serveur web Nginx couplé à un script Rust de 200 lignes. Le réseau utilise des IP publiques directes avec pare-feu et un chaînage (« daisy-chaining ») des JBOD.
⚠️ Erreurs & Retours d'Expérience Plusieurs arbitrages initiaux ont complexifié l'opération :
- Disques sous-dimensionnés : Opter pour du 12 To au lieu de 24 To a quadruplé le volume de montage manuel et la consommation électrique.
- Fibre vs Cuivre : La fibre 100G a généré des incompatibilités de firmware de transmetteurs, évitables avec du cuivre à courte distance.
- Logistique : L'absence de console KVM portable a freiné le débogage sur site.
🧠 Leçon clé : Le cloud offre une résilience premium souvent superflue. Adapter l'infrastructure aux besoins réels permet de concilier performances extrêmes et économies drastiques.