@rdgp Compression (quantification 4/8 bits, pruning) : diviser la conso par 2-3 avec une perte de perf marginale.Calcul fédéré / distribution local-central : alléger les datacenters, lisser la charge.Frameworks « high throughput » : maximiser les tokens traités par unité de temps.
@rdgp Hypothèse 2 (plus probable) : les modèles deviendront moins gourmands pour les tâches courantes.La course aux nouveaux modèles a laissé de côté les optimisations. La recherche pousse fort dans cette direction. Quelques exemples 👇