Classements hebdomadaires OpenRouter : la facturation ne ment pas — qui domine vraiment ? // NOVAKVM Engineering Blog

En milieu d'année 2026, choisir un grand modèle uniquement sur MMLU ou HumanEval revient souvent à ignorer la métrique qui compte en production : le volume de tokens réellement consommé chaque semaine. Dans les pipelines Agent et les chaînes de codage automatisé, on finit par payer un modèle « champion de bench » dont la facture explose. Cet article s'appuie sur les statistiques hebdomadaires OpenRouter (fenêtre glissante de 7 jours) pour la semaine du 18 au 24 mai 2026 : 28,9 billions de tokens traités mondialement, DeepSeek-V4-Flash en tête avec +66 %, les modèles chinois devant les États-Unis pour la quatrième semaine consécutive, et le paradoxe Anthropic — forte part de revenus en dollars malgré une part de tokens en baisse. Vous repartirez avec un runbook en six étapes pour transformer le classement public en stratégie de routage API. Tarifs et régions : page tarifs NOVAKVM, commande : page commande.

[ SECTION_01 ] // PAIN_MAP Classements benchmark vs volume hebdomadaire : quel signal reflète le marché ?

OpenRouter est l'un des plus grands agrégateurs neutres d'API IA : plus de 300 modèles, 60+ fournisseurs, et des classements publics par débit de tokens sur une semaine. Contrairement aux scores auto-déclarés par les éditeurs, le volume de tokens mesure ce pour quoi les équipes paiement ou routent durablement — un thermomètre de l'adoption réelle.

Angle mort des benchmarks : les tests statiques optimisent une réponse unique ; en production, un Agent enchaîne des milliers d'appels d'outils — la vérité facture, c'est prix × débit × stabilité.
Narratif de lancement en retard : un nouveau modèle sur OpenRouter se reflète souvent dans le classement hebdo en quelques jours, plus vite que les titres presse « modèle le plus fort ».
Bascule Chine–États-Unis : début 2025, part chinoise sous 2 % ; en mai 2026, au-delà de 45 %, avec quatre semaines consécutives de volume hebdomadaire supérieur aux modèles américains.
Divergence revenus / trafic : Anthropic environ 12 % des tokens (contre ~25 % un an plus tôt), mais toujours ~46 % des revenus en dollars sur la plateforme.
Le code domine : rapport conjoint OpenRouter et a16z (~100 billions de tokens de métadonnées anonymisées) : part « programmation » de ~11 % début 2025 à plus de 50 % — contexte essentiel pour lire le Top 10.
L'hôte sous-estimé : un routage optimal échoue si la passerelle Gateway coupe après fermeture du portable — aucun modèle bon marché ne sauve un Agent longue durée.

Les API cloud traitent les prompts sur l'infrastructure du fournisseur. Avant un déploiement sérieux, vérifiez contrat de sous-traitance, localisation des données et politique de rétention — surtout pour le code client ou les données sensibles.

Classements et méthodologie OpenRouter : à reconsulter sur la plateforme avant intégration.

https://openrouter.ai/rankings

[ SECTION_02 ] // DECISION_MATRIX Semaine du 18 au 24 mai 2026 : 28,9T de volume global et Top 10

Cette semaine, les appels API mondiaux totalisent 28,9 billions de tokens (entrée + sortie), soit +7,4 % semaine sur semaine — cinquième hausse d'affilée. Il y a un an, le volume hebdomadaire tournait autour de 2,4 billions : environ 12× en douze mois, signe d'une inférence Agent et batch à l'échelle.

Indicateurs macro hebdomadaires (2026-05-18 au 2026-05-24)
Indicateur	Valeur	WoW
Volume hebdo mondial	28,9 billions	+7,4 %
Modèles chinois	9,223 billions	+19,89 %
Modèles américains	4,93 billions	+16,27 %
Chine vs USA	Chine #1, 4e semaine	Part en expansion

OpenRouter Top 10 par tokens hebdomadaires (au 2026-05-24)
Rang	Modèle	Éditeur	Tokens / semaine	WoW / trait
1	DeepSeek-V4-Flash	DeepSeek	3,43T	+66 % ; workflows Agent, prix très bas
2	Tencent Hy3 Preview	Tencent	3,07T	+16 % ; croissance post-offre gratuite
3	Claude Sonnet 4.6	Anthropic	1,35T	Contexte 1M, codage entreprise
4	DeepSeek-V3.2	DeepSeek	1,31T	Long tail économique
5	Owl Alpha	OpenRouter	1,15T	+29 % ; Agent gratuit spécialisé
6	Gemini 3 Flash Preview	Google	1,06T	Multimodal, académique et santé
7	DeepSeek-V4-Pro	DeepSeek	1,00T	Série ~5,74T au total
8	MiniMax M2.7	MiniMax	806B	Long contexte, rapport qualité-prix
9	Grok 4.1 Fast	xAI	721B	Contexte 2M, cas juridiques
10	Step 3.5 Flash	StepFun	673B	Rapide et bon marché, batch

DeepSeek place V4-Flash, V4-Pro et V3.2 simultanément en tête : environ 5,74 billions de tokens pour la série (+25,9 % WoW), deux semaines de suite devant Anthropic et Google au niveau éditeur. Kimi K2.6 sort du Top 10 — une revue mensuelle rate ce type de fenêtre de routage.

L'argent dépensé ne ment pas : le volume hebdomadaire ne mesure pas « l'intelligence », mais « l'usage répété dans des scénarios d'ingénierie larges ».

[ SECTION_03 ] // DUAL_TRUTH Paysage éditeurs : trafic tokens, revenus dollars et triple vérité

Segments marché : trafic, tarification et utilisateurs types (mai 2026)
Segment	Exemple	Profil tokens	Utilisateurs types
Haute valeur, faible trafic	Série Claude Opus	Prix unitaire élevé, volume hebdo faible vs DeepSeek	Raisonnement entreprise complexe
Rapport qualité-prix, trafic moyen	Gemini 3 Flash	Multimodal équilibré, ~1T/semaine	Académique, santé, écosystème Google
Ultra bas prix, fort trafic	DeepSeek / Hy3 / MiniMax / StepFun	0,6T–3,4T/semaine, moteur de la croissance	Agent, code, inférence batch

Le rapport OpenRouter–a16z « AI Usage 2025 » souligne une relation souvent inverse entre scores benchmark et part de marché. Les équipes privilégient coût d'inférence, latence API et stabilité des tool calls plutôt qu'un écart de quelques points sur un leaderboard. Le « modèle le plus fort par défaut » est souvent le mauvais choix dans une chaîne Agent.

Le dilemme Anthropic : les clients entreprise paient encore la prime Claude (part dollars ~46 %), tandis que l'open source et l'ultra bas coût absorbent la majorité des nouveaux tokens. Le 22 mai 2026, DeepSeek annonce un tarif V4-Pro durablement fixé au quart du prix d'origine — l'avantage prix devient structurel, pas promotionnel.

Pour un responsable plateforme, la lecture professionnelle consiste à croiser trois courbes : tokens (masse du marché), dollars (budgets entreprise résiduels), benchmarks (capacité théorique). C'est ce croisement qui justifie un default V4-Flash pour les agents CI, un canal Sonnet pour les chemins conformité, et une veille hebdomadaire sur Hy3 et Owl Alpha — sans attendre la validation trimestrielle du comité achats.

[ SECTION_04 ] // RUNBOOK Six étapes : du classement hebdo à une stratégie de routage API

Rythme hebdomadaire fixe : chaque lundi, consulter openrouter.ai/rankings ; noter volume global, parts Chine-USA et mouvements Top 10 ; comparer à la facture interne WoW.
Routage par palier de tâche : Agent et batch par défaut sur DeepSeek-V4-Flash ou Top 3 bon marché de la semaine ; raisonnement entreprise complexe isolé sur Claude Sonnet/Opus.
Surveiller les entrées Top 10 : Hy3 Preview, Owl Alpha avec WoW >20 % signalent souvent le prochain default — tester 5 % de trafic en canary.
Séparer tokens et euros : console OpenRouter : volume tokens et débit par modèle ; forte concentration euros avec faible part tokens = trop de clés premium.
Taux de succès interne : golden issues contre modèles du classement et backups ; le ranking global ne garantit pas l'optimum pour votre dépôt.
Hôte Agent stable : Gateway, Node et logs sur Mac Mini M4/M4 Pro distant ; changement de modèle par variables d'environnement uniquement. Base SSH : centre d'aide.

weekly-rankings-check.sh

DATE=$(date +%Y-%m-%d)
curl -s https://openrouter.ai/rankings -o "/var/log/or-rankings-$DATE.html"
diff "/var/log/or-rankings-last.html" "/var/log/or-rankings-$DATE.html" \
  | mail -s "OpenRouter weekly delta" ops@example.com
cp "/var/log/or-rankings-$DATE.html" "/var/log/or-rankings-last.html"

[ SECTION_05 ] // CITABLE_FACTS Snapshot citable (semaine 2026-05-18 au 2026-05-24, pages officielles faisant foi)

Volume hebdo mondial : 28,9 billions de tokens, +7,4 % WoW, cinquième hausse ; il y a un an ~2,4T/semaine, ~12× en douze mois.
DeepSeek-V4-Flash : 3,43 billions de tokens, +66 % WoW ; MoE ~284B total / 13B actifs ; OpenRouter environ 0,14 $ / M input, 0,28 $ / M output (pages susceptibles d'évoluer).
Série DeepSeek : 5,74 billions (V4-Flash + V4-Pro + V3.2), éditeur #1 deux semaines.
Paradoxe Anthropic : ~12 % tokens vs ~46 % revenus dollars ; Claude Opus 4.6, presse ~25 M$ / mois, tokens hebdo bien inférieurs à un seul modèle DeepSeek.
Part programmation : de ~11 % début 2025 à plus de 50 % — premier contexte pour interpréter le Top 10.

Page modèle DeepSeek V4 Flash et classements OpenRouter : à revérifier avant branchement.

https://openrouter.ai/deepseek/deepseek-v4-flash

https://openrouter.ai/rankings

[ SECTION_06 ] // CLOSE Conclusion : baromètre commercial hebdo, la production Agent exige l'hôte

Les données OpenRouter de mai 2026 sont limpides : le marché vote avec l'argent. Les modèles open source chinois reconfigurent le routage mondial à coût minimal ; ce n'est pas le benchmark le plus élevé qui gagne, mais l'usage répété dans des scénarios d'ingénierie étendus. Investisseurs, développeurs et médias utilisent de plus en plus le classement hebdomadaire de tokens comme tableau de bord en temps réel — plus proche de la réalité que toute liste statique de « modèle le plus fort ».

Actualiser le tableau chaque semaine tout en exécutant les Agents sur un portable en veille, un VPS sans journalisation ou un SSH instable ne convertit pas les +66 % de DeepSeek-V4-Flash en taux de fusion de PR plus élevé. Freins habituels : coupure Gateway à la fermeture du capot, disque plein lors des mises à jour OpenClaw, timeouts tool call par jitter réseau — absents du classement, visibles dans le taux de succès.

Pour CI iOS/macOS, OpenClaw 7×24 ou Claude Code Remote avec Gateway, migrer vers un bare metal Apple Silicon dédié complète souvent mieux qu'une course aveugle aux classements. NOVAKVM propose Mac Mini M4 / M4 Pro multi-régions avec locations flexibles. Offres : page tarifs, commande : page commande, base distante : centre d'aide.

Classements hebdomadaires OpenRouter :la facturation ne ment pas — qui domine vraiment ?