Dataset comportemental
Basé sur le report de segmentation GS, montre où la valeur se concentre chez les joueurs Steam.
Aperçu
Un dataset de 46 157 profils de joueurs Steam. Chaque enregistrement comprend des signaux comportementaux, des classements par quartile, une affectation de segment déterministe et un proxy de valeur standardisé.
Ce ne sont pas que des données d'engagement. C'est une structure : quels joueurs sont économiquement différents et pourquoi.
Champs par joueur
Segments comportementaux
Profils joueur
Signaux principaux
Explorer + Collector = 27% of players → 62.5% of value
Structure
Dix champs par joueur et enregistrement. Tous les champs sont typés, documentés et prêts pour intégration directe.
| Champ | Type | Description | Exemple |
|---|---|---|---|
| user_id | string | Identifiant unique haché par joueur | a3f8c1... |
| library_size | int | Total d'enregistrements de titres possédés sur Steam | 247 |
| total_hours | float | Heures totales sur tous les enregistrements de titres possédés | 4832.5 |
| top_game_hours | float | Heures sur le jeu le plus joué | 1247.3 |
| top_game_ratio | float | Part des heures totales sur le titre le plus joué (0,0 à 1,0) | 0.258 |
| estimated_total_spend | float | Valeur de propriété estimée (library_size × proxy de 20 $) | 4940.0 |
| engagement_quartile | int | Rang par quartile selon les heures totales (1 à 4) | 3 |
| ownership_quartile | int | Rang par quartile selon la taille de bibliothèque (1 à 4) | 4 |
| focus_quartile | int | Rang par quartile selon le ratio du titre principal (1 à 4) | 2 |
| segment | string | Étiquette de segment comportemental déterministe | Explorer |
Aperçu
Cinq lignes représentatives, une par segment. Tous les champs clés inclus.
| user_id | library_size | total_hours | top_game_ratio | estimated_total_spend | segment |
|---|---|---|---|---|---|
| a3f8c1... | 162 | 3841 | 0.312 | 3240 | Core |
| b7d2e4... | 483 | 12023 | 0.128 | 9660 | Explorer |
| c1a9f3... | 42 | 3346 | 0.639 | 840 | Focused |
| d4e6b8... | 648 | 2891 | 0.127 | 12960 | Collector |
| e9c3a7... | 147 | 0 | 0 | 2940 | Dormant |
Taxonomie
Ampleur moyenne, profondeur moyenne, attention équilibrée. La base visible d'une audience Steam. Fiable, mais pas l'endroit où la valeur démesurée se concentre.
Grande ampleur, grande profondeur, attention distribuée. Investit largement à travers de nombreux titres. Plus grande concentration de valeur de propriété dans le dataset.
Faible ampleur, grande profondeur, attention concentrée. S'engage intensément sur peu de titres. Forte densité d'engagement, faible ampleur économique.
Très grande ampleur, profondeur variable. Comportement piloté par la propriété. Plus haute valeur par joueur. Achète largement quelle que soit l'intensité de jeu.
Bibliothèques moyennes à grandes, zéro heure récente. Auparavant actif, actuellement inactif. Valeur de propriété stockée sans engagement récent.
Définitions
Chaque signal comportemental documenté avec sa mesure, sa plage et son guide d'interprétation.
| Signal | Type | Plage | Ce qu'il mesure | Interprétation |
|---|---|---|---|---|
| library_size | int | 1 to 15,000+ | Total d'enregistrements de titres possédés sur Steam | Ampleur de propriété. Des valeurs plus élevées indiquent un investissement plus large dans l'écosystème. |
| total_hours | float | 0 to 50,000+ | Heures cumulées sur tous les enregistrements de titres | Profondeur d'engagement. Temps total investi, pas la récence. |
| top_game_ratio | float | 0.0 to 1.0 | Part des heures totales sur le jeu le plus joué | Concentration d'attention. Des valeurs basses indiquent une attention distribuée. Des valeurs élevées indiquent une focalisation sur un titre. |
| engagement_quartile | int | 1 to 4 | Rang par quartile selon les heures totales | Position relative d'engagement dans le dataset |
| ownership_quartile | int | 1 to 4 | Rang par quartile selon la taille de bibliothèque | Position relative de propriété dans le dataset |
| focus_quartile | int | 1 to 4 | Rang par quartile selon le ratio du jeu principal | Position relative de concentration d'attention |
| estimated_total_spend | float | $20 to $300,000+ | Proxy de valeur de propriété (library_size × 20 $) | Valeur de propriété relative. Pas un revenu réel. |
Applications
Six flux concrets d'analyse B2B que le dataset prend en charge, chacun lié à un motif de signal spécifique et à un résultat de recherche mesurable.
| Action | Motif de signal | Résultat |
|---|---|---|
| Classer les segments de joueurs à haute valeur pour l'analyse de launch readiness | segment = Explorer or Collector | Identifier les joueurs qui investissent largement dans l'écosystème |
| Identifier la valeur de propriété dormante | segment = Dormant, library_size > 100 | Quantifier la valeur stockée sans traiter l'inactivité comme une pertinence de marché nulle |
| Séparer les joueurs à fort engagement des joueurs à forte propriété | engagement_quartile = 4, top_game_ratio > 0.5 | Éviter d'utiliser la profondeur d'engagement comme proxy de la valeur de propriété |
| Analyser l'adjacence de bundles entre titres | library_size > 200, focus_quartile ≤ 2 | Localiser les joueurs portés par l'ampleur qui concentrent déjà la propriété sur des titres adjacents |
| Scorer les audiences contre la taxonomie de segments dans votre warehouse | join(player_id) → user_id | Remplacer les paliers heuristiques de joueur par des segments déterministes et reproductibles |
| Valider les modèles de rétention et de LTV avec des features cross-bibliothèque | library_size, total_hours, top_game_ratio | Réduire les angles morts dans les modèles bâtis uniquement sur l'engagement first-party |
Méthodologie
Trois signaux principaux — ampleur de propriété, profondeur d'engagement et concentration d'attention — sont calculés par joueur. Chaque signal est ensuite classé en quartile au sein du dataset.
L'affectation de segment est basée sur des règles : des combinaisons déterministes des trois rangs par quartile correspondent à un des cinq segments nommés. Pas de clustering. Pas de modèle statistique. La même entrée produit toujours la même sortie.
Le proxy de valeur estimée est library_size × 20 $, une base de propriété conservatrice. Ce n'est pas une prévision de revenus. C'est un point d'ancrage comparatif pour la valeur de propriété relative entre joueurs.
FAQ
Non. L'engagement est l'une des trois entrées. Le dataset est une classification structurelle de qui sont les joueurs, pas un flux d'activité en temps réel.
Non. estimated_total_spend est un proxy de 20 $ par jeu. Utilisez-le pour des comparaisons relatives entre joueurs, pas comme prévision de revenus.
Oui. Le mapping basé sur des règles est déterministe. Réexécuter le même joueur avec les mêmes signaux produit toujours le même segment.
Oui. Le schéma est ouvert et joignable par user_id. La plupart des acheteurs combinent les segments GS avec leurs features first-party.
Ce dataset est la couche derrière le report GS.
27 % des joueurs. 62,5 % de la valeur.