Dataset comportamentale
Basato sul report di segmentazione GS, mostra dove il valore si concentra tra i giocatori Steam.
Panoramica
Un dataset di 46.157 profili di giocatori Steam. Ogni record include segnali comportamentali, classifiche per quartile, un'assegnazione deterministica al segmento e un proxy di valore standardizzato.
Non solo dati di engagement. È struttura: quali giocatori sono economicamente diversi e perché.
Campi per giocatore
Segmenti comportamentali
Profili giocatore
Segnali principali
Explorer + Collector = 27% of players → 62.5% of value
Struttura
Dieci campi per record giocatore. Tutti i campi sono tipizzati, documentati e pronti per integrazione diretta.
| Campo | Tipo | Descrizione | Esempio |
|---|---|---|---|
| user_id | string | Identificatore univoco hash per giocatore | a3f8c1... |
| library_size | int | Numero totale di record di titoli posseduti su Steam | 247 |
| total_hours | float | Ore totali su tutti i record di titoli posseduti | 4832.5 |
| top_game_hours | float | Ore sul gioco più giocato | 1247.3 |
| top_game_ratio | float | Quota delle ore totali sul titolo più giocato (0,0 a 1,0) | 0.258 |
| estimated_total_spend | float | Valore di proprietà stimato (library_size × proxy di 20 $) | 4940.0 |
| engagement_quartile | int | Rango per quartile in base alle ore totali (1 a 4) | 3 |
| ownership_quartile | int | Rango per quartile in base alla dimensione della libreria (1 a 4) | 4 |
| focus_quartile | int | Rango per quartile in base al ratio del titolo principale (1 a 4) | 2 |
| segment | string | Etichetta deterministica del segmento comportamentale | Explorer |
Anteprima
Cinque righe rappresentative, una per segmento. Tutti i campi chiave inclusi.
| user_id | library_size | total_hours | top_game_ratio | estimated_total_spend | segment |
|---|---|---|---|---|---|
| a3f8c1... | 162 | 3841 | 0.312 | 3240 | Core |
| b7d2e4... | 483 | 12023 | 0.128 | 9660 | Explorer |
| c1a9f3... | 42 | 3346 | 0.639 | 840 | Focused |
| d4e6b8... | 648 | 2891 | 0.127 | 12960 | Collector |
| e9c3a7... | 147 | 0 | 0 | 2940 | Dormant |
Tassonomia
Ampiezza media, profondità media, attenzione equilibrata. La baseline visibile di un'audience Steam. Affidabile, ma non dove si concentra il valore sproporzionato.
Alta ampiezza, alta profondità, attenzione distribuita. Investe ampiamente su molti titoli. Massima concentrazione del valore di proprietà nel dataset.
Bassa ampiezza, alta profondità, attenzione concentrata. Si impegna intensamente su pochi titoli. Alta densità di engagement, bassa ampiezza economica.
Ampiezza molto alta, profondità variabile. Comportamento guidato dalla proprietà. Massimo valore per giocatore. Acquista ampiamente indipendentemente dall'intensità di gioco.
Librerie da medie a grandi, zero ore recenti. Precedentemente attivo, attualmente inattivo. Valore di proprietà conservato senza engagement recente.
Definizioni
Ogni segnale comportamentale documentato con la sua misurazione, intervallo e guida all'interpretazione.
| Segnale | Tipo | Intervallo | Cosa misura | Interpretazione |
|---|---|---|---|---|
| library_size | int | 1 to 15,000+ | Totale dei record di titoli posseduti su Steam | Ampiezza di proprietà. Valori più alti indicano un investimento più ampio nell'ecosistema. |
| total_hours | float | 0 to 50,000+ | Ore cumulative su tutti i record di titoli | Profondità di engagement. Tempo totale investito, non recency. |
| top_game_ratio | float | 0.0 to 1.0 | Quota delle ore totali sul gioco più giocato | Concentrazione dell'attenzione. Valori bassi indicano attenzione distribuita. Valori alti indicano focus su un titolo. |
| engagement_quartile | int | 1 to 4 | Rango per quartile in base alle ore totali | Posizione relativa di engagement nel dataset |
| ownership_quartile | int | 1 to 4 | Rango per quartile in base alla dimensione della libreria | Posizione relativa di proprietà nel dataset |
| focus_quartile | int | 1 to 4 | Rango per quartile in base al ratio del gioco principale | Posizione relativa di concentrazione dell'attenzione |
| estimated_total_spend | float | $20 to $300,000+ | Proxy di valore di proprietà (library_size × 20 $) | Valore relativo di proprietà. Non è ricavo reale. |
Applicazioni
Sei flussi concreti di analisi B2B che il dataset supporta, ciascuno legato a un pattern di segnale specifico e a un esito di ricerca misurabile.
| Azione | Pattern di segnale | Esito |
|---|---|---|
| Classificare segmenti di giocatori ad alto valore per analisi di launch readiness | segment = Explorer or Collector | Identificare giocatori che investono ampiamente nell'ecosistema |
| Identificare valore di proprietà dormiente | segment = Dormant, library_size > 100 | Quantificare il valore conservato senza trattare l'inattività come rilevanza di mercato nulla |
| Separare giocatori ad alto engagement da giocatori ad alta proprietà | engagement_quartile = 4, top_game_ratio > 0.5 | Evitare di usare la profondità di engagement come proxy del valore di proprietà |
| Analizzare l'adiacenza di bundle tra titoli | library_size > 200, focus_quartile ≤ 2 | Individuare giocatori spinti dall'ampiezza che già concentrano la proprietà su titoli adiacenti |
| Assegnare punteggio alle audience rispetto alla tassonomia di segmenti nel proprio warehouse | join(player_id) → user_id | Sostituire i tier euristici di giocatore con segmenti deterministici e riproducibili |
| Validare modelli di retention e LTV su feature cross-libreria | library_size, total_hours, top_game_ratio | Ridurre i punti ciechi nei modelli costruiti solo sull'engagement first-party |
Metodologia
Tre segnali principali — ampiezza di proprietà, profondità di engagement e concentrazione dell'attenzione — vengono calcolati per giocatore. Ogni segnale viene poi classificato per quartile all'interno del dataset.
L'assegnazione del segmento è basata su regole: combinazioni deterministiche dei tre rangi per quartile mappano a uno di cinque segmenti nominati. Nessun clustering. Nessun modello statistico. Lo stesso input produce sempre lo stesso output.
Il proxy di valore stimato è library_size × 20 $, una baseline conservativa di proprietà. Non è una previsione di ricavi. È un riferimento comparativo per il valore di proprietà relativo tra giocatori.
FAQ
No. L'engagement è uno di tre input. Il dataset è una classificazione strutturale di chi sono i giocatori, non un feed di attività in tempo reale.
No. estimated_total_spend è un proxy di 20 $ a gioco. Usalo per confronti relativi tra giocatori, non come previsione di ricavi.
Sì. La mappatura basata su regole è deterministica. Rieseguendo lo stesso giocatore con gli stessi segnali si ottiene sempre lo stesso segmento.
Sì. Lo schema è aperto e unibile su user_id. La maggior parte degli acquirenti combina i segmenti GS con le proprie feature first-party.
Questo dataset è il livello dietro il report GS.
27% dei giocatori. 62,5% del valore.