Dataset conductual
Basado en el report de segmentación GS, muestra dónde se concentra el valor entre los jugadores de Steam.
Resumen
Un dataset de 46.157 perfiles de jugadores de Steam. Cada registro incluye señales conductuales, rangos por cuartil, una asignación de segmento determinista y un proxy de valor estandarizado.
No son solo datos de engagement. Es estructura: qué jugadores son económicamente diferentes y por qué.
Campos por jugador
Segmentos conductuales
Perfiles de jugador
Señales principales
Explorer + Collector = 27% of players → 62.5% of value
Estructura
Diez campos por jugador y registro. Todos los campos están tipados, documentados y listos para integración directa.
| Campo | Tipo | Descripción | Ejemplo |
|---|---|---|---|
| user_id | string | Identificador único hash por jugador | a3f8c1... |
| library_size | int | Total de registros de títulos en propiedad en Steam | 247 |
| total_hours | float | Horas totales en todos los registros de títulos | 4832.5 |
| top_game_hours | float | Horas en el juego más jugado | 1247.3 |
| top_game_ratio | float | Proporción de horas totales en el título más jugado (0,0 a 1,0) | 0.258 |
| estimated_total_spend | float | Valor estimado de propiedad (library_size × proxy de 20 $) | 4940.0 |
| engagement_quartile | int | Rango por cuartil según horas totales (1 a 4) | 3 |
| ownership_quartile | int | Rango por cuartil según tamaño de biblioteca (1 a 4) | 4 |
| focus_quartile | int | Rango por cuartil según ratio del título principal (1 a 4) | 2 |
| segment | string | Etiqueta determinista de segmento conductual | Explorer |
Vista previa
Cinco filas representativas, una por segmento. Todos los campos clave incluidos.
| user_id | library_size | total_hours | top_game_ratio | estimated_total_spend | segment |
|---|---|---|---|---|---|
| a3f8c1... | 162 | 3841 | 0.312 | 3240 | Core |
| b7d2e4... | 483 | 12023 | 0.128 | 9660 | Explorer |
| c1a9f3... | 42 | 3346 | 0.639 | 840 | Focused |
| d4e6b8... | 648 | 2891 | 0.127 | 12960 | Collector |
| e9c3a7... | 147 | 0 | 0 | 2940 | Dormant |
Taxonomía
Amplitud media, profundidad media, atención equilibrada. La línea base visible de una audiencia de Steam. Fiable, pero no donde se concentra el valor desproporcionado.
Alta amplitud, alta profundidad, atención distribuida. Invierte ampliamente en muchos títulos. Mayor concentración de valor de propiedad en el dataset.
Baja amplitud, alta profundidad, atención concentrada. Se compromete intensamente con pocos títulos. Alta densidad de engagement, baja amplitud económica.
Amplitud muy alta, profundidad variable. Comportamiento dirigido por la propiedad. Mayor valor por jugador. Compra ampliamente sin importar la intensidad de juego.
Bibliotecas medianas a grandes, cero horas recientes. Antes activo, ahora inactivo. Valor de propiedad almacenado sin engagement reciente.
Definiciones
Cada señal conductual documentada con su medición, rango y guía de interpretación.
| Señal | Tipo | Rango | Qué mide | Interpretación |
|---|---|---|---|---|
| library_size | int | 1 to 15,000+ | Total de registros de títulos en propiedad en Steam | Amplitud de propiedad. Valores más altos indican una inversión más amplia en el ecosistema. |
| total_hours | float | 0 to 50,000+ | Horas acumuladas en todos los registros de títulos | Profundidad de engagement. Tiempo total invertido, no recencia. |
| top_game_ratio | float | 0.0 to 1.0 | Proporción de horas totales en el juego más jugado | Concentración de atención. Valores bajos indican atención distribuida. Valores altos indican foco en un título. |
| engagement_quartile | int | 1 to 4 | Rango por cuartil según horas totales | Posición relativa de engagement dentro del dataset |
| ownership_quartile | int | 1 to 4 | Rango por cuartil según tamaño de biblioteca | Posición relativa de propiedad dentro del dataset |
| focus_quartile | int | 1 to 4 | Rango por cuartil según ratio del juego principal | Posición relativa de concentración de atención |
| estimated_total_spend | float | $20 to $300,000+ | Proxy de valor de propiedad (library_size × 20 $) | Valor relativo de propiedad. No es ingreso real. |
Aplicaciones
Seis flujos concretos de análisis B2B que el dataset soporta, cada uno ligado a un patrón de señal específico y a un resultado medible de investigación.
| Acción | Patrón de señal | Resultado |
|---|---|---|
| Rankear segmentos de jugadores de alto valor para análisis de launch readiness | segment = Explorer or Collector | Identificar jugadores que invierten ampliamente en el ecosistema |
| Identificar valor de propiedad inactivo | segment = Dormant, library_size > 100 | Cuantificar valor almacenado sin tratar la inactividad como nula relevancia de mercado |
| Separar jugadores de alto engagement de jugadores de alta propiedad | engagement_quartile = 4, top_game_ratio > 0.5 | Evitar usar la profundidad de engagement como proxy del valor de propiedad |
| Analizar adyacencia de bundles entre títulos | library_size > 200, focus_quartile ≤ 2 | Localizar jugadores impulsados por amplitud que ya concentran propiedad en títulos adyacentes |
| Puntuar audiencias contra la taxonomía de segmentos en tu warehouse | join(player_id) → user_id | Reemplazar tiers heurísticos de jugador por segmentos deterministas y reproducibles |
| Validar modelos de retención y LTV con features cross-library | library_size, total_hours, top_game_ratio | Reducir puntos ciegos en modelos basados solo en engagement first-party |
Metodología
Tres señales principales —amplitud de propiedad, profundidad de engagement y concentración de atención— se calculan por jugador. Cada señal se ordena luego por cuartil dentro del dataset.
La asignación de segmento es basada en reglas: combinaciones deterministas de los tres rangos por cuartil mapean a uno de cinco segmentos nombrados. Sin clustering. Sin modelo estadístico. La misma entrada produce siempre la misma salida.
El proxy de valor estimado es library_size × 20 $, una línea base conservadora de propiedad. No es una predicción de ingresos. Es un anclaje comparativo del valor relativo de propiedad entre jugadores.
FAQ
No. Engagement es una de tres entradas. El dataset es una clasificación estructural de quiénes son los jugadores, no un feed de actividad en tiempo real.
No. estimated_total_spend es un proxy de 20 $ por juego. Úsalo para comparaciones relativas entre jugadores, no como pronóstico de ingresos.
Sí. El mapeo basado en reglas es determinista. Volver a ejecutar el mismo jugador con las mismas señales produce siempre el mismo segmento.
Sí. El esquema es abierto y se puede unir por user_id. La mayoría de los compradores combinan los segmentos de GS con sus features first-party.
Este dataset es la capa detrás del report GS.
27 % de los jugadores. 62,5 % del valor.