Dataset comportamental
Baseado no report de segmentação GS, mostra onde o valor se concentra entre os jogadores Steam.
Visão geral
Um dataset com 46.157 perfis de jogadores Steam. Cada registro inclui sinais comportamentais, posicionamentos por quartil, uma atribuição determinística de segmento e um proxy de valor padronizado.
Não é só dado de engajamento. É estrutura: quais jogadores são economicamente diferentes e por quê.
Campos por jogador
Segmentos comportamentais
Perfis de jogador
Sinais principais
Explorer + Collector = 27% of players → 62.5% of value
Estrutura
Dez campos por registro de jogador. Todos os campos tipados, documentados e prontos para integração direta.
| Campo | Tipo | Descrição | Exemplo |
|---|---|---|---|
| user_id | string | Identificador único hash por jogador | a3f8c1... |
| library_size | int | Total de registros de títulos possuídos no Steam | 247 |
| total_hours | float | Horas totais em todos os registros de títulos possuídos | 4832.5 |
| top_game_hours | float | Horas no jogo mais jogado | 1247.3 |
| top_game_ratio | float | Parcela das horas totais no título mais jogado (0,0 a 1,0) | 0.258 |
| estimated_total_spend | float | Valor estimado de propriedade (library_size × proxy de 20 $) | 4940.0 |
| engagement_quartile | int | Posição por quartil pelas horas totais (1 a 4) | 3 |
| ownership_quartile | int | Posição por quartil pelo tamanho da biblioteca (1 a 4) | 4 |
| focus_quartile | int | Posição por quartil pelo ratio do título principal (1 a 4) | 2 |
| segment | string | Etiqueta determinística do segmento comportamental | Explorer |
Prévia
Cinco linhas representativas, uma por segmento. Todos os campos-chave incluídos.
| user_id | library_size | total_hours | top_game_ratio | estimated_total_spend | segment |
|---|---|---|---|---|---|
| a3f8c1... | 162 | 3841 | 0.312 | 3240 | Core |
| b7d2e4... | 483 | 12023 | 0.128 | 9660 | Explorer |
| c1a9f3... | 42 | 3346 | 0.639 | 840 | Focused |
| d4e6b8... | 648 | 2891 | 0.127 | 12960 | Collector |
| e9c3a7... | 147 | 0 | 0 | 2940 | Dormant |
Taxonomia
Amplitude média, profundidade média, atenção equilibrada. A linha de base visível de uma audiência Steam. Confiável, mas não é onde o valor desproporcional se concentra.
Alta amplitude, alta profundidade, atenção distribuída. Investe amplamente em muitos títulos. Maior concentração de valor de propriedade no dataset.
Baixa amplitude, alta profundidade, atenção concentrada. Compromete-se intensamente com poucos títulos. Alta densidade de engajamento, baixa amplitude econômica.
Amplitude muito alta, profundidade variável. Comportamento orientado por propriedade. Maior valor por jogador. Compra amplamente independentemente da intensidade de jogo.
Bibliotecas médias a grandes, zero horas recentes. Antes ativo, atualmente inativo. Valor de propriedade armazenado sem engajamento recente.
Definições
Cada sinal comportamental documentado com sua medição, faixa e guia de interpretação.
| Sinal | Tipo | Faixa | O que mede | Interpretação |
|---|---|---|---|---|
| library_size | int | 1 to 15,000+ | Total de registros de títulos possuídos no Steam | Amplitude de propriedade. Valores mais altos indicam investimento mais amplo no ecossistema. |
| total_hours | float | 0 to 50,000+ | Horas cumulativas em todos os registros de títulos | Profundidade de engajamento. Tempo total investido, não recência. |
| top_game_ratio | float | 0.0 to 1.0 | Parcela das horas totais no jogo mais jogado | Concentração de atenção. Valores baixos indicam atenção distribuída. Valores altos indicam foco em um título. |
| engagement_quartile | int | 1 to 4 | Posição por quartil pelas horas totais | Posição relativa de engajamento dentro do dataset |
| ownership_quartile | int | 1 to 4 | Posição por quartil pelo tamanho da biblioteca | Posição relativa de propriedade dentro do dataset |
| focus_quartile | int | 1 to 4 | Posição por quartil pelo ratio do jogo principal | Posição relativa de concentração de atenção |
| estimated_total_spend | float | $20 to $300,000+ | Proxy de valor de propriedade (library_size × 20 $) | Valor relativo de propriedade. Não é receita real. |
Aplicações
Seis fluxos concretos de análise B2B suportados pelo dataset, cada um ligado a um padrão de sinal específico e a um resultado de pesquisa mensurável.
| Ação | Padrão de sinal | Resultado |
|---|---|---|
| Rankear segmentos de jogadores de alto valor para análise de prontidão para launch | segment = Explorer or Collector | Identificar jogadores que investem amplamente no ecossistema |
| Identificar valor de propriedade dormente | segment = Dormant, library_size > 100 | Quantificar valor armazenado sem tratar inatividade como zero relevância de mercado |
| Separar jogadores de alto engajamento de jogadores de alta propriedade | engagement_quartile = 4, top_game_ratio > 0.5 | Evitar usar profundidade de engajamento como proxy do valor de propriedade |
| Analisar adjacência de bundles entre títulos | library_size > 200, focus_quartile ≤ 2 | Localizar jogadores movidos pela amplitude que já concentram propriedade em títulos adjacentes |
| Pontuar audiências contra a taxonomia de segmentos no seu warehouse | join(player_id) → user_id | Substituir tiers heurísticos de jogador por segmentos determinísticos e reproduzíveis |
| Validar modelos de retenção e LTV em features cross-biblioteca | library_size, total_hours, top_game_ratio | Reduzir pontos cegos em modelos baseados apenas em engajamento first-party |
Metodologia
Três sinais principais — amplitude de propriedade, profundidade de engajamento e concentração de atenção — são calculados por jogador. Cada sinal é então classificado em quartis dentro do dataset.
A atribuição de segmento é baseada em regras: combinações determinísticas dos três rankings por quartil mapeiam para um de cinco segmentos nomeados. Sem clusterização. Sem modelo estatístico. A mesma entrada produz sempre a mesma saída.
O proxy de valor estimado é library_size × 20 $, uma linha de base conservadora de propriedade. Não é uma previsão de receita. É uma âncora comparativa para o valor relativo de propriedade entre jogadores.
FAQ
Não. Engajamento é uma de três entradas. O dataset é uma classificação estrutural de quem são os jogadores, não um feed de atividade em tempo real.
Não. estimated_total_spend é um proxy de 20 $ por jogo. Use-o para comparações relativas entre jogadores, não como previsão de receita.
Sim. O mapeamento baseado em regras é determinístico. Reexecutar o mesmo jogador com os mesmos sinais sempre produz o mesmo segmento.
Sim. O schema é aberto e juntável por user_id. A maioria dos compradores combina os segmentos GS com suas features first-party.
Este dataset é a camada por trás do report GS.
27% dos jogadores. 62,5% do valor.