行为数据集

价值分布数据集

基于 GS 分群报告,展示价值在 Steam 玩家中如何分布。

46,157 名玩家|5 个分群|确定性|Schema 就绪

概览

你将获得什么

包含 46,157 个 Steam 玩家档案的数据集。每条记录都包含行为信号、四分位排名、确定性的分群分配以及标准化的价值代理。

这不仅是参与数据,还是结构:哪些玩家在经济意义上不同,以及为何不同。

10

每位玩家字段数

5

行为分群数

46K+

玩家档案数

3

核心信号数

Player share ≠ Value share

Explorer + Collector = 27% of players → 62.5% of value

Player share
Value share
Majority of value sits here: Explorer + Collector

结构

Schema

每条玩家记录十个字段。所有字段均经过类型化、文档化,可直接集成。

字段类型描述示例
user_idstring每位玩家的哈希唯一标识a3f8c1...
library_sizeintSteam 上拥有的作品记录总数247
total_hoursfloat所有拥有作品记录的总小时数4832.5
top_game_hoursfloat在最常玩游戏中的小时数1247.3
top_game_ratiofloat最常玩作品占总小时数的比例(0.0 到 1.0)0.258
estimated_total_spendfloat估算拥有价值(library_size × 20 美元代理)4940.0
engagement_quartileint按总小时数划分的四分位排名(1 到 4)3
ownership_quartileint按库容量划分的四分位排名(1 到 4)4
focus_quartileint按主作品占比划分的四分位排名(1 到 4)2
segmentstring确定性的行为分群标签Explorer

预览

样本数据(代表性行)

五行代表性数据,每个分群一行。包含所有关键字段。

user_idlibrary_sizetotal_hourstop_game_ratioestimated_total_spendsegment
a3f8c1...16238410.3123240Core
b7d2e4...483120230.1289660Explorer
c1a9f3...4233460.639840Focused
d4e6b8...64828910.12712960Collector
e9c3a7...147002940Dormant

分类

分群定义

Core

中等广度、中等深度、注意力均衡。Steam 受众的可见基线。可靠,但并非超额价值集中之处。

Explorer

高广度、高深度、注意力分散。在众多作品上广泛投资。在数据集中拥有最高的拥有价值集中度。

Focused

低广度、高深度、注意力集中。对少数作品投入很深。参与密度高,经济广度低。

Collector

极高广度、深度可变。由拥有驱动的行为。每位玩家价值最高。无论游玩强度如何都广泛购买。

Dormant

中到大库、零近期小时。先前活跃,目前不活跃。在没有近期参与的情况下保留拥有价值。

定义

信号定义

每个行为信号均记录其测量、范围与解读指引。

信号类型范围测量内容解读
library_sizeint1 to 15,000+Steam 上拥有的作品记录总数拥有广度。值越高,代表在生态中投资越广。
total_hoursfloat0 to 50,000+所有作品记录上累计的小时数参与深度。投入的总时间,而非新近度。
top_game_ratiofloat0.0 to 1.0最常玩游戏占总小时数的比例注意力集中度。值低代表注意力分散,值高代表聚焦于一个作品。
engagement_quartileint1 to 4按总小时数划分的四分位排名在数据集内的相对参与度位置
ownership_quartileint1 to 4按库容量划分的四分位排名在数据集内的相对拥有位置
focus_quartileint1 to 4按主作品占比划分的四分位排名在数据集内的相对注意力集中位置
estimated_total_spendfloat$20 to $300,000+拥有价值代理(library_size × 20 美元)相对的拥有价值。并非真实收入。

应用

采购方应用

数据集支持的六个具体 B2B 分析工作流,每一个都对应一种特定的信号模式与可衡量的研究产出。

动作信号模式产出
为上线就绪分析对高价值玩家分群进行排序segment = Explorer or Collector识别在生态中广泛投资的玩家
识别沉睡的拥有价值segment = Dormant, library_size > 100在不把不活跃当作零市场相关性的前提下,量化已存储价值
区分高参与玩家与高拥有玩家engagement_quartile = 4, top_game_ratio > 0.5避免把参与深度当作拥有价值的代理
分析跨作品的捆绑相邻性library_size > 200, focus_quartile ≤ 2定位以广度为主、已在相邻作品上集中拥有的玩家
在自有数据仓库中按分群分类法对受众打分join(player_id) → user_id用确定性、可复现的分群替代启发式的玩家分层
在跨库特征上验证留存与 LTV 模型library_size, total_hours, top_game_ratio减少仅基于 first-party 参与构建的模型中的盲区

方法论

分群是如何构建的

三个主要信号 —— 拥有广度、参与深度与注意力集中度 —— 在玩家维度上计算。每个信号在数据集中按四分位排序。

分群分配基于规则:三个四分位排名的确定性组合映射到五个命名分群之一。无聚类。无统计模型。相同输入始终产生相同输出。

估算价值代理为 library_size × 20 美元,作为保守的拥有基线。它不是收入预测。它是用于在玩家间比较相对拥有价值的参照锚。

常见问题

常见问题

这是参与数据吗?

不是。参与是三项输入之一。该数据集是关于玩家身份的结构化分类,而不是实时活动流。

价值字段是真实收入吗?

不是。estimated_total_spend 是每作品 20 美元的代理。请将其用于玩家间的相对比较,不可作为收入预测。

分群在时间上是稳定的吗?

是。基于规则的映射是确定性的。对同一玩家、同一信号重新计算,总会得到同一分群。

我们能用自己的信号扩展吗?

可以。Schema 开放,可按 user_id 关联。多数采购方会将 GS 分群与自有 first-party 特征混合使用。

这份数据集是 GS 报告背后的那一层。

27% 的玩家。62.5% 的价值。

访问基于书面数据使用协议授予。样本可能包含四层中的代表性切片,具体取决于采购方场景、覆盖需求与审批状态。

我们绝不出售或共享这些表单数据。详见隐私页面。