行为数据集
基于 GS 分群报告,展示价值在 Steam 玩家中如何分布。
概览
包含 46,157 个 Steam 玩家档案的数据集。每条记录都包含行为信号、四分位排名、确定性的分群分配以及标准化的价值代理。
这不仅是参与数据,还是结构:哪些玩家在经济意义上不同,以及为何不同。
每位玩家字段数
行为分群数
玩家档案数
核心信号数
Explorer + Collector = 27% of players → 62.5% of value
结构
每条玩家记录十个字段。所有字段均经过类型化、文档化,可直接集成。
| 字段 | 类型 | 描述 | 示例 |
|---|---|---|---|
| user_id | string | 每位玩家的哈希唯一标识 | a3f8c1... |
| library_size | int | Steam 上拥有的作品记录总数 | 247 |
| total_hours | float | 所有拥有作品记录的总小时数 | 4832.5 |
| top_game_hours | float | 在最常玩游戏中的小时数 | 1247.3 |
| top_game_ratio | float | 最常玩作品占总小时数的比例(0.0 到 1.0) | 0.258 |
| estimated_total_spend | float | 估算拥有价值(library_size × 20 美元代理) | 4940.0 |
| engagement_quartile | int | 按总小时数划分的四分位排名(1 到 4) | 3 |
| ownership_quartile | int | 按库容量划分的四分位排名(1 到 4) | 4 |
| focus_quartile | int | 按主作品占比划分的四分位排名(1 到 4) | 2 |
| segment | string | 确定性的行为分群标签 | Explorer |
预览
五行代表性数据,每个分群一行。包含所有关键字段。
| user_id | library_size | total_hours | top_game_ratio | estimated_total_spend | segment |
|---|---|---|---|---|---|
| a3f8c1... | 162 | 3841 | 0.312 | 3240 | Core |
| b7d2e4... | 483 | 12023 | 0.128 | 9660 | Explorer |
| c1a9f3... | 42 | 3346 | 0.639 | 840 | Focused |
| d4e6b8... | 648 | 2891 | 0.127 | 12960 | Collector |
| e9c3a7... | 147 | 0 | 0 | 2940 | Dormant |
分类
中等广度、中等深度、注意力均衡。Steam 受众的可见基线。可靠,但并非超额价值集中之处。
高广度、高深度、注意力分散。在众多作品上广泛投资。在数据集中拥有最高的拥有价值集中度。
低广度、高深度、注意力集中。对少数作品投入很深。参与密度高,经济广度低。
极高广度、深度可变。由拥有驱动的行为。每位玩家价值最高。无论游玩强度如何都广泛购买。
中到大库、零近期小时。先前活跃,目前不活跃。在没有近期参与的情况下保留拥有价值。
定义
每个行为信号均记录其测量、范围与解读指引。
| 信号 | 类型 | 范围 | 测量内容 | 解读 |
|---|---|---|---|---|
| library_size | int | 1 to 15,000+ | Steam 上拥有的作品记录总数 | 拥有广度。值越高,代表在生态中投资越广。 |
| total_hours | float | 0 to 50,000+ | 所有作品记录上累计的小时数 | 参与深度。投入的总时间,而非新近度。 |
| top_game_ratio | float | 0.0 to 1.0 | 最常玩游戏占总小时数的比例 | 注意力集中度。值低代表注意力分散,值高代表聚焦于一个作品。 |
| engagement_quartile | int | 1 to 4 | 按总小时数划分的四分位排名 | 在数据集内的相对参与度位置 |
| ownership_quartile | int | 1 to 4 | 按库容量划分的四分位排名 | 在数据集内的相对拥有位置 |
| focus_quartile | int | 1 to 4 | 按主作品占比划分的四分位排名 | 在数据集内的相对注意力集中位置 |
| estimated_total_spend | float | $20 to $300,000+ | 拥有价值代理(library_size × 20 美元) | 相对的拥有价值。并非真实收入。 |
应用
数据集支持的六个具体 B2B 分析工作流,每一个都对应一种特定的信号模式与可衡量的研究产出。
| 动作 | 信号模式 | 产出 |
|---|---|---|
| 为上线就绪分析对高价值玩家分群进行排序 | segment = Explorer or Collector | 识别在生态中广泛投资的玩家 |
| 识别沉睡的拥有价值 | segment = Dormant, library_size > 100 | 在不把不活跃当作零市场相关性的前提下,量化已存储价值 |
| 区分高参与玩家与高拥有玩家 | engagement_quartile = 4, top_game_ratio > 0.5 | 避免把参与深度当作拥有价值的代理 |
| 分析跨作品的捆绑相邻性 | library_size > 200, focus_quartile ≤ 2 | 定位以广度为主、已在相邻作品上集中拥有的玩家 |
| 在自有数据仓库中按分群分类法对受众打分 | join(player_id) → user_id | 用确定性、可复现的分群替代启发式的玩家分层 |
| 在跨库特征上验证留存与 LTV 模型 | library_size, total_hours, top_game_ratio | 减少仅基于 first-party 参与构建的模型中的盲区 |
方法论
三个主要信号 —— 拥有广度、参与深度与注意力集中度 —— 在玩家维度上计算。每个信号在数据集中按四分位排序。
分群分配基于规则:三个四分位排名的确定性组合映射到五个命名分群之一。无聚类。无统计模型。相同输入始终产生相同输出。
估算价值代理为 library_size × 20 美元,作为保守的拥有基线。它不是收入预测。它是用于在玩家间比较相对拥有价值的参照锚。
常见问题
不是。参与是三项输入之一。该数据集是关于玩家身份的结构化分类,而不是实时活动流。
不是。estimated_total_spend 是每作品 20 美元的代理。请将其用于玩家间的相对比较,不可作为收入预测。
是。基于规则的映射是确定性的。对同一玩家、同一信号重新计算,总会得到同一分群。
可以。Schema 开放,可按 user_id 关联。多数采购方会将 GS 分群与自有 first-party 特征混合使用。
这份数据集是 GS 报告背后的那一层。
27% 的玩家。62.5% 的价值。