行为数据集

价值分布数据集

基于 GS 分群报告,展示价值在 Steam 玩家中如何分布。

46,157 名玩家|5 个分群|确定性|Schema 就绪

概览

你将获得什么

包含 46,157 个 Steam 玩家档案的数据集。每条记录都包含行为信号、四分位排名、确定性的分群分配以及标准化的价值代理。

这不仅是参与数据,还是结构:哪些玩家在经济意义上不同,以及为何不同。

每位玩家字段数

行为分群数

46K+

玩家档案数

核心信号数

Player share ≠ Value share

Explorer + Collector = 27% of players → 62.5% of value

Player share

Value share

→Majority of value sits here: Explorer + Collector

结构

Schema

每条玩家记录十个字段。所有字段均经过类型化、文档化,可直接集成。

字段	类型	描述	示例
user_id	string	每位玩家的哈希唯一标识	a3f8c1...
library_size	int	Steam 上拥有的作品记录总数	247
total_hours	float	所有拥有作品记录的总小时数	4832.5
top_game_hours	float	在最常玩游戏中的小时数	1247.3
top_game_ratio	float	最常玩作品占总小时数的比例(0.0 到 1.0)	0.258
estimated_total_spend	float	估算拥有价值(library_size × 20 美元代理)	4940.0
engagement_quartile	int	按总小时数划分的四分位排名(1 到 4)	3
ownership_quartile	int	按库容量划分的四分位排名(1 到 4)	4
focus_quartile	int	按主作品占比划分的四分位排名(1 到 4)	2
segment	string	确定性的行为分群标签	Explorer

预览

样本数据(代表性行)

五行代表性数据,每个分群一行。包含所有关键字段。

user_id	library_size	total_hours	top_game_ratio	estimated_total_spend	segment
a3f8c1...	162	3841	0.312	3240	Core
b7d2e4...	483	12023	0.128	9660	Explorer
c1a9f3...	42	3346	0.639	840	Focused
d4e6b8...	648	2891	0.127	12960	Collector
e9c3a7...	147	0	0	2940	Dormant

分类

分群定义

Core

中等广度、中等深度、注意力均衡。Steam 受众的可见基线。可靠,但并非超额价值集中之处。

Explorer

高广度、高深度、注意力分散。在众多作品上广泛投资。在数据集中拥有最高的拥有价值集中度。

Focused

低广度、高深度、注意力集中。对少数作品投入很深。参与密度高,经济广度低。

Collector

极高广度、深度可变。由拥有驱动的行为。每位玩家价值最高。无论游玩强度如何都广泛购买。

Dormant

中到大库、零近期小时。先前活跃,目前不活跃。在没有近期参与的情况下保留拥有价值。

定义

信号定义

每个行为信号均记录其测量、范围与解读指引。

信号	类型	范围	测量内容	解读
library_size	int	1 to 15,000+	Steam 上拥有的作品记录总数	拥有广度。值越高,代表在生态中投资越广。
total_hours	float	0 to 50,000+	所有作品记录上累计的小时数	参与深度。投入的总时间,而非新近度。
top_game_ratio	float	0.0 to 1.0	最常玩游戏占总小时数的比例	注意力集中度。值低代表注意力分散,值高代表聚焦于一个作品。
engagement_quartile	int	1 to 4	按总小时数划分的四分位排名	在数据集内的相对参与度位置
ownership_quartile	int	1 to 4	按库容量划分的四分位排名	在数据集内的相对拥有位置
focus_quartile	int	1 to 4	按主作品占比划分的四分位排名	在数据集内的相对注意力集中位置
estimated_total_spend	float	$20 to $300,000+	拥有价值代理(library_size × 20 美元)	相对的拥有价值。并非真实收入。

应用

采购方应用

数据集支持的六个具体 B2B 分析工作流,每一个都对应一种特定的信号模式与可衡量的研究产出。

动作	信号模式	产出
为上线就绪分析对高价值玩家分群进行排序	segment = Explorer or Collector	识别在生态中广泛投资的玩家
识别沉睡的拥有价值	segment = Dormant, library_size > 100	在不把不活跃当作零市场相关性的前提下,量化已存储价值
区分高参与玩家与高拥有玩家	engagement_quartile = 4, top_game_ratio > 0.5	避免把参与深度当作拥有价值的代理
分析跨作品的捆绑相邻性	library_size > 200, focus_quartile ≤ 2	定位以广度为主、已在相邻作品上集中拥有的玩家
在自有数据仓库中按分群分类法对受众打分	join(player_id) → user_id	用确定性、可复现的分群替代启发式的玩家分层
在跨库特征上验证留存与 LTV 模型	library_size, total_hours, top_game_ratio	减少仅基于 first-party 参与构建的模型中的盲区

方法论

分群是如何构建的

三个主要信号 —— 拥有广度、参与深度与注意力集中度 —— 在玩家维度上计算。每个信号在数据集中按四分位排序。

分群分配基于规则:三个四分位排名的确定性组合映射到五个命名分群之一。无聚类。无统计模型。相同输入始终产生相同输出。

估算价值代理为 library_size × 20 美元,作为保守的拥有基线。它不是收入预测。它是用于在玩家间比较相对拥有价值的参照锚。

常见问题

这是参与数据吗?

不是。参与是三项输入之一。该数据集是关于玩家身份的结构化分类,而不是实时活动流。

价值字段是真实收入吗?

不是。estimated_total_spend 是每作品 20 美元的代理。请将其用于玩家间的相对比较,不可作为收入预测。

分群在时间上是稳定的吗?

是。基于规则的映射是确定性的。对同一玩家、同一信号重新计算,总会得到同一分群。

我们能用自己的信号扩展吗?

可以。Schema 开放,可按 user_id 关联。多数采购方会将 GS 分群与自有 first-party 特征混合使用。

这份数据集是 GS 报告背后的那一层。

27% 的玩家。62.5% 的价值。