有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把这类些名词概念搞混,导致结果不准确。数据分析相关概念多且杂,容易搞混。为了便于大家区分,今天小编就来盘点一下数据分析常用的术语解释。建议大家收藏起来方便查看。
按照以下三类进行汇总。
1、互联网常用名词解释
2、统计学名词解释
3、数据分析名词解释
一、互联网常用名词解释
1、PV(PageView)页面浏览量
指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。
2、UV(UniqueVisitor)独立访客
指来到网站或页面的用户总数,这个用户是独立的,同一用户不同时段访问网站只算作一个独立访客,不会重复累计,通常以PC端的Cookie数量作为统计依据。
3、Visit访问
指用户通过外部链接来到网站,从用户来到网站到用户在浏览器中关闭页面,这一过程算作一次访问。
Visit可重复累计,比如我打开一个网站又关闭,再重新打开,这就算作两次访问。
4、HomePage主页
指一个网站起主目录功能的页面,也是网站起点。通常是网站首页。
5、LandingPage着陆页
指用户从外部链接来到网站,直接跳转到的第一个页面。比如朋友给我发了一个介绍爆款T恤的淘宝链接,我点开会直接跳转到介绍T恤的那个页面,而不是淘宝网众多其他页面之一,这个介绍T恤的页面可以算作是着陆页。
6、BounceRate跳出率
指用户通过链接来到网站,在当前页面没有任何交互就离开网站的行为,这就算作此页面增加了一个“跳出”,跳出率一般针对网站的某个页面而言。
跳出率=在这个页面跳出的用户数/PV
7、退出率
一般针对某个页面而言。指用户访问某网站的某个页面之后,从浏览器中将与此网站相关的所有页面全部关闭,就算此页面增加了一个“退出“。
退出率=在这个页面退出的用户数/PV
8、Click点击
一般针对付费广告而言,指用户点击某个链接、页面、banner的次数,可重复累计。比如我在PC端看到一则新闻链接点进去看了一会就关了,过了一会又点进去看了一遍,这就算我为这篇新闻贡献两次点击。
9、avr.time平均停留时长
指某个页面被用户访问,在页面停留时长的平均值,通常用来衡量一个页面内容的质量。
avr.time=访客数量/用户总停留时长
10、CTR点击率
指某个广告、Banner、URL被点击的次数和被浏览的总次数的比值。一般用来考核广告投放的引流效果。
CTR=点击数(click)/被用户看到的次数
11、Conversionrate转化率
指用户完成设定的转化环节的次数和总会话人数的百分比,通常用来评价一个转化环节的好坏,如果转化率较低则急需优化该转化环节。
转化率=转化会话数/总会话数
12、漏斗
通常指产生目标转化前的明确流程,比如在淘宝购物,从点击商品链接到查看详情页,再到查看顾客评价、领取商家优惠券,再到填写地址、付款,每个环节都有可能流失用户,这就要求商家必须做好每一个转化环节,漏斗是评价转化环节优劣的指标。
13、投资回报率(ROI:ReturnOnInvestment)
反映投入和产出的关系,衡量我这个投资值不值得,能给到我多少价值的东西(非单单的利润),这个是站在投资的角度或长远生意上看的。
其计算公式为:投资回报率(ROI)=年利润或年均利润/投资总额×%,通常用于评估企业对于某项活动的价值,ROI高表示该项目价值高。
14、重复购买率
指消费者在网站中的重复购买次数。
15、Referrer引荐流量
通常指将用户引导至目标页面的URL(超链接)。在百度统计中,引荐流量叫做“外部链接”。
16、流失分析(ChurnAnalysis/AttritionAnalysis)
描述哪些顾客可能停止使用公司的产品/业务,以及识别哪些顾客的流失会带来最大损失。流失分析的结果用于为可能要流失的顾客准备新的优惠。
17、顾客细分画像(CustomerSegmentationProfiling)
根据现有的顾客数据,将特征、行为相似的顾客归类分组。描述和比较各组。
18、顾客的生命周期价值(LifetimeValue,LTV)
顾客在他/她的一生中为一个公司产生的预期折算利润。
19、购物篮分析(MarketBasketAnalysis)
识别在交易中经常同时出现的商品组合或服务组合,例如经常被一起购买的产品。此类分析的结果被用于推荐附加商品,为陈列商品的决策提供依据等。
20、实时决策(RealTimeDecisioning,RTD)
帮助企业做出实时(近乎无延迟)的最优销售/营销决策。比如,实时决策系统(打分系统)可以通过多种商业规则或模型,在顾客与公司互动的瞬间,对顾客进行评分和排名。
21、留存/顾客留存(Retention/CustomerRetention)
指建立后能够长期维持的客户关系的百分比。
22、社交网络分析(SocialNetworkAnalysis,SNA)
描绘并测量人与人、组与组、机构与机构、电脑与电脑、URL与URL、以及其他种类相连的信息/知识实体之间的关系与流动。这些人或组是网络中的节点,而它们之间的连线表示关系或流动。SNA为分析人际关系提供了一种方法,既是数学的又是视觉的。
23、生存分析(SurvivalAnalysis)
估测一名顾客继续使用某业务的时间,或在后续时段流失的可能性。此类信息能让企业判断所要预测时段的顾客留存,并引入合适的忠诚度政策。
二、统计学名词解释
1、绝对数和相对数
绝对数:是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标,也是数据分析中常用的指标。比如年GDP,总人口等等。
相对数:是指两个有联系的指标计算而得出的数值,它是反应客观现象之间的数量联系紧密程度的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式:
相对数=比较值(比数)/基础值(基数)
2、百分比和百分点
百分比:是相对数中的一种,他表示一个数是另一个数的百分之几,也成为百分率或百分数。百分比的分母是,也就是用1%作为度量单位,因此便于比较。
百分点:是指不同时期以百分数的形式表示的相对指标的变动幅度,1%等于1个百分点。
3、频数和频率
频数:一个数据在整体中出现的次数。
频率:某一事件发生的次数与总的事件数之比。频率通常用比例或百分数表示。
4、比例与比率
比例:是指在总体中各数据占总体的比重,通常反映总体的构成和比例,即部分与整体之间的关系。
比率:是样本(或总体)中各不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1。
5、倍数和番数
倍数:用一个数据除以另一个数据获得,倍数一般用来表示上升、增长幅度,一般不表示减少幅度。
番数:指原来数量的2的n次方。
6、同比和环比
同比:指的是与历史同时期的数据相比较而获得的比值,反应事物发展的相对性。
环比:指与上一个统计时期的值进行对比获得的值,主要反映事物的逐期发展的情况。
7、变量
变量来源于数学,是计算机语言中能储存计算结果或能表示值抽象概念。变量可以通过变量名访问。
8、连续变量
在统计学中,变量按变量值是否连续可分为连续变量与离散变量两种。在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如:年龄、体重等变量。
9、离散变量
离散变量的各变量值之间都是以整数断开的,如人数、工厂数、机器台数等,都只能按整数计算。离散变量的数值只能用计数的方法取得。
10、定性变量
又名分类变量:观测的个体只能归属于几种互不相容类别中的一种时,一般是用非数字来表达其类别,这样的观测数据称为定性变量。可以理解成可以分类别的变量,如学历、性别、婚否等。
11、均值
即平均值,平均数是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。
12、中位数
对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
13、缺失值
它指的是现有数据集中某个或某些属性的值是不完全的。
14、缺失率
某属性的缺失率=数据集中某属性的缺失值个数/数据集总行数。
15、异常值
指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。
16、方差
是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。
17、标准差
中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
18、皮尔森相关系数
皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。
19、相关系数
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔森相关系数。
20、特征值
特征值是线性代数中的一个重要概念。在数学、物理学、化学、计算机等领域有着广泛的应用。设A是向量空间的一个线性变换,如果空间中某一非零向量通过A变换后所得到的向量和X仅差一个常数因子,即AX=kX,则称k为A的特征值,X称为A的属于特征值k的特征向量或特征矢量。
三、数据分析名词解释
A
聚合(Aggregation):搜索、合并、显示数据的过程。
算法(Algorithms):可以完成某种数据分析的数学公式。
分析法(Analytics):用于发现数据的内在涵义。
异常检测(Anomalydetection):在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers,exceptions,surprises,contaminants.他们通常可提供关键的可执行信息。
匿名化(Anonymization):使数据匿名,即移除所有与个人隐私相关的数据。
分析型客户关系管理(AnalyticalCRM/aCRM):用于支持决策,改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识,和如何与顾客有效接触的知识,进行收集、分析、应用。
B
行为分析法(BehaviouralAnalytics):这种分析法是根据用户的行为如“怎么做”,“为什么这么做”,以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科,它着眼于数据中的人性化模式。
批量处理(Batchprocessing):尽管从大型计算机时代开始,批量处理就已经出现了。由于处理大型数据集,批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。
商业智能(BusinessIntelligence):分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。
C
分类分析(Classificationanalysis):从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(metadata),是描述数据的数据。
云计算(Cloud