SharedQuestion-Correlation-Analysis.ipynbOpen in CoCalc
import pandas as pd
%matplotlib inline
import pylab, math
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
import matplotlib.font_manager as fm
zhfont = fm.FontProperties(fname='msyh.ttf')

选项

这是一个python的notebook,也可以根据自己的喜好选择R的。File->New Notebook中有选项

delay = pd.read_csv('video_process_delay.csv')
retain = pd.read_csv('user_retention.csv')

A. 基础分析,回答如下问题

  1. 平均留存率是多少
  2. 系统处理延迟(delay)的分布图。
  3. 延迟的平均值,P50,P90,P95,P99分别是多少,是否可以用图表达
  4. 对延迟按照每100秒分桶,每个桶的用户留存率是多少?即延迟0-99秒的用户为一个桶,延迟100-199秒的用户为一个桶,等等,每个桶的留存,画图

(网上搜索“pandas 回归”等关键词可以找到很多教程,例如 http://lib.csdn.net/article/machinelearning/35051)


B. 相关性分析

(提示,两张表的链接可以使用pandas的merge函数。在这个notebook里就是pd.merge。细节可以google)

  1. 平均延迟每降低100,留存会提升或者降低多少?
  2. 如果降低平均延迟,会改变留存吗?