Contact
CoCalc Logo Icon
StoreFeaturesDocsShareSupport News AboutSign UpSign In
| Download
Project: Interview
Views: 202
Kernel: Python 3 (Ubuntu Linux)
import pandas as pd %matplotlib inline import pylab, math from sklearn.linear_model import LogisticRegression from sklearn import metrics import matplotlib.font_manager as fm zhfont = fm.FontProperties(fname='msyh.ttf')

选项

这是一个python的notebook,也可以根据自己的喜好选择R的。File->New Notebook中有选项

delay = pd.read_csv('video_process_delay.csv') retain = pd.read_csv('user_retention.csv')

A. 基础分析,回答如下问题

  1. 平均留存率是多少

  2. 系统处理延迟(delay)的分布图。

  3. 延迟的平均值,P50,P90,P95,P99分别是多少,是否可以用图表达

  4. 对延迟按照每100秒分桶,每个桶的用户留存率是多少?即延迟0-99秒的用户为一个桶,延迟100-199秒的用户为一个桶,等等,每个桶的留存,画图

(网上搜索“pandas 回归”等关键词可以找到很多教程,例如 http://lib.csdn.net/article/machinelearning/35051)

B. 相关性分析

(提示,两张表的链接可以使用pandas的merge函数。在这个notebook里就是pd.merge。细节可以google)

  1. 平均延迟每降低100,留存会提升或者降低多少?

  2. 如果降低平均延迟,会改变留存吗?