²⁴⁵ views

Kernel: Python 3 (Ubuntu Linux)

In [3]:

import pandas as pd
%matplotlib inline
import pylab, math
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
import matplotlib.font_manager as fm
zhfont = fm.FontProperties(fname='msyh.ttf')

选项

这是一个python的notebook，也可以根据自己的喜好选择R的。File->New Notebook中有选项

In [4]:

delay = pd.read_csv('video_process_delay.csv')
retain = pd.read_csv('user_retention.csv')

A. 基础分析，回答如下问题

平均留存率是多少
系统处理延迟(delay)的分布图。
延迟的平均值，P50，P90，P95，P99分别是多少，是否可以用图表达
对延迟按照每100秒分桶，每个桶的用户留存率是多少？即延迟0-99秒的用户为一个桶，延迟100-199秒的用户为一个桶，等等，每个桶的留存，画图

(网上搜索“pandas 回归”等关键词可以找到很多教程，例如 http://lib.csdn.net/article/machinelearning/35051)

In [0]:

B. 相关性分析

(提示，两张表的链接可以使用pandas的merge函数。在这个notebook里就是pd.merge。细节可以google)

平均延迟每降低100，留存会提升或者降低多少？
如果降低平均延迟，会改变留存吗？

In [0]:

选项

A. 基础分析，回答如下问题

B. 相关性分析

Product

Resources

Company