Path: blob/master/site/zh-cn/io/tutorials/bigquery.ipynb
25118 views
Copyright 2019 The TensorFlow IO Authors.
BigQuery TensorFlow 阅读器端到端示例
概述
本教程介绍如何使用 BigQuery TensorFlow 阅读器训练使用 Keras 序列式 API 的神经网络。
数据集
本教程使用 UC Irvine Machine Learning Repository 提供的美国人口普查收入数据集。该数据集包含 1994 年人口普查数据库中的人口信息,包括年龄、教育状况、婚姻状况、职业,以及年收入是否超过 5 万美元。
设置
设置 GCP 项目
无论您的笔记本环境如何,您都必须执行以下步骤。
在下面的代码单元中输入您的项目 ID。然后运行该代码单元,以确保 Cloud SDK 为此笔记本中的所有命令使用正确的项目。
注:Jupyter 以 Shell 命令形式运行前缀为 !
的代码行,并将前缀为 $
的 Python 变量插入这些命令。
安装要求的软件包,然后重新启动运行时
身份验证
设置项目 ID
导入 Python 库,定义常量
将人口普查数据导入 BigQuery
定义将数据加载到 BigQuery 的辅助方法
在 BigQuery 中加载人口普查数据。
确认数据已导入
待办事项:将 <YOUR PROJECT> 替换为您的 PROJECT_ID
注:--use_bqstorage_api 将使用 BigQueryStorage API 获取数据,并确保让您获得使用该 API 的授权。请确保为您的项目启用该 API:https://cloud.google.com/bigquery/docs/reference/storage/#enabling_the_api
##使用 BigQuery 阅读器在 TensorFlow 数据集中加载人口普查数据
从 BigQuery 读取人口普查数据并将其转换为 TensorFlow 数据集
##定义特征列
##构建并训练模型
构建模型
训练模型
##评估模型
评估模型
评估几个随机样本