创建离线-批量同步作业(向导模式)
数据集成作业支持向导模式和脚本模式。本小节主要介绍向导模式。
前提条件
- 已添加数据源至目标工作空间。
- 目标工作空间已创建计算集群。
开发流程
- 创建离线-批量同步作业。
- 开发作业。
- 选择数据来源。
- 选择数据目的。
- 配置字段映射。
- 选择计算集群。
- 通道控制。
- 配置作业调度。
- 发布作业。
创建离线-批量同步作业
-
登录管理控制台。
-
选择产品与服务 > 大数据服务 > 大数据工作台,进入大数据工作台概览页面。
-
在左侧导航选择工作空间,进入工作空间页面。
-
在目标工作空间选择数据开发 > 作业开发,进入作业开发页面。
-
点击创建作业,进入创建作业页面。
-
选择离线-批量同步作业,点击下一步。
-
配置作业相关信息。
参数 参数说明 开发模式 作业开发模式,点击上一步可以修改。 同步类型 选择作业同步类型、数据来源端和数据目的端的数据源类型。
- 支持全量同步
和增量同步
。
- 支持的数据来源端和目的端请参见:配置数据来源、配置数据目的。作业名称 创建的作业名称,您可以自定义。 作业所在目录 选择作业所在目录。数据集成作业只能在数据集成目录和其子目录下。 描述 作业的描述信息,您可以自定义。 -
点击确定,开始创建作业。
开发作业
选择数据来源
配置数据来源,以及需要同步的表等信息。
选择数据来源时,请参见配置数据来源。
选择数据目的
选择数据目的时,请参见配置数据目的。
配置字段映射
选择数据来源和数据目的后,您需要指定来源表字段和目的端字段的映射关系。您可以选择全部平行、同名映射、同行映射、解除全部映射或置为初始状态。
选择数据来源后,系统自动加载出来源表字段和类型。
- 来源表字段:不可以修改。
- 类型:可以修改。支持的数据类型请参见配置数据来源。
选择数据目的后,系统自动加载出来目标表字段和类型。
- 目标表字段:不可以修改。
- 类型:不可以修改。支持的数据类型请参见配置数据目的。
操作 | 说明 |
---|---|
全部平行 | 点击全部平行,可以自动将已建立的映射关系的字段调整到同行。 |
同名映射 | 点击同名映射,可以根据名称建立相应的映射关系,请注意匹配数据类型。 |
同行映射 | 点击同行映射,可以在同行建立相应的映射关系,请注意匹配数据类型。 |
解除全部映射 | 点击解除全部映射,可以解除已建立的映射关系。 |
置为初始状态 | 点击置为初始状态,可以解除已建立的映射关系并恢复字段排序为初始状态。 |
选择计算集群
点击选择集群,在弹出的对话框中选择已创建好的计算集群;也可以在对话框中点击计算集群列表,进入计算集群页面,创建新的计算集群。
注意
若您没有提前创建计算集群,点击计算集群列表后,已配置的数据源信息将会丢失。
通道控制
参数 | 说明 |
---|---|
作业期望最大并行数 | 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。 |
同步速率 | 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。 |
错误记录数 | 设置允许的脏数据条数,当脏数据超过设置的阈值时,作业将自动结束运行。 |
保存作业
完成以上配置后,点击保存,保存作业。
配置作业调度
发布作业
-
点击发布,弹出发布调度任务对话框。
-
您可以根据实际情况选择是否终止当前作业正在运行中的实例,如果终止当前作业正在运行中的实例,运行中的作业实例会立即被强制终止。
-
点击发布,发布作业。发布作业时也会对代码进行语法检查,需要一定的时间,请耐心等待。
作业发布成功后,您可以前往运维中心查看已发布作业和作业实例。