框架介绍

智能技术平台提供的服务框架如下,从bdp中导入数据进行模型训练,发布为服务。由多服务构成的业务可将多个服务编排为一个服务 流程图

服务框架

大数据开发

bdp平台中已有许多线上业务产生的数据以供使用,同时还可以导入离线的数据。作为示例,这里将一个评论文本情感分类的数据集上传到bdp中

步骤1. 新建表格

按照下图中步骤,建立一张空的表格 新建表格 顺序点击

步骤2.上传数据

按照下图步骤,向第一步中新建的表格中插入数据 上传数据 成功后,即可在数据开发管理平台看到新建的任务。 展示

AI模型开发

1. 拉取数据集

上传完成后,进入AI模型开发模块,可以在任务式调度中,取出bdp中的数据集,用于算法的模型训练。新建任务式流程如下。使用bdp时,需要选择PySpark2.4.3引擎框架,上传自己的执行脚本后即可 新建任务式

任务式中,提供了取数模板,对模板进行更改即可使用hive提取数据 其中有三处需要用户自行修改

  1. 自定义设置1: 根据bdp中存储的内容,编写sql语句进行取数
  2. 自定义设置2: cookie需要根据用户账号自行设置
  3. 自定义设置3: 自定义一个数据集名称

任务式脚本执行后,可在左侧导航数据栏下看到生成的数据集。

echo '文本内容,标签' > output.csv

# 自定义设置1
hive -e "select content,label from tmp.quality_problem_ok" | sed 's/\t/,/g' >> output.csv

# 自定义设置2
cookie="thor=4727E1DC998674A4900ED668E0B68DB46EE69A80F9780117607ADC30F7EB88B754765482AE32D0CF6013BE50BFD4BDCD357E7F2BEF277023F975BBFD02282678894F8ED9BFC490B93929CC1AAB03B2BCD088759CABAC8F01B8AEF7DA28F909A0A1CD7063DB3C81481AD8B15D99B274E9BD578DFDB869643159427CD40181CE571FD386F8A1870A9EAECA615707753A2503783F9E2EE38EFA81CD9AD4275FE4E1;"

result=`curl -X POST 'https://nfaitp.jdcloud.com/v1/dataset' \
--header "Cookie: ${cookie}" \
--header 'Content-Type: application/json' \
--data '{
# 自定义设置3
    "name":"质量问题检测-Demo-auto1",
    "labelStatus":1,
    "labelType":7,
    "datatype":"0",
    "desc":"",
    "tags":""
}'`

2. 模型训练

在AI模型开发平台中,点击我的项目,新建项目,可以在项目中进行模型训练 新建项目

项目分为4种类型,这里以自动化流程为例,使用拉取的数据集进行模型训练。
针对文本分类的场景,我们选择对应的自动化任务,开始训练。 创建自动化

3. 服务发布

自动化任务执行成功后,可以看到对模型的评估指标,若指标合格,即可点击发布按钮,将模型发布为在线API,以供业务使用。点击发布后需要审核人员进行审核,稍作等待

服务编排

若在一个业务场景中,需要多个模型配合完成任务,可以使用服务编排功能,按照自定义流程图调用多种API,灵活完成业务

步骤1. 新建编排流程

按箭头指向顺序新建流程,点击流程设计按钮,开始编排 新建编排

步骤2. 新建编排流程

然后从左侧流程基本节点中,拖拽节点,第一个节点需要数据输入,所以拖拽文件上传节点,最后一个文件需要结果输出,所以拖拽Restful API。 展示编排 然后对各API节点进行设置,首先设置调用API的URL 填写URL 如果是第一个节点,需要填写从什么位置读取数据 填写文件地址 填写完成后,点击运行即可调用API

步骤3. 查看结果

在流程监控-流程运行统计中可以查看执行结果,本次API调用的结果为“有质量问题” 结果

Copyright © JD AI Platform all right reserved,powered by GitbookFile Modify: 2020-11-26 03:27:28

results matching ""

    No results matching ""