面向广大AI开发者的人工智能教学与实训社区,提供在线编程环境、GPU算力、开源算法解读,帮助开发者快速创建和部署模型。

AI实训平台致力于成为大模型领域的业界权威社区和分享交流平台。

OneBrain实现数据准备、模型预备、模型构建(模型溯源)、模型部署、DevOps、模型运维/监测全生命周期管理。秉持持续集成、持续交付、持续部署的闭环管道流程。最终为企业的AI快速落地,形成企业AI团队的标准协作方式,企业实现智能化应用,促进产业智能化转型。


自动化

版本化管理

测试

监控

追踪

持续性

MLOps 全生命周期

OneBrain秉持: 持续开发、持续集成、持续部署

生产场景实施部署


模型预备


预制特征工程

自定义云函数

特征编码


监控模型

训练过程


模型构建/更新


模型训练

模型追溯

模型调参


对整个模型训练

进行跟踪检测


数据准备


数据ETL

数据集版本

日志数据库

流数据

交互式SQL


模型部署


模型仓库

模型评估

模型优化

模型转换


基于数据对模型

进行再优化


模型运维和监测


模型日志

数据集日志

运维数据(meter)内容日志

使用管理

资源监控



对原始模型预设


DevOps


测试监控

CI/CD管道


出现数据漂移

反哺模型调优


OneBrain 系统架构


OneBrain 核心优势

一键部署本地服务


平台支持一键私有化部署本地服务


超大规模分布式训练


大集群多机多卡分布式训练,

共享空间进行数据交换


丰富的开发模式


支持NoteBook在线交互开发、脚本任务开发,

命令行CLI开发,

PyCharm\VScode等IDE开发


混合云管理


多种混合算力解决方案,

公共资源管理与专属资源管理


多种资源分配


按照租户分配资源,

指定租户分配专属资源


异构计算资源


提供多种架构多类AI芯片的支持,

兼顾业界主流与自主可控,

支持国产化芯片


OneBrain 产品功能

全流程跟踪


模型元数据管理,跟踪(模型训练版本迭代、数据、参数等)、训练产物存储地址、模型流转状态记录

跟踪监测运维,评估在线性能、在值偏离预期时进行回滚版本


全链路监控


・数据集日志・模型日志・资源监控(存储、计算、网络)・内容日志・使用日志・在线模型监测运维数据,监控模型的在线性能、指标数据


数据仓库


数据托管,基于云服务托管或授权托管

可视化版本管理,可回溯的数据版本记录,版本只记录数据的索引变更,避免存储浪费; 数据集标注工具


算法管理


主流深度学习算法,如深度神经网络、卷积神经网络、递归神经网络、强化学习算法


模型构建


丰富的开发模式、SSH登录容器调试程序

可视化建模,训练参数的可视化,可视化配置,在线训练时支持读取配置文件参数


模型训练


主流训练方式,如单机多卡训练、分布式多机多卡训练

共享空间进行数据交换

适配主流AI框架,例OneFlow、TensorFlow、Pytorch等,用户自定义环境


模型评估


支持预置规则、自定义规则的评估指标,支持多模型对比


模型仓库


对模型版本管理,可溯源模型(记录版本代码、数据集版本、环境、参数、模型评估等)、状态跟踪


模型部署


分析部署模型时要创建的服务的资源容量

一键命令行部署模型


多租户资源调度


多租户的网络资源隔离

按照租户分配资源、指定租户分配专属资源


业务场景


教学科研


智能制造


政府及公共事业


金融


电商


互联网


智慧城市


智能交通