当前位置: 首页 » 资讯头条 » 观点 » 正文

基于云计算的人工智能训练平台的研究与设计

分享到:
放大字体  缩小字体    发布日期:2019-08-13  来源:曝光台  作者:baoguangtai  浏览次数:428
刘宇博   摘要:随着近几年信息技术与大数据的高速发展,人工智能在变得越来越火热的同时,也取得了良好的发展。但是研究人员在模型训练过程中常常会遇到一些问题,如计算资源包括但不限于CPU、内存、显卡等的利用率较低,或者因为某些人为因素导致机器环境的不稳定,最后导致其它研究人员无法使用等问题时有发生。于是本文基于上述原因尝试提出基于云计算的人工智能训练平台。本文首先对目前云计算的发展现状、虚拟化技术、容器化技术、容器调度方案等关键技术和国内外人工智能训练平台的发展现状进行了研究。然后通过深入对比分析各个容器调度方案的优缺点,确定了本文将采用目前最为流行的云计算组合Docker容器化技术+容器调度方案Kubernetes为基础搭建人工智能训练平台。然后本文根据目前实际应用场景对平台的需求以及可行性进行分析,并以此为基础提出了平台的整体架构方案。最后在完成平台基础功能的基础上,对平台中涉及到的存储环境进行研究,确定存储方案Ceph分布式文件系统,并对该文件系统进行优化。本文主要的工作内容如下:1)通过对人工智能训练平台的存储环境进行分析,对比NFS文件系统和Ceph文件系统的性能优劣,本文最终选择基于Ceph文件系统作为存储媒介。并基于网络层的优化对Ceph的性能进行调优,经过实验测试优化后的传输速度为原速度的2.6倍,进而将人工智能训练模型的迭代时间大幅缩短。2)通过对人工智能训练平台的资源调度需求进行分析,本文基于Kubernetes的基础调度算法进行扩展,提出新的预选策略PodChoiceFitResources和优选策略MaxResourceUsagePriority。并以实际应用证明了新的调度算法不仅可以准确的将待调度的Pod调度到目的节点,而且还可以在资源不变的前提下有计划的增加任务数量,保证平台整体任务运行时间的不变甚至缩短。3)通过对人工智能训练平台运营管理功能的分析,本文基于目前最为成熟的两种开源方案:Heapster+InfluxDB+Grafana和Prometheus提出新的管理组合:Prometheus+Grafana,以此来对平台的资源进行监控以及必要的资源报警。4)搭建实现了一个人工智能训练平台,通过对平台实际功能的实验检测,如镜像搭建,资源申请,建立容器等操作,验证了平台能够合理、高效的对资源进行分配。 学位授予单位:北京邮电大学
学位级别:硕士
学位授予年份:2019
分类号:TP18;TP311.52

周新年;巫志龙;周成军;郑丽凤;张正雄;沈嵘枫;冯辉荣;郑世飞;程良;刘富万;;工程索道创新训练平台的规划建设[J];森林工程;2014年04期
黄一斌;彭文成;薛青;赵定海;;基于服务代理的电台组网训练平台的研究[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
陈世文;魏星平;高杰;;课题型电子设计训练平台的建设与实施探讨[A];教育部中南地区高等学校电子电气基础课教学研究会第二十届学术年会会议论文集(上册)[C];2010年
张桃;何庆复;;我校工程训练平台设置及其模块建设浅谈[A];北京高教学会实验室工作研究会2008年学术研讨会论文集[C];2008年
李世其;冯雅清;王峻峰;朱文革;;网络环境下协同虚拟拆卸训练平台[A];计算机辅助工程及其理论研讨会2013(CAETS2013)论文集[C];2013年
朱亚先;;构建本科生科研训练平台 培养高素质人才[A];中国化学会第30届学术年会摘要集-第十二分会:高等和职业教育中的化学教育[C];2016年
王辑祥;贺秋丽;王庆华;;加强工程实践训练,培养创新能力和实践能力[A];第四届全国高等学校电气工程及其自动化专业教学改革研讨会论文集(下册)[C];2007年
 
 
打赏
[ 资讯头条搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]
免责声明:
本网站部分内容来源于合作媒体、企业机构、网友提供和互联网的公开资料等,仅供参考。本网站对站内所有资讯的内容、观点保持中立,不对内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如果有侵权等问题,请及时联系我们,我们将在收到通知后第一时间妥善处理该部分内容。
 

基于云计算的人工智能训练平台的研究与设计二维码

扫扫二维码用手机关注本条新闻报道也可关注本站官方微信账号:"xxxxx",每日获得互联网最前沿资讯,热点产品深度分析!
 

 
0相关评论

 
推荐图文
推荐资讯头条
点击排行