10月15日下午,上海复旦大学校友会IT同学会月度分享会,邀请到了达观数据联合创始人纪传俊为校友们做“曹植”大模型赋能未来智能应用的主题分享。
首先纪传俊介绍了“曹植”的系统技术架构和应用。
“曹植”大模型采用的是垂直预训练方法,通过50%的通用高质量通用混合语料(包括:互联网网页、社区、新闻、百科等)+50%的垂直专业语料(包含:金融、工业、财税、政务、法律等)进行混合数据训练。在海量高质量和极具多样性的内置指令数据保证下,“曹植”大模型拥有极强的指令理解和执行能力。
“曹植”不同于别的大模型的一点就是专用。首先在DGX高性能服务集群内通过海量数据训练生成具备基础语言能力和垂直应用能力的模型,再将模型拷贝至私有化服务器后,根据特定任务的“指令-答案”对模型进行有监督的精调,以训练解决获得垂直专用任务的能力。最后将精调好的模型拷贝至线上服务器,并对接各类应用系统,对外提供推理服务,实现各类具体应用,确保了数据的安全和私密。
接着纪传俊进行了“曹植”的应用简介,分别从知识库问答、智能写作和零样本抽取三个方面进行详细讲解。
知识库问答在基于特定文档的问答下,针对文档内提出的问题,AI做出回答并给出原文出处。这样有效地避免了AI的胡乱作答,做到有理有据,有实际文件查询。举例:
智能写作这一版块通过Web端、Office插件、WPS插件三端联动,实现AIGC写作。“曹植”可一键生成文章框架(根据主题生成文章的框架和大纲);按章节自动撰写内容(根据每个章节主题、要点快速填充内容,保证文档的连贯性和专业性);不受篇幅限制,有独特的长文本写作能力(自动化写作可完成几十页甚至上百页的长文本);支持多种专业场景,快速起草专业文档(包括白皮书、技术报告、公文等)。举例:
零样本抽取是通过上传待抽取文件,Prompt方式新增抽取字段,模型直接返回抽取结果。同时“曹植”与传统算法结合进行多种抽取算法融合。举例:
最后纪传俊就“曹植”大模型管理平台进行了总结,“曹植”通过1体化平台(1+4)预置大语言模型+6大核心能力+N垂直场景,构建新一站式企业级大模型生产平台。
在问答环节中,纪传俊就校友们关心的大模型热点问题进行了探讨,现场互动氛围热烈,与会校友纷纷表示收获满满,再次感谢纪传俊老师的分享。
文章来源:上海复旦大学校友会秘书处