新浪科技讯9月27日下午消息,近日,国内AI训练数据头部服务商——云测数据宣布发布面向垂直行业大模型AI数据解决方案,为企业提供包括基础数据集、数据定制化采集标注和标注平台工具等服务,提供从持续预训练、任务微调、评测联调测试到应用发布的端到端高质量数据,为垂直行业大模型落地应用提供关键支撑。
在与新浪科技沟通中,云测数据贾宇航表示,通用大模型到垂直行业大模型的落地主要会经历三个阶段,分别是持续训练、微调以及行业联评,只有当走完这些环节以后,面向垂直行业领域的大模型才能正式地在特定行业领域投入使用。
据介绍,目前云测数据的该大模型数据解决的该方案,已经在电商、金融、保险等行业内进行落地应用。
垂直行业大模型落地应用,需分三步走
当前,大模型在各领域中百花齐放,但大模型产业化仍面临诸多挑战。其中,优质数据作为大模型发展最为核心的要素之一,如何获取、使用垂直行业的高质量AI数据仍困扰着诸多企业。
据贾宇航介绍,此次云测数据发布的垂直行业大模型数据解决方案,凭借云测数据在数据采集方面的专业能力和丰富数据资源,可以高效获取不同场景(如图像、视频、文本等)所需的大规模多样化高价值数据,为企业大模型的训练提供可靠的场景数据源。
贾宇航介绍指出,在从通用大模型走向垂直行业大模型的过程中,垂直行业大模型的运用落地需走过三个重要阶段,分别是持续训练、微调以及行业联评。在持续性训练阶段,需要基于垂直行业数据,让大模型去学习并了解垂直领域到底需要哪些数据;之后会进入微调阶段,通过人为干预或特定标注等方式,让大模型能够以更加贴合具体场景需求的方式去生成内容;最后还需要通过行业联评等方式,让合格的模型通过,不合格的再去做一些更具体的微调。
据介绍,在面对微调任务领域,云测数据提供的方案会根据大模型落地场景特点,提供包含QA-instruct、prompt等文本类任务项目和多模态大模型的相关能力支持。在完成微调后通过云测数据垂直领域的人员和专家积累+评测体系等服务,帮助企业对各个垂直应用落地领域进行评估。并通过以集成数据底座为核心的数据标注平台,将难例数据回流完成清洗标注,为更有效率的模型调优做准备,并实现标注精准度最高可达99.99%的高质量交付。
大模型iPhone时刻未至,未来存在三种形态
伴随着大模型技术的出现与快速普及,与大模型技术发展强相关的算力、算法、数据等服务需求也得以催生。与之相对应的,国内众多科技互联网企业也纷纷推出了与之相对应的服务。
据贾宇航介绍,在大模型数据服务领域,云测数据从2017年做数据服务开始,便长期以场景化数据服务为起点,在电商、汽车出行、家居、金融、智慧城市等领域进行深耕布局。因此,在特定的行业领域,云测数据拥有丰富的行业AI数据服务、技术能力积累。
目前,云测垂直行业大模型数据服务方案,已经在电商、金融、保险等场景展开落地。贾宇航介绍指出,目前国内大模型行业发展刚开始起步,更多的企业布局仍处于从0到1阶段。因此,公司在面向大模型企业提供服务的同时,也会面向更多有大模型使用需求的非技术型企业提供服务。
此前,英伟达创始人黄仁勋曾将基于GPT3.5大模型的ChatGPT出现,定义为生成式AI技术发展的“iPhone时刻”。但在贾宇航看来,目前距离真正的大模型“iPhone时刻”到来,还有一段时间。
“大模型这一项技术,正逐渐被应用在很多的AI应用、研发的企业中。但其实真正的iPhone时刻更多的还是从交互逻辑上去讲的,并不是从技术角度去讲。”贾宇航表示。在他看来,大模型还远远没有到自己的“iPhone时刻”。
在他看来,未来大模型可能会存在三个类别:第一类是围绕用户自身的终端大模型,更多是用来记录用户行为、喜好的,相当于一个用户ID。第二类是特定垂直领域大模型,具备自己的专业知识和能力,会于用户的ID去登录并提供对应的服务。第三类是通用大模型,未来将成为类似操作系统一类的存在。(文猛)