当前位置: 首页 > 关于智慧芽 > 最新动态

智慧芽发布垂直领域大模型应用:AI助手“芽仔”

智慧芽 | 2024-03-19 |

3月19日,科技创新与知识产权信息服务商智慧芽正式发布基于垂直领域大模型的全新AI助手“芽仔”。“芽仔”是专注于研发创新与知识产权领域的AI助手,帮助用户轻松实现专业内容生成、精准检索与推荐、总结分析、多语言翻译、互动对话等,提升创新效率。 

智慧芽创始人兼CEO张济徽表示:“‘芽仔’通过革新性的人机交互方式,将智慧芽强大的垂直领域大模型能力化身为用户的专家助手。期待仍在不断成长的‘芽仔’可以成为企业创新场景中的可靠伙伴。AI是智慧芽创新的DNA,我们相信大模型技术的全面应用将大大提升智慧芽所有产品的差异化优势,以全新范式驱动客户和用户的生产力跃升。” 

 图片1.png

图:智慧芽AI助手“芽仔”的AI技术问答功能示意


AI助手重构研发创新工作新方式 

“芽仔”致力于把用户从琐碎的、高重复性的工作中解放出来,并重构研发情报挖掘、技术方案探索、研发成果保护等研发创新环节,大幅提升研发效率。目前,“芽仔”已在智慧芽研发情报库、专利数据库、新药情报库等产品上线。 

随时解答技术疑问 

用户通过对话的方式,向“芽仔”提出技术问题。“芽仔”将提供多类型的技术方案,并进一步提供可能的创新思路,帮助用户深入探索特定领域的技术创新。 

技术文献快速解析 

“芽仔”具有强大的总结和翻译能力,帮助用户快速理解专利、论文等技术文献页面中的关键信息,激发创新灵感。 

技术报告轻松撰写 

在“芽仔”的帮助下,用户可以一键生成围绕某个技术领域的预研报告。另外,在生物医药行业,一份包括药物研发进展、临床试验、专利情况、市场规模以及竞争格局等关键信息的药物或靶点的调研报告,对“芽仔”来说也是轻而易举。 

创新保护无缝衔接 

技术交底书是专利挖掘和创新保护过程中的重要环节,其质量对专利申请有非常重要的影响。现在,只要告诉“芽仔”相关的技术方案背景,技术问题和使用的技术手段,就能得到一篇完整、清晰、规范的技术交底书。 

 

目前,“芽仔”正式面向企业用户开放测试邀请,用户可通过二维码申请测试名额。


 2.jpg

 

数据+场景构建垂直领域大模型核心优势 

AI大模型正带来新一轮技术革命,“芽仔”正是在此AI时代更替的大背景下诞生。相较于通用大模型,垂直领域大模型是智慧芽结合客户和场景需求后的必然选择。智慧芽技术副总裁屠昶旸表示:“通过垂直领域的应用,跟随企业进入百行千业,与业务流程和产品功能相结合,产生更大的应用价值。” 

从模型训练效果来看,智慧芽已成功训练专利大模型和生物医药大模型,领域知识均达到行业专家水平。其中,专利大模型通过中国专利代理师资格考试的水平,生物医药大模型达到了通过中国执业药师职业资格考试、美国注册药剂师考试(NAPLEX)的水平。在MMLU、C-Eval,Patent-Bench等综合测评结果显示,智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。 

 图片3.png

图:智慧芽垂直领域大模型与其他大模型考试成绩



 图片4.png

图:智慧芽垂直领域大模型能力评测 

 

高质量训练数据集建立行业壁垒 

决定一个垂直领域大模型表现的,除了模型本身外,训练数据集同样起到关键性作用。随着大模型应用的深入,对大规模且高质量的训练数据需求更为迫切。然而,获取和处理这类数据的成本高、难度大。 

特别对于垂直领域大模型来说,拥有高质量的数据,还需要深入理解行业的特定术语、概念以及流程,同时选择和优化最适合该行业特性的技术和算法,这种深度的专业性是区分一般模型与高效、精准的垂直领域大模型的关键。 

而这恰恰是智慧芽的优势所在。智慧芽垂直领域大模型的预训练数据达到了千亿级token的规模,包含了十余年积累和深加工的全球170个受理局的超过1.8亿专利、超过1.6亿篇论文、超过2100万则新闻、超过8.6亿个生物序列、超过2.5亿个化学结构、超过4万种靶点、超过8万种药物数据等。另外,在智慧芽垂直领域独特的数据配方构成上,还加入了7000余本专业书籍、丰富的行业常识等内容。 

 图片5.png

图:智慧芽垂直领域大模型预训练数据集主要构成


通过精心的数据准备和预处理,以及在训练过程中的严格数据管理,确保模型能够在高质量的数据上学习,从而提高模型的性能和应用价值。 

同时,智慧芽围绕数据、算法训练、测试、强化学习构筑了“四位一体”的训练平台。算法上,采用增强式预训练的策略,基于专利和医药领域超40位专家反馈及其2万多条对比数据的强化学习,配合RAG(检索增强生成)技术,加强大模型理解能力,减少幻觉,对齐人类意图,将大模型精度提升至80%。 

持续的数据监控和质量控制是保证训练结果可靠性的关键。在专利大模型领域,目前市场上还没有比较全面、专业、完整的评估体系。智慧芽率先建立了Patent-Bench评测基准,通过大模型评测平台全方位呈现大模型的评测效果。 

 

大模型时代已开启“场景比拼” 

相比通用大模型,垂直领域大模型具有更强的领域专业性和任务针对性,能够更好地解决特定领域的问题和提供更加精准的服务。大模型的竞争从通用大模型转向垂直领域大模型是大势所趋,而垂直领域大模型的决战或在“场景比拼”。 

在场景层面,智慧芽累计服务全球50多个国家超12000家客户,涵盖了高校和科研院所、生物医药、新材料、新能源、智能制造、通信电子、新能源汽车、半导体等50多个高科技行业。智慧芽面向知识产权、研发创新、生物医药和科创金融等领域的数据产品和服务拥有百万级的专业用户,与其业务流程深度整合。 

现在,智慧芽的大模型应用产品可与现有工作流无缝集成,提供真正契合客户工作场景的AI体验。屠昶旸表示:“高质量的数据,领先的算法,和天然的场景优势,将推动智慧芽在大模型落地应用方面一路领先。我们通过大模型重塑产品,让用户用自然语言交互即可获取精准详实的技术方案,让用户的创新效率达到指数级的提升。” 

除了目前已取得突破的专利大模型、生物医药大模型,智慧芽将开拓更多垂直领域,当前面向材料、通信等领域的大模型正在训练中。 

 

今年2月,“智慧芽文本生成大模型算法”已成功通过国家互联网信息办公室第四批境内深度合成服务算法备案,具备了正式向用户开放的资质。 

未来,智慧芽将以大模型技术为产品创新的核心,驱动技术迭代、产品创新、业务升级,并着力构建开放生态,赋能行业发展,帮助更多企业真正进化为“AI First”,全面提效创新生产力。 

 

关于智慧芽 

智慧芽是一家科技创新和知识产权信息服务商,以机器学习、计算机视觉、自然语言处理(NLP)等人工智能技术和大数据加工厂2.0的卓越能力为基础,致力于为全球创新企业和创新生态人群提供服务。 

截至目前,智慧芽已经服务全球50多个国家超12000家客户,涵盖了高校和科研院所、生物医药、新材料、新能源、智能制造、通信电子、新能源汽车、半导体等50多个高科技行业。国内客户包括清华大学、北京大学、中科院、中国石化、海尔、美的、小米、宁德时代、小鹏汽车、大疆、药明康德、商汤科技、华大等;国际客户包括麻省理工学院、牛津大学、陶氏化学、Spotify等。 

澳门正版图库

AI助手