10月24日,亚马逊云科技在北京召开了生成式AI构建者大会,亚马逊云科技大中华区产品部总经理陈晓建在大会上进行了题为“赋能生成式AI新时代,助力数据和AI普惠”的精彩分享,指出亚马逊云科技正在围绕应用场景、工具和基础设施、数据基座、AI原生应用构建和生成式AI服务这五个层面,不断助力企业和开发者全面释放生成式AI的潜力。
生成式AI正在重塑各行各业,亚马逊云科技在生成式AI的使命之一是“普惠”
生成式AI已经成为各行业各组织商业领袖的首要关注点,企业都在思考如何借助生成式AI技术创新业务,快速赢得竞争优势。这项技术爆发的原因在于数据大规模激增,丰富的高度可扩展的计算能力和机器学习模型随时间的不断创新。
生成式AI的核心是利用机器学习领域的基础模型驱动的。基础模型能够学习复杂概念并执行多种任务,令人倍感激动的是,客户可以使用同一个预训练的基础模型来适应多项任务,通过少量私有数据集即可进行进行自定义,而无需像传统机器学习模型那样从头训练。
生成式AI并不仅仅是大模型。整个生成式AI应用就像是浮在海面的冰山,露在海面上方能被大多数人看到的冰山一角就像是基础模型,而在冰川的底部,同样需要大量的基础模型以外的服务来支撑,如加速芯片,数据库,数据分析,数据安全服务等等。
亚马逊云科技提供了完整的端到端的生成式AI技术堆栈,从底层的加速层如加速芯片,存储优化,到中间层模型构建工具和服务,再到最上层的生成式AI相关应用,每一层都在针对客户的不同需求持续创新。生成式AI到达转折点。
亚马逊云科技CEO Andy Jassay曾经提过,我们的目标是让任何人都能够获得和大型企业一样先进的基础设施和成本来实现自己的创新。在生成式AI领域我们同样希望借助于亚马逊云科技的产品和服务,实现生成式AI技术的普惠化,赋能更多的企业和个人开发者加速创新。
“负责任的人工智能”同样是我们倡导的另一大核心。我们承诺以负责任的方式构建我们的服务,同时考虑到公平和偏见、稳定性、可解释性、治理、透明度、隐私和安全性。
围绕应用场景、工具和基础设施、数据基座、AI原生应用构建和生成式AI服务,助力企业和开发者释放生成式AI的潜力
选择合适的应用场景,从典型场景入手创新业务模式
根据麦肯锡咨询2023年6月发布的生成式AI生产力前沿技术报告,在生成式AI技术带来的经济效益中,大约3/4来自四类主要的职能:营销与销售、产品与研发、软件工程和客户运营;而这四类职能,恰恰是我们看到的生成式AI应用使用的主力军。
典型的应用场景带给企业的业务价值主要包含三个方面:增强客户体验,提升员工生产力与创造力,优化业务流程。Salesforce将Amazon Bedrock和Amazon Titan集成到其生成式AI产品中,使客户能够在Salesforce Data Cloud上轻松安全地使用其数据,以构建生成式AI应用;海尔创新设计中心利用生成式AI能够实现文生图、图生图、定量图和全场景图四个方面的提效,上线后,自动化设计系统应用让相关业务的操作周期缩短了20%;国内知名的游戏客户上海沐瞳科技,正在携手亚马逊云科技使用生成式AI技术Amazon Bedrock,优化游戏开发领域的业务流程。
借助专门构建的生成式AI工具和基础设施,快速构建高性价比的生成式AI应用;
1) 模型选择成为挑战:
基础模型的发展和迭代速度正超越以外任何一项技术,基本以月甚至天为单位持续迭代,而新出现的每一个大模型都在性能和特定领域有着独特的优势。在众多的基础模型中,应该如何便捷安全的选择最适合自己业务场景的基础模型,是每一家企业在构建生成式AI应用时面临的挑战。
亚马逊云科技正式推出了Amazon Bedrock,该服务与Amazon SageMaker Jumpstart结合,助力对基础模型有着不同需求的客户轻松、安全地选择基础模型。
Amazon Bedrock是企业使用基础模型构建和扩展生成式AI应用程序的最简单方法,它是一项无服务器服务,提供了广泛的模型选择、数据隐私,并且能够自定义模型,无需管理任何基础设施。该服务提供的基础模型来自Meta, Anthropic, Stability AI, AI21 Labs、Cohere等第三方领先提供商以及自身的Amazon Titan模型等,近期还加入了Meta的下一代开源大模型Llama2以及Anthropic的Claude2等热门基础模型。
与Amazon Bedrock相比,Amazon SageMaker需要客户管理应用程序架构中的模型部署、配置和托管,但拥有更大的灵活度和自由度对基础模型进行定制,客户可以从Amazon SageMaker Jumpstart中选择开源的基础模型,然后根据自身需求可以选择全量微调,轻量微调等不同方式,进一步确定微调框架,利用分布式训练实现微调,从而更好的评估微调效果。
2) 单独的基础模型无法执行任务。
基础模型本身存在局限性,因为它们无法完成需要与外部系统交互并且没有最新知识来源的复杂任务。这些功能本身虽然很简单,如预订航班或退回购买的物品,但开发人员必须经过多个步骤才能实现这些功能。
Amazon Bedrock代理功能是一项全新的全托管功能,使开发人员能够更轻松地创建基于生成式AI的应用程序,以完成各种用例的复杂任务,并根据专有知识源提供最新的答案。开发人员只需进行简单操作,Amazon Bedrock 代理功能就会自动分解任务并创建编排计划,无需任何手动编码。该代理通过简单的 API 接口安全地连接到公司数据,自动将数据转换为机器可读的格式,并增加相关信息以生成最准确的回答。然后,代理可以自动调用 API 来满足用户的请求。
3) 高性价比的基础设施是生成式AI应用构建的关键。
10多年来,亚马逊云科技对全球基础设施进行深度投资,能够为客户提供广泛的加速器选择,包括强大而灵活的基于GPU的解决方案,例如基于英传达最新GPU芯片H100 Tensor Core的Amazon EC2 P5实例,与上一代相比速度快6倍,训练成本节省40%;还有基于亚马逊云科技自研的机器学习推理芯片Amazon Inferentia2推出的Amazon EC2 Inf2实例,与其他类似的EC2实例相比性价比高40%;基于自研机器学习训练芯片Amazon Trainium推出的Amazon EC2 Trn1实例,与同类实例相比训练成本节省高达50%。
夯实数据基座,使用私有化数据,打造差异化竞争优势
数据是将通用人工智能转变为了解您的业务和客户的人工智能生成模型的关键。那些尚未找到有效协调和提供随时访问其数据方法的公司,将无法对生成式人工智能进行微调,以释放其更多潜在的变革性用户。这就需要明确的数据基础设施战略。
面向生成式AI构建强大的数据“基座”,需要一套全面的服务,以便能够存储用于构建和微调模型的各种类型的数据;还需要服务间的集成,以打破数据孤岛,确保能够随时访问所有数据;还需要在构建生成式AI应用程序的整个生命周期中,确保数据安全并对其进行管理。
全面的服务方面,亚马逊云科技针对生成式AI领域的用户个人信息、会话信息管理、私域知识库等应用场景都提供了专门构建的数据库。针对检索增强生成(RAG,Retrieval Augment GenerationRAG)需要处理的向量数据,亚马逊云科技为Amazon OpenSearch Service、Amazon Aurora PostgreSQL和 Amazon RDS for PostgreSQL加入了向量数据库功能,客户可以使用这些功能来存储和搜索其机器翻译和生成式AI应用中使用的嵌入,将向量与数据同地放置,可以更轻松地连接数据并减少数据重复。
数据集成方面,ETL(数据的抽取Extract,转换Transform,加载 Load)是端到端数据旅程迫切需要解决的问题,亚马逊云科技提出“Zero-ETL”的愿景,并采用了相应的创新,如推出的Aurora Zero ETL for Redshift Integration, 允许存储在Amazon Aurora中实时产生的业务数据,无需ETL工具,以自动的方式同步到数据仓库Amazon Redshift中,以供近实时的进行海量数据的聚合分析。多年来,亚马逊云科技通过深化服务之间的集成,已经在Zero ETL中取得了一定成果,包括Amazon S3、Amazon Aurora、Amazon Redshift、Amazon SageMaker、Amazon EMR、Amazon Athena、Amazon Kinesis在内的各项服务之间的深度的数据集成正在帮助企业执行分析和机器学习,且无需移动数据。
数据治理方面,亚马逊云科技提供Amazon DataZone这一全新的数据治理服务。Amazon DataZone让客户能够跨组织边界发现、访问、共享和治理大规模数据,并减少企业内部成员访问数据和使用分析工具时繁重的工作量。通过Amazon DataZone,数据工程师、科学家和分析师等数据使用者可以通过统一的数据分析门户,在亚马逊云科技账户之间共享和访问数据,实现跨部门、跨组织地使用数据及开展数据协作。此外,数据所有者和数据管理者可以通过在用户界面中使用预定义的审批工作流来平衡数据访问治理,以及通过向数据添加业务上下文而简化数据发现。(参考:https://www.amazonaws.cn/newsroom/2023/global-1018-datazone/)
借助云原生服务,加速AI应用构建,助力业务敏捷创新
亚马逊服务百万客户无数次变化的现代化应用转型过程中,积累了一些不变的经验,以分享给生成式AI时代的构建者:
以微服务化和事件驱动架构为核心的设计框架,松耦合的去处理每个功能模块之间的互相依赖;Serverless First简化运维,提升效率;数据决策优先,像资产一样重视数据,数据能力作为应用的核心竞争壁垒加入到生成式AI应用的设计理念中来;安全围栏,影响面控制,减小爆炸半径,将安全与数据的合规与保护放在前所未有的重要地位;避免重复造轮子,除了技术本身,在DevOps,基础设施即服务,自动化等现代应用治理理念持续投入,促进企业内部的应用资产与实践的分享,构建高效敏捷的构建者文化。
借助开箱即用的生成式AI服务,消除重复性工作并专注创新本身
编程将是生成式AI技术得到快速应用的领域之一。软件开发者需要花费大量时间编写相当浅显和无差别的代码,真正用于创新的时间少之又少。从网上复制代码片段则可能无意中复制无效代码或有安全隐患的代码,或对开源代码的使用没有进行有效追溯。
亚马逊云科技的解决方案是Amazon CodeWhisperer,它是一款人工智能编码伙伴,在基础模型高级选项中使用,可以实时生成代码建议,从根本上提高开发人员的生产力。我们还进行了一项生产力测试,与未使用的参与者相比,使用Amazon CodeWhisperer的参与者完成任务的速度平均快57%,成功率高27%。
我们最近推出了Amazon Whisperer自定义功能,能够生成优于之前的代码建议,因为它允许客户使用私有代码库安全地定制 CodeWhisperer代码建议,这些私有代码库可涵盖内部API、数据库、最佳实践和架构模式等。
亚马逊云科技通过开箱即用的生成式AI服务及工具,已帮助1000+中小企业和初创公司快速实现生成式AI创新,已赋能10W+中国开发者
亚马逊云科技通过将Amazon Quicksight Q功能与Amazon Bedrock提供的大语言模型功能相结合,为Amazon QuickSight提供生成式BI(Business Intelligence商务智能)功能。Amazon Quicksight中新的生成式BI功能使业务分析师能够轻松地在几秒钟内快速编写和微调新的视觉效果,并使用自然语言将其添加到仪表板中。在Amazon QuickSight Q的支持下,这种新的创作体验还使得分析师无需查找或学习特定的语法,直接使用自然语言创建新的计算。现在,创建一个新的仪表板或计算只需问Amazon QuickSight Q几个问题,非常简便。(参考:https://www.amazonaws.cn/newsroom/2023/global-0807-quicksight/)
开发生成式AI应用是一个充满挑战的系统工程,并不是单纯的产品和服务拼接,因此,如何加速客户最终应用的商业化落地,除了亚马逊本身的资源以外,我们同样需要构建强大的合作伙伴生态,携手助力解决生成式AI应用构建中的各种技术问题,加速应用落地。
除了云服务之外,我们还提供解决方案架构师、产品技术专家、人工智能实验、数据实验室、快速原型团队、专业服务团队、培训与认证部门等多个资源共同助力客户成功,同时携手生态合作伙伴与初创圈,构建生成式AI的大生态,进一步助力生成式AI技术的落地。