亚马逊云科技宣布Amazon EC2 Trn1实例正式可用
亚马逊云科技宣布Amazon EC2 Trn1实例正式可用
作者:AWS
来源:转载 AWS
日前,亚马逊云科技宣布,由自研芯片Amazon Trainium支持的Amazon Elastic Compute Cloud(Amazon EC2)Trn1实例正式可用。Trn1实例专为在云中进行高性能机器学习模型训练而构建,与基于GPU的同类实例相比,可节省高达50%的训练成本。Trn1实例能够以超快的速度在亚马逊云科技上训练机器学习模型,助力客户缩短训练时间,快速迭代模型以提升准确性,提高自然语言处理、语音和图像识别、语义搜索、推荐引擎、欺诈检测和预测等工作负载的运行效率。使用Trn1实例无需最低消费承诺或预付费用,客户只需为使用的计算量付费。 Amazon SageMaker 训练作业现在支持由 AWS Trainium 芯片提供支持的 ml.trn1 实例,这些芯片专为云中的高性能机器学习训练应用程序而构建。您可以在 SageMaker 上使用 ml.trn1 实例,在广泛的应用程序中训练自然语言处理 (NLP)、计算机视觉和推荐模型,例如语音识别、推荐、欺诈检测、图像和视频分类以及预测。 ml.trn1 实例最多可以支持 16 个 AWS Trainium 芯片,这是 AWS 继 AWS Inferentia 之后构建的第二代机器学习芯片。ml.trn1 实例是首批具有高达 800Gbps Elastic Fabric Adapter (EFA) 网络带宽的 EC2 实例。为了实现高效的数据和模型并行性,每个 ml.trn1.32xl 实例都有 512GB 的高带宽内存,提供高达 3.4 petaflops 的 FP16/BF16 计算能力,并具有 NeuronLink(这是一种实例内高带宽非阻塞互连)。 ml.trn1 实例有两种大小:ml.trn1.2xlarge(用于试验单个加速器并经济高效地训练小型模型)和 ml.trn1.32xlarge(用于训练大型模型)。SageMaker 模型训练目前在 AWS 美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域支持 ml.trn1 实例。 |