当前位置: 开发笔记 > 编程语言 > 正文

一文看懂迁移学习：怎样用预训练模型搞定深度神经网络？

作者：DSSDD | 来源：互联网 | 2023-08-23 04:57

引言跟传统的监督式机器学习算法相比，深度神经网络目前最大的劣势是什么？贵。尤其是当我们在尝试处理现实生活中诸如图像识别、声音辨识等实际问题的时候。

引言

跟传统的监督式机器学习算法相比&＃xff0c;深度神经网络目前最大的劣势是什么&＃xff1f;

贵。

尤其是当我们在尝试处理现实生活中诸如图像识别、声音辨识等实际问题的时候。一旦你的模型中包含一些隐藏层时&＃xff0c;增添多一层隐藏层将会花费巨大的计算资源。

庆幸的是&＃xff0c;有一种叫做“迁移学习”的方式&＃xff0c;可以使我们在他人训练过的模型基础上进行小改动便可投入使用。在这篇文章中&＃xff0c;我将会讲述如何使用预训练模型来加速解决问题的过程。

注&＃xff1a;这篇文章默认读者对于神经网络和深度学习有着一定的了解&＃xff0c;如果你不了解深度学习&＃xff0c;那么我强烈建议你先了解一下深度学习的基础概念&＃xff1a;

1. 什么是迁移学习&＃xff1f;

2. 什么是预训练模型&＃xff1f;

3. 为什么我们使用预训练模型&＃xff1f;-结合生活实例

4. 我们可以怎样运用预训练模型&＃xff1f;

▪ 提取特征(extract features)

▪ 优化模型(fine tune the model)

5. 优化模型的方式

6. 在数字识别中使用预训练模型

▪ 只针对输出密集层(output dense layer)的重新训练

▪ 冻结初始几层网络的权重因子

1. 什么是迁移学习&＃xff1f;

为了对迁移学习产生一个直观的认识&＃xff0c;不妨拿老师与学生之间的关系做类比。

一位老师通常在ta所教授的领域有着多年丰富的经验&＃xff0c;在这些积累的基础上&＃xff0c;老师们能够在课堂上教授给学生们该领域最简明扼要的内容。这个过程可以看做是老手与新手之间的“信息转移”。

这个过程在神经网络中也适用。

我们知道&＃xff0c;神经网络需要用数据来训练&＃xff0c;它从数据中获得信息&＃xff0c;进而把它们转换成相应的权重。这些权重能够被提取出来&＃xff0c;迁移到其他的神经网络中&＃xff0c;我们“迁移”了这些学来的特征&＃xff0c;就不需要从零开始训练一个神经网络了。

现在&＃xff0c;让我们从自身进化的角度来讨论这种迁移学习的重要性。这是Tim Urban最近在http://waitbutwhy.com上的一篇文章中提出的观点。

Tim说&＃xff0c;在语言发明之前&＃xff0c;每一代人类都需要自身重新习得很多知识&＃xff0c;这也是知识从上一代到下一代一增长缓慢的原因。

随后&＃xff0c;我们发明了语言&＃xff0c;这为知识在世代间的传递提供了载体&＃xff0c;下图是在语言发明后&＃xff0c;同样时间尺度下知识增长速度的示意图。

是不是看起来很牛逼&＃xff1f;而通过权重的传递来进行迁移学习和人类在世代交替中通过语言传播知识&＃xff0c;是一个道理。

2. 什么是预训练模型&＃xff1f;

简单来说&＃xff0c;预训练模型(pre-trained model)是前人为了解决类似问题所创造出来的模型。你在解决问题的时候&＃xff0c;不用从零开始训练一个新模型&＃xff0c;可以从在类似问题中训练过的模型入手。

比如说&＃xff0c;如果你想做一辆自动驾驶汽车&＃xff0c;可以花数年时间从零开始构建一个性能优良的图像识别算法&＃xff0c;也可以从Google在ImageNet数据集上训练得到的inception model(一个预训练模型)起步&＃xff0c;来识别图像。

一个预训练模型可能对于你的应用中并不是100%的准确对口&＃xff0c;但是它可以为你节省大量功夫。

接下来&＃xff0c;我会举个例子来说明。

3. 为什么我们要用预训练模型&＃xff1f;

上周我一直在尝试解决Crowdanalytix platform上的一个问题&＃xff1a;从手机图片中分辨场景。

这是一个图像分类的问题&＃xff0c;训练数据集中有4591张图片&＃xff0c;测试集中有1200张图片。我们的任务是将图片相应地分到16个类别中。在对图片进行一些预处理后&＃xff0c;我首先采用一个简单的MLP(Multi-later Perceptron)模型&＃xff0c;结构如下图所示&＃xff1a;

在对输入图片(224*224*3)平整化后&＃xff0c;为了简化上述结构&＃xff0c;我用了三个各含有500个神经元的隐藏层。在输出层中&＃xff0c;共有16个神经元对应着十六个类别。

我只能将训练的准确率控制在6.8%&＃xff0c;这是个很不理想的结果。我尝试对隐藏层、隐层中神经元的数量以及drop out速率进行调整&＃xff0c;但准确度都没有太大的提升。而如果增加隐藏层和其中神经元的数量&＃xff0c;每个周期的运行时间则会增加20s以上。(我的开发环境是12GB VRAM&＃xff0c;Titan X GPU)

下面是我用上文所述结构的MLP模型训练输出的结果。

可以看出&＃xff0c;除非指数级地增加训练时长&＃xff0c;MLP模型无法提供给我更好的结果。因此&＃xff0c;我转而采用CNN(卷积神经网络)&＃xff0c;看看他们在这个数据集上的表现&＃xff0c;以及是否能够提高训练的准确度。

CNN的结构如下&＃xff1a;

我使用了3个卷积的模块&＃xff0c;每个模块由以下部分组成&＃xff1a;

32个5*5的filter
线性整流函数(ReLU)作为激活函数
4*4的最大值池化层

最后一个卷积模块输出的结果经过平整化后会被传递到一个拥有64的神经元的隐藏层上&＃xff0c;随后通过一个drop out rate &＃61; 0.5处理后传递到输出层。

最终训练的结果记录如下&＃xff1a;

准确率15.75%&＃xff0c;尽管与MLP模型相比有所提升&＃xff0c;但每个周期的运行时间也增加了。

而更重要的是&＃xff0c;数据集中最大类别所含图片数量约占总数17.6%左右。

只要把所有的图片都归到最大的类别&＃xff0c;我们就能够得到比MLP、CNN训练出来的模型更好的结果(ノへ&＃xffe3;、)。

此外&＃xff0c;增加更多的卷积模块也会大大增加训练时长。

于是&＃xff0c;我转而去采用预训练模型&＃xff0c;这样我不需要重新训练我的整个结构&＃xff0c;只需要针对其中的几层进行训练即可。

因此&＃xff0c;我采用了在ImageNet数据集上预先训练好的VGG16模型&＃xff0c;这个模型可以在Keras库中找到。

模型的结构如下所示&＃xff1a;

在VGG16结构的基础上&＃xff0c;我只将softmax层的1000个输出改为16个&＃xff0c;从而适应我们这个问题的情景&＃xff0c;随后重新训练了dense layer。

跟MLP和CNN相比&＃xff0c;这个结构的准确率能够达到70%。同时&＃xff0c;使用VGG16最大的好处是大大减少了训练时间&＃xff0c;只需要针对dense layer进行训练&＃xff0c;所需时间基本可以忽略。

4.怎样使用预训练模型&＃xff1f;

当在训练经网络的时候我们的目标是什么&＃xff1f;我们希望网络能够在多次正向反向迭代的过程中&＃xff0c;找到合适的权重。

通过使用之前在大数据集上经过训练的预训练模型&＃xff0c;我们可以直接使用相应的结构和权重&＃xff0c;将它们应用到我们正在面对的问题上。这被称作是“迁移学习”&＃xff0c;即将预训练的模型“迁移”到我们正在应对的特定问题中。

在选择预训练模型的时候你需要非常仔细&＃xff0c;如果你的问题与预训练模型训练情景下有很大的出入&＃xff0c;那么模型所得到的预测结果将会非常不准确。

举例来说&＃xff0c;如果把一个原本用于语音识别的模型用来做用户识别&＃xff0c;那结果肯定是不理想的。

幸运的是&＃xff0c;Keras库中有许多这类预训练的结构。

ImageNet数据集已经被广泛用作训练集&＃xff0c;因为它规模足够大(包括120万张图片)&＃xff0c;有助于训练普适模型。ImageNet的训练目标&＃xff0c;是将所有的图片正确地划分到1000个分类条目下。这1000个分类基本上都来源于我们的日常生活&＃xff0c;比如说猫猫狗狗的种类&＃xff0c;各种家庭用品&＃xff0c;日常通勤工具等等。

在迁移学习中&＃xff0c;这些预训练的网络对于ImageNet数据集外的图片也表现出了很好的泛化性能。

既然预训练模型已经训练得很好&＃xff0c;我们就不会在短时间内去修改过多的权重&＃xff0c;在迁移学习中用到它的时候&＃xff0c;往往只是进行微调(fine tune)。

在修改模型的过程中&＃xff0c;我们通过会采用比一般训练模型更低的学习速率。

5. 微调模型的方法

特征提取

我们可以将预训练模型当做特征提取装置来使用。具体的做法是&＃xff0c;将输出层去掉&＃xff0c;然后将剩下的整个网络当做一个固定的特征提取机&＃xff0c;从而应用到新的数据集中。

采用预训练模型的结构

我们还可以采用预训练模型的结构&＃xff0c;但先将所有的权重随机化&＃xff0c;然后依据自己的数据集进行训练。

训练特定层&＃xff0c;冻结其他层

另一种使用预训练模型的方法是对它进行部分的训练。具体的做法是&＃xff0c;将模型起始的一些层的权重保持不变&＃xff0c;重新训练后面的层&＃xff0c;得到新的权重。在这个过程中&＃xff0c;我们可以多次进行尝试&＃xff0c;从而能够依据结果找到frozen layers和retrain layers之间的最佳搭配。

如何使用与训练模型&＃xff0c;是由数据集大小和新旧数据集(预训练的数据集和我们要解决的数据集)之间数据的相似度来决定的。

下图表展示了在各种情况下应该如何使用预训练模型&＃xff1a;

场景一&＃xff1a;数据集小&＃xff0c;数据相似度高(与pre-trained model的训练数据相比而言)

在这种情况下&＃xff0c;因为数据与预训练模型的训练数据相似度很高&＃xff0c;因此我们不需要重新训练模型。我们只需要将输出层改制成符合问题情境下的结构就好。

我们使用预处理模型作为模式提取器。

比如说我们使用在ImageNet上训练的模型来辨认一组新照片中的小猫小狗。在这里&＃xff0c;需要被辨认的图片与ImageNet库中的图片类似&＃xff0c;但是我们的输出结果中只需要两项——猫或者狗。

在这个例子中&＃xff0c;我们需要做的就是把dense layer和最终softmax layer的输出从1000个类别改为2个类别。

场景二&＃xff1a;数据集小&＃xff0c;数据相似度不高

在这种情况下&＃xff0c;我们可以冻结预训练模型中的前k个层中的权重&＃xff0c;然后重新训练后面的n-k个层&＃xff0c;当然最后一层也需要根据相应的输出格式来进行修改。

因为数据的相似度不高&＃xff0c;重新训练的过程就变得非常关键。而新数据集大小的不足&＃xff0c;则是通过冻结预训练模型的前k层进行弥补。

场景三&＃xff1a;数据集大&＃xff0c;数据相似度不高

在这种情况下&＃xff0c;因为我们有一个很大的数据集&＃xff0c;所以神经网络的训练过程将会比较有效率。然而&＃xff0c;因为实际数据与预训练模型的训练数据之间存在很大差异&＃xff0c;采用预训练模型将不会是一种高效的方式。

因此最好的方法还是将预处理模型中的权重全都初始化后在新数据集的基础上重头开始训练。

场景四&＃xff1a;数据集大&＃xff0c;数据相似度高

这就是最理想的情况&＃xff0c;采用预训练模型会变得非常高效。最好的运用方式是保持模型原有的结构和初始权重不变&＃xff0c;随后在新数据集的基础上重新训练。

6. 在手写数字识别中使用预训练模型

现在&＃xff0c;让我们尝试来用预训练模型去解决一个简单的问题。

我曾经使用vgg16作为预训练的模型结构&＃xff0c;并把它应用到手写数字识别上。

让我们先来看看这个问题对应着之前四种场景中的哪一种。我们的训练集(MNIST)有大约60,000张左右的手写数字图片&＃xff0c;这样的数据集显然是偏小的。所以这个问题应该属于场景一或场景二。

我们可以尝试把两种对应的方法都用一下&＃xff0c;看看最终的效果。

只重新训练输出层 & dense layer

这里我们采用vgg16作为特征提取器。随后这些特征&＃xff0c;会被传递到依据我们数据集训练的dense layer上。输出层同样由与我们问题相对应的softmax层函数所取代。

在vgg16中&＃xff0c;输出层是一个拥有1000个类别的softmax层。我们把这层去掉&＃xff0c;换上一层只有10个类别的softmax层。我们只训练这些层&＃xff0c;然后就进行数字识别的尝试。

# importing required librariesfrom keras.models import Sequential from scipy.misc import imread get_ipython().magic(&＃39;matplotlib inline&＃39;) import matplotlib.pyplot as plt import numpy as np import keras from keras.layers import Dense import pandas as pdfrom keras.applications.vgg16 import VGG16 from keras.preprocessing import image from keras.applications.vgg16 import preprocess_input import numpy as np from keras.applications.vgg16 import decode_predictions train&＃61;pd.read_csv("R/Data/Train/train.csv") test&＃61;pd.read_csv("R/Data/test.csv") train_path&＃61;"R/Data/Train/Images/train/" test_path&＃61;"R/Data/Train/Images/test/"from scipy.misc import imresize # preparing the train datasettrain_img&＃61;[] for i in range(len(train)):temp_img&＃61;image.load_img(train_path&＃43;train[&＃39;filename&＃39;][i],target_size&＃61;(224,224))temp_img&＃61;image.img_to_array(temp_img)train_img.append(temp_img)#converting train images to array and applying mean subtraction processingtrain_img&＃61;np.array(train_img) train_img&＃61;preprocess_input(train_img) # applying the same procedure with the test datasettest_img&＃61;[] for i in range(len(test)):temp_img&＃61;image.load_img(test_path&＃43;test[&＃39;filename&＃39;][i],target_size&＃61;(224,224))temp_img&＃61;image.img_to_array(temp_img)test_img.append(temp_img)test_img&＃61;np.array(test_img) test_img&＃61;preprocess_input(test_img)# loading VGG16 model weights model &＃61; VGG16(weights&＃61;&＃39;imagenet&＃39;, include_top&＃61;False) # Extracting features from the train dataset using the VGG16 pre-trained modelfeatures_train&＃61;model.predict(train_img) # Extracting features from the train dataset using the VGG16 pre-trained modelfeatures_test&＃61;model.predict(test_img)# flattening the layers to conform to MLP inputtrain_x&＃61;features_train.reshape(49000,25088) # converting target variable to arraytrain_y&＃61;np.asarray(train[&＃39;label&＃39;]) # performing one-hot encoding for the target variabletrain_y&＃61;pd.get_dummies(train_y) train_y&＃61;np.array(train_y) # creating training and validation setfrom sklearn.model_selection import train_test_split X_train, X_valid, Y_train, Y_valid&＃61;train_test_split(train_x,train_y,test_size&＃61;0.3, random_state&＃61;42)# creating a mlp model from keras.layers import Dense, Activation model&＃61;Sequential()model.add(Dense(1000, input_dim&＃61;25088, activation&＃61;&＃39;relu&＃39;,kernel_initializer&＃61;&＃39;uniform&＃39;)) keras.layers.core.Dropout(0.3, noise_shape&＃61;None, seed&＃61;None)model.add(Dense(500,input_dim&＃61;1000,activation&＃61;&＃39;sigmoid&＃39;)) keras.layers.core.Dropout(0.4, noise_shape&＃61;None, seed&＃61;None)model.add(Dense(150,input_dim&＃61;500,activation&＃61;&＃39;sigmoid&＃39;)) keras.layers.core.Dropout(0.2, noise_shape&＃61;None, seed&＃61;None)model.add(Dense(units&＃61;10)) model.add(Activation(&＃39;softmax&＃39;))model.compile(loss&＃61;&＃39;categorical_crossentropy&＃39;, optimizer&＃61;"adam", metrics&＃61;[&＃39;accuracy&＃39;])# fitting the model model.fit(X_train, Y_train, epochs&＃61;20, batch_size&＃61;128,validation_data&＃61;(X_valid,Y_valid))

冻结最初几层网络的权重

这里我们将会把vgg16网络的前8层进行冻结&＃xff0c;然后对后面的网络重新进行训练。这么做是因为最初的几层网络捕获的是曲线、边缘这种普遍的特征&＃xff0c;这跟我们的问题是相关的。我们想要保证这些权重不变&＃xff0c;让网络在学习过程中重点关注这个数据集特有的一些特征&＃xff0c;从而对后面的网络进行调整。

from keras.models import Sequential from scipy.misc import imread get_ipython().magic(&＃39;matplotlib inline&＃39;) import matplotlib.pyplot as plt import numpy as np import keras from keras.layers import Dense import pandas as pdfrom keras.applications.vgg16 import VGG16 from keras.preprocessing import image from keras.applications.vgg16 import preprocess_input import numpy as np from keras.applications.vgg16 import decode_predictions from keras.utils.np_utils import to_categoricalfrom sklearn.preprocessing import LabelEncoder from keras.models import Sequential from keras.optimizers import SGD from keras.layers import Input, Dense, Convolution2D, MaxPooling2D, AveragePooling2D, ZeroPadding2D, Dropout, Flatten, merge, Reshape, Activationfrom sklearn.metrics import log_losstrain&＃61;pd.read_csv("R/Data/Train/train.csv") test&＃61;pd.read_csv("R/Data/test.csv") train_path&＃61;"R/Data/Train/Images/train/" test_path&＃61;"R/Data/Train/Images/test/"from scipy.misc import imresizetrain_img&＃61;[] for i in range(len(train)):temp_img&＃61;image.load_img(train_path&＃43;train[&＃39;filename&＃39;][i],target_size&＃61;(224,224))temp_img&＃61;image.img_to_array(temp_img)train_img.append(temp_img)train_img&＃61;np.array(train_img) train_img&＃61;preprocess_input(train_img)test_img&＃61;[] for i in range(len(test)):temp_img&＃61;image.load_img(test_path&＃43;test[&＃39;filename&＃39;][i],target_size&＃61;(224,224))temp_img&＃61;image.img_to_array(temp_img)test_img.append(temp_img)test_img&＃61;np.array(test_img) test_img&＃61;preprocess_input(test_img)from keras.models import Modeldef vgg16_model(img_rows, img_cols, channel&＃61;1, num_classes&＃61;None):model &＃61; VGG16(weights&＃61;&＃39;imagenet&＃39;, include_top&＃61;True)model.layers.pop()model.outputs &＃61; [model.layers[-1].output]model.layers[-1].outbound_nodes &＃61; []x&＃61;Dense(num_classes, activation&＃61;&＃39;softmax&＃39;)(model.output)model&＃61;Model(model.input,x)#To set the first 8 layers to non-trainable (weights will not be updated)for layer in model.layers[:8]:layer.trainable &＃61; False# Learning rate is changed to 0.001sgd &＃61; SGD(lr&＃61;1e-3, decay&＃61;1e-6, momentum&＃61;0.9, nesterov&＃61;True)model.compile(optimizer&＃61;sgd, loss&＃61;&＃39;categorical_crossentropy&＃39;, metrics&＃61;[&＃39;accuracy&＃39;])return modeltrain_y&＃61;np.asarray(train[&＃39;label&＃39;])le &＃61; LabelEncoder()train_y &＃61; le.fit_transform(train_y)train_y&＃61;to_categorical(train_y)train_y&＃61;np.array(train_y)from sklearn.model_selection import train_test_split X_train, X_valid, Y_train, Y_valid&＃61;train_test_split(train_img,train_y,test_size&＃61;0.2, random_state&＃61;42)# Example to fine-tune on 3000 samples from Cifar10img_rows, img_cols &＃61; 224, 224 # Resolution of inputs channel &＃61; 3 num_classes &＃61; 10 batch_size &＃61; 16 nb_epoch &＃61; 10# Load our model model &＃61; vgg16_model(img_rows, img_cols, channel, num_classes)model.summary() # Start Fine-tuning model.fit(X_train, Y_train,batch_size&＃61;batch_size,epochs&＃61;nb_epoch,shuffle&＃61;True,verbose&＃61;1,validation_data&＃61;(X_valid, Y_valid))# Make predictions predictions_valid &＃61; model.predict(X_valid, batch_size&＃61;batch_size, verbose&＃61;1)# Cross-entropy loss score score &＃61; log_loss(Y_valid, predictions_valid)
相关资源

原文&＃xff1a;
Transfer learning & The art of using Pre-trained Models in Deep Learning

VGG-16&＃xff1a;
https://gist.github.com/baraldilorenzo/07d7802847aaad0a35d3

Keras库中的ImageNet预训练模型&＃xff1a;
https://keras.io/applications/

手写数字数据集MNIST&＃xff1a;
MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges

【完】

推荐阅读

lua
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
ip
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
java
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
io
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
io
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
io
百度AI Studio实战：利用高性能GPU集群进行线性回归

本文介绍百度AI Studio这一集成开发平台，涵盖丰富的AI教程、经典数据集及云端计算资源。通过具体示例——在AI Studio上构建线性回归项目，帮助初学者快速掌握其核心功能与操作方法。 ... [详细]

蜡笔小新 2024-12-20 06:24:41
search
黑客如何利用AI在暗网重建你的数字身份

随着技术的发展，黑客开始利用AI技术在暗网中创建用户的‘数字孪生’，这一现象引起了安全专家的高度关注。 ... [详细]

蜡笔小新 2024-12-12 17:45:26
io
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
search
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
js
大数据时代的机器学习：人工特征工程与线性模型的局限

本文探讨了在大数据背景下，人工特征工程与线性模型的应用及其局限性。随着数据量的激增和技术的进步，传统的特征工程方法面临挑战，文章提出了未来发展的可能方向。 ... [详细]

蜡笔小新 2024-12-07 11:58:58
ip
美团推荐系统：机器学习优化重排序模型

在互联网信息爆炸的时代，当用户需求模糊或难以通过精确查询表达时，推荐系统成为解决信息过载的有效手段。美团作为国内领先的O2O平台，通过深入分析用户行为，运用先进的机器学习技术优化推荐算法，提升用户体验。 ... [详细]

蜡笔小新 2024-12-17 17:56:15
random
CART决策树与随机森林详解

本文深入探讨了CART（分类与回归树）的基本原理及其在随机森林中的应用。重点介绍了CART的分裂准则、防止过拟合的方法、处理样本不平衡的策略以及其在回归问题中的应用。此外，还详细解释了随机森林的构建过程、样本均衡处理、OOB估计及特征重要性的计算。 ... [详细]

蜡笔小新 2024-12-16 16:54:15
io
浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录

近日，国际权威AI基准测试平台MLPerf发布了最新的推理测试结果，浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录，显著提升了数据中心AI推理性能。 ... [详细]

蜡笔小新 2024-12-12 13:57:17
js
在Ubuntu 16.04中使用Anaconda安装TensorFlow

本文详细介绍了如何在Ubuntu 16.04系统上通过Anaconda环境管理工具安装TensorFlow。首先，需要下载并安装Anaconda，然后配置环境变量以确保系统能够识别Anaconda命令。接着，创建一个特定的Python环境用于安装TensorFlow，并通过指定的镜像源加速安装过程。最后，通过一个简单的线性回归示例验证TensorFlow的安装是否成功。 ... [详细]

蜡笔小新 2024-12-11 19:07:39
input
图像分类算法的优化策略与实践

本文探讨了《Bag of Tricks for Image Classification with Convolutional Neural Networks》论文中的多项技术，旨在通过具体实例和实验验证，提高卷积神经网络在图像分类任务中的性能。文章详细介绍了从模型训练加速、网络结构调整到训练参数优化等多个方面的改进方法。 ... [详细]

蜡笔小新 2024-12-09 16:01:40

DSSDD

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章