『跟着雨哥学AI』系列之八：趣味案例——有关NLP任务数据预处理的那些事儿...

作者：dmcm0006 | 来源：互联网 | 2023-05-28 12:34

点击左上方蓝字关注我们课程简介：“跟着雨哥学AI”是百度飞桨开源框架近期针对高层API推出的系列课。本课程由多位资深飞桨工程师精心打造，不仅提供了从数据

点击左上方蓝字关注我们

课程简介&＃xff1a;

“跟着雨哥学AI”是百度飞桨开源框架近期针对高层API推出的系列课。本课程由多位资深飞桨工程师精心打造&＃xff0c;不仅提供了从数据处理、到模型组网、模型训练、模型评估和推理部署全流程讲解&＃xff1b;还提供了丰富的趣味案例&＃xff0c;旨在帮助开发者更全面清晰地掌握百度飞桨框架的用法&＃xff0c;并能够举一反三、灵活使用飞桨框架进行深度学习实践。

嗨&＃xff0c;同学们好久不见&＃xff01;我是雨哥&＃xff0c;之前的知识大家都有好好掌握吗&＃xff1f;本节课我们将学习自然语言处理领域的相关知识。大家都知道&＃xff0c;深度学习模型的内部包含了各种各样的数据运算&＃xff0c;但是这些运算都是通过数字来进行的&＃xff1b;而在自然语言处理的任务中&＃xff0c;输入数据都是文本类型。那么我们如何将文本类型的数据转变成模型可以识别的内容&＃xff0c;这就是我们本节课要学习的知识啦。针对不同的任务和数据集&＃xff0c;数据处理的细节上可能会有所不同&＃xff0c;但是大致的流程相似。我们将以NLP任务中的文本分类和命名实体识别任务作为示范&＃xff0c;大家可以通过本节课的学习举一反三。

本次课程链接&＃xff1a;

https://aistudio.baidu.com/aistudio/projectdetail/1579435

1. 文本分类

文本分类即给定一段文本&＃xff08;也可能是文档级别&＃xff0c;在此只讨论句子级别&＃xff09;&＃xff0c;然后将文本归为N个类别中的一个或者多个。文本分类常见的应用有垃圾邮件识别、情感分析等等。根据类别个数的不同&＃xff0c;可以分为二分类和多分类问题。我们今天使用的数据集只包含0、1标签&＃xff0c;是一个二分类的任务。多分类任务的过程与此类似&＃xff0c;可以参考本教程稍作改动。

1.1 数据集下载

我们选用微博评论数据集为例&＃xff0c;正负向评论均包含五万多条。

首先我们对数据集进行解压&＃xff1a;

!unzip -q -o data/data69383/weibo_senti_100k.zip

解压后我们可以看到&＃xff0c;该数据集包含一个csv文件&＃xff0c;里面包含评论句子以及其对应的标签&＃xff0c;1表示正向积极的评论&＃xff0c;0表示负向消极的评论。

import pandas as pd import paddlepaddle.set_device(&＃39;gpu&＃39;)content &＃61; pd.read_csv(&＃39;weibo_senti_100k.csv&＃39;) content &＃61; content.dropna() # 去掉有缺失值的行 content.head(5)label review 0 1 更博了&＃xff0c;爆照了&＃xff0c;帅的呀&＃xff0c;就是越来越爱你&＃xff01;生快傻缺[爱你][爱你][爱你] 1 1 &＃64;张晓鹏jonathan 土耳其的事要认真对待[哈哈]&＃xff0c;否则直接开除。&＃64;丁丁看世界很是细心... 2 1 姑娘都羡慕你呢…还有招财猫高兴……//&＃64;爱在蔓延-JC:[哈哈]小学徒一枚&＃xff0c;等着明天见您呢/... 3 1 美~~~~~[爱你] 4 1 梦想有多大&＃xff0c;舞台就有多大![鼓掌]

读取数据后&＃xff0c;我们将数据处理成[sentence, label]的格式存在列表中&＃xff0c;并将数据集打乱。由于此数据集未划分训练集、验证集和测试集&＃xff0c;所以我们需要手动划分&＃xff0c;作为案例&＃xff0c;在这里只取1000条作为训练集&＃xff0c;100条作为验证集&＃xff0c;大家可以根据自己的需求进行划分。

import random# 指定seed让每次打乱顺序一样 random.seed(123)label &＃61; content.iloc[:, 0] text &＃61; content.iloc[:, 1]data &＃61; [] for i in range(len(text)):data.append([text[i], label[i]])random.shuffle(data) print(&＃39;数据集句子数&＃xff1a;{}&＃39;.format(len(data)))train_data &＃61; data[:1000] dev_data &＃61; data[-100:]print(&＃39;训练集句子数&＃xff1a;{}&＃39;.format(len(train_data))) print(&＃39;验证集句子数&＃xff1a;{}&＃39;.format(len(dev_data))) 数据集句子数&＃xff1a;119988 训练集句子数&＃xff1a;1000 验证集句子数&＃xff1a;100

1.2 构建词表

前面提到了&＃xff0c;模型计算使用的都是数字&＃xff0c;而我们现在获取到的数据集还是文本类型&＃xff0c;如何将文本映射到数据呢&＃xff1f;我们将通过这一步构建的词表来进行映射。

# 下载词汇表文件word_dict.txt&＃xff0c;用于构造词-id映射关系。 !wget https://paddlenlp.bj.bcebos.com/data/senta_word_dict.txt

# 加载词表 def load_vocab(path):vocab &＃61; {}with open(path, &＃39;r&＃39;) as f:tokens &＃61; f.readlines()for idx, token in enumerate(tokens):token &＃61; token.rstrip("\n").split("\t")[0]vocab[token] &＃61; idxreturn vocabvocab &＃61; load_vocab(&＃39;senta_word_dict.txt&＃39;)print(&＃39;词表大小&＃xff1a;{}&＃39;.format(len(vocab)))# 展示词表内容 for i, (k, v) in enumerate(vocab.items()):if i in range(0, 10):print(k, v) 词表大小&＃xff1a;1256608 [PAD] 0 [UNK] 1 一斤三 2 意面屋 3 11点25分 4 2.0三厢 5 上杭路 6 意大利菜用料 7 菲拉斯 8 還么 9

1.3 数据加载

读取数据之后&＃xff0c;需要自定义数据集&＃xff0c;实现一个新的Dataset类&＃xff0c;继承父类paddle.io.Dataset&＃xff0c;并实现父类中的两个抽象方法&＃xff1a;__getitem__和__len__。

在__getitem__方法中&＃xff0c;我们根据上一步构建的词表&＃xff0c;进行了一个词-id的映射&＃xff0c;并且根据给定的max_len对句子进行了padding或截断。

import jieba from paddle.io import Datasetclass TextDataset(Dataset):def __init__(self, data, vocab, max_len):super(TextDataset, self).__init__()self.data &＃61; dataself.vocab &＃61; vocabself.max_len &＃61; max_lendef __getitem__(self, idx):sent &＃61; self.data[idx][0]label &＃61; self.data[idx][1]# 利用jieba对中文进行分词&＃xff0c;再映射到idsent_idx &＃61; [self.vocab[word] if word in self.vocab else vocab[&＃39;[UNK]&＃39;] for word in jieba.cut(sent)]# 不够max_len长度的补0&＃xff0c;超出的截掉if len(sent_idx) <&＃61; self.max_len:sent_idx &＃43;&＃61; [vocab[&＃39;[PAD]&＃39;] for _ in range(self.max_len - len(sent_idx))]else:sent_idx &＃61; sent_idx[:self.max_len]return sent_idx, labeldef __len__(self):return len(self.data)def get_labels(self):return [&＃39;0&＃39;, &＃39;1&＃39;]

train_ds &＃61; TextDataset(train_data, vocab, max_len&＃61;100) dev_ds &＃61; TextDataset(dev_data, vocab, max_len&＃61;100)print(train_ds[0]) print(dev_ds[0]) ([1, 1203981, 269746, 620612, 358475, 340363, 421393, 147537, 115030, 535777, 269746, 300363, 358475, 828868, 828868, 327208, 865881, 661652, 1, 62211, 828868, 828868, 327208, 1, 459120, 62211, 553315, 1057229, 409314, 4783, 828868, 828868, 327208, 346505, 733784, 1231390, 1, 62211, 1, 877224, 1106339, 850865, 389733, 1093154, 1106328, 1, 666731, 932352, 237839, 428598, 147537, 823066, 1106326, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 0) ([1, 202379, 173188, 705655, 749968, 823066, 1106328, 1124478, 991056, 1084488, 1, 340521, 173188, 1, 348895, 1106339, 382479, 421393, 166145, 1093154, 136954, 269746, 365925, 358475, 4783, 977896, 511894, 823116, 1208194, 1211275, 115414, 173188, 489131, 667149, 1106339, 489131, 1023964, 1106328, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 0)

1.4 模型训练

在数据处理好之后&＃xff0c;我们就可以根据自己定义的模型进行训练啦&＃xff0c;在这里仅讨论数据处理部分&＃xff0c;模型的组建大家可以参考我们之前的教程。

# 省略模型组建及实例化过程# 模型训练 model.prepare(optimizer, loss, metrics) model.fit(train_ds, dev_ds, epochs&＃61;50, batch_size&＃61;32, verbose&＃61;1)

2. 命名实体识别

命名实体识别&＃xff08;Named Entity Recognition&＃xff0c;NER&＃xff09;是NLP中一项非常基础的任务&＃xff0c;是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具&＃xff0c;其准确度决定了下游任务的效果&＃xff0c;是NLP中非常重要的一个基础问题。首先&＃xff0c;我们需要了解实体的概念&＃xff0c;包括人名、地名、组织结构名以及其他专有名词。根据数据集的不同&＃xff0c;实体类别的个数也不相同。例如&＃xff0c;本例中使用的CoNLL2003数据集只包含4种实体类别&＃xff0c;而另一个NER任务的常用数据集OntoNotes5.0则包含18种实体类别。

2.1 数据集下载

我们采用命名实体识别常用数据集CoNLL2003&＃xff0c;该数据集已经为我们划分好训练集、验证集以及测试集。数据集内格式为[word, label]&＃xff1a;

SOCCER O - O JAPAN B-LOC GET O LUCKY O WIN O , O CHINA B-PER IN O SURPRISE O DEFEAT O . O

此数据集包含四中实体类别&＃xff0c;分别为人名(PER)、地名(LOC)、组织机构名(ORG)、其他(MISC)。并且采用BIO的标注方式&＃xff0c;B表示实体的起始单词&＃xff0c;I表示实体内部单词&＃xff0c;O表示非实体。

import paddle import numpy as npdef load_data(path):data &＃61; list()with open(path, &＃39;r&＃39;) as f:words, labels &＃61; list(), list()for line in f:line &＃61; line.strip()if line:w, l &＃61; line.split()words.append(w)labels.append(l)else:data.append([words, labels])words, labels &＃61; list(), list()if words:data.append([words, labels])return datatrain_data &＃61; load_data(&＃39;data/data7933/train.txt&＃39;) dev_data &＃61; load_data(&＃39;data/data7933/dev.txt&＃39;)print(&＃39;训练集句子数&＃xff1a;{}&＃39;.format(len(train_data))) print(train_data[0]) print(&＃39;验证集句子数&＃xff1a;{}&＃39;.format(len(dev_data))) print(dev_data[0]) 训练集句子数&＃xff1a;14986 [[&＃39;EU&＃39;, &＃39;rejects&＃39;, &＃39;German&＃39;, &＃39;call&＃39;, &＃39;to&＃39;, &＃39;boycott&＃39;, &＃39;British&＃39;, &＃39;lamb&＃39;, &＃39;.&＃39;], [&＃39;B-ORG&＃39;, &＃39;O&＃39;, &＃39;B-MISC&＃39;, &＃39;O&＃39;, &＃39;O&＃39;, &＃39;O&＃39;, &＃39;B-MISC&＃39;, &＃39;O&＃39;, &＃39;O&＃39;]] 验证集句子数&＃xff1a;3465 [[&＃39;CRICKET&＃39;, &＃39;-&＃39;, &＃39;LEICESTERSHIRE&＃39;, &＃39;TAKE&＃39;, &＃39;OVER&＃39;, &＃39;AT&＃39;, &＃39;TOP&＃39;, &＃39;AFTER&＃39;, &＃39;INNINGS&＃39;, &＃39;VICTORY&＃39;, &＃39;.&＃39;], [&＃39;O&＃39;, &＃39;O&＃39;, &＃39;B-ORG&＃39;, &＃39;O&＃39;, &＃39;O&＃39;, &＃39;O&＃39;, &＃39;O&＃39;, &＃39;O&＃39;, &＃39;O&＃39;, &＃39;O&＃39;, &＃39;O&＃39;]]

2.2 构建词表

这里我们采用手动构建词表的方式&＃xff0c;读取训练集中的数据&＃xff0c;分别构建词-id、标签-id的映射关系。

# 根据训练集的数据构建词表 def create_vocab(data, save_path):word_list &＃61; [&＃39;[PAD]&＃39;, &＃39;[UNK]&＃39;]label_list &＃61; []for i in range(len(data)):for word in data[i][0]:if word not in word_list:word_list.append(word)for label in data[i][1]:if label not in label_list:label_list.append(label)with open(save_path &＃43; &＃39;word_dict.txt&＃39;, &＃39;w&＃39;) as file1:for i, w in enumerate(word_list):file1.write(w &＃43; &＃39; &＃39; &＃43; str(i) &＃43; &＃39;\n&＃39;)with open(save_path &＃43; &＃39;label_dict.txt&＃39;, &＃39;w&＃39;) as file2:for i, l in enumerate(label_list):file2.write(l &＃43; &＃39; &＃39; &＃43; str(i) &＃43; &＃39;\n&＃39;)create_vocab(train_data, &＃39;data/data7933/&＃39;)

def load_vocab(word_dict_path, label_dict_path):word_dict, label_dict &＃61; {}, {}with open(word_dict_path,&＃39;r&＃39;) as f1:for line in f1:word, idx &＃61; line.strip().split()word_dict[word] &＃61; idxwith open(label_dict_path, &＃39;r&＃39;) as f2:for line in f2:label, idx &＃61; line.strip().split()label_dict[label] &＃61; idxreturn word_dict, label_dictword_dict, label_dict &＃61; load_vocab(&＃39;data/data7933/word_dict.txt&＃39;, &＃39;data/data7933/label_dict.txt&＃39;)print(&＃39;词表大小&＃xff1a;{}&＃39;.format(len(word_dict))) print(&＃39;标签个数&＃xff1a;{}&＃39;.format(len(label_dict))) 词表大小&＃xff1a;23626 标签个数&＃xff1a;9

2.3 数据加载

PaddleNLP中提供了很多用于文本处理的接口&＃xff0c;这里我们结合PaddleNLP进行数据集的构建以及加载。

# 首先安装paddlenlp !pip install paddlenlp&＃61;&＃61;2.0.0b

import paddlenlp from paddlenlp.data import Stack, Tuple, Pad# 将词或标签转换为id def convert_tokens_to_ids(tokens, vocab, unk_token&＃61;None):token_ids &＃61; []unk_id &＃61; vocab.get(unk_token) if unk_token else Nonefor token in tokens:token_id &＃61; vocab.get(token, unk_id)token_ids.append(token_id)return token_ids# 自定义数据集 class NERDataset(paddle.io.Dataset):def __init__(self, data, word_dict, label_dict):self.data &＃61; dataself.word_dict &＃61; word_dictself.label_dict &＃61; label_dictdef __len__(self):return len(self.data)def __getitem__(self, idx):words &＃61; self.data[idx][0]labels &＃61; self.data[idx][1]word_ids &＃61; convert_tokens_to_ids(words, self.word_dict, unk_token&＃61;&＃39;[UNK]&＃39;)label_ids &＃61; convert_tokens_to_ids(labels, self.label_dict)return word_ids, len(word_ids), label_idstrain_ds &＃61; NERDataset(train_data, word_dict, label_dict) dev_ds &＃61; NERDataset(dev_data, word_dict, label_dict)print(train_ds[0]) ([&＃39;2&＃39;, &＃39;3&＃39;, &＃39;4&＃39;, &＃39;5&＃39;, &＃39;6&＃39;, &＃39;7&＃39;, &＃39;8&＃39;, &＃39;9&＃39;, &＃39;10&＃39;], 9, [&＃39;0&＃39;, &＃39;1&＃39;, &＃39;2&＃39;, &＃39;1&＃39;, &＃39;1&＃39;, &＃39;1&＃39;, &＃39;2&＃39;, &＃39;1&＃39;, &＃39;1&＃39;])

# 构建dataloader batchify_fn &＃61; lambda samples, fn&＃61;Tuple(Pad(axis&＃61;0, pad_val&＃61;train_ds.word_dict[&＃39;[PAD]&＃39;]), # wordStack(), # seq_lenPad(axis&＃61;0, pad_val&＃61;train_ds.word_dict[&＃39;[PAD]&＃39;]) # label ): fn(samples)train_loader &＃61; paddle.io.DataLoader(dataset&＃61;train_ds,batch_size&＃61;32,shuffle&＃61;True,drop_last&＃61;True,return_list&＃61;True,collate_fn&＃61;batchify_fn )dev_loader &＃61; paddle.io.DataLoader(dataset&＃61;dev_ds,batch_size&＃61;32,drop_last&＃61;True,return_list&＃61;True,collate_fn&＃61;batchify_fn )print(len(train_loader)) print(len(dev_loader))468 108

2.4 模型训练

同样的&＃xff0c;我们处理好数据之后&＃xff0c;根据自己的需要组建模型&＃xff0c;然后就可以进行训练啦。

# 省略模型组建及实例化过程# 模型训练 model.prepare(optimizer, loss, metrics) model.fit(train_loader, dev_loader, epochs&＃61;50, verbose&＃61;1)

总结

本节课和大家一起学习了如何对NLP任务中的数据进行预处理&＃xff0c;下节课同学们想实现什么趣味案例呢&＃xff1f;欢迎大家在评论区告诉我&＃xff0c;我们将会在后续的课程中给大家安排上哈&＃xff0c;今天的课程到这里就结束了&＃xff0c;我是雨哥&＃xff0c;下节课再见啦~

欢迎关注飞桨框架高层API官方账号&＃xff1a;飞桨PaddleHapi

https://aistudio.baidu.com/aistudio/personalcenter/thirdview/564527

有任何问题可以在本项目中评论或到飞桨Github仓库提交Issue。

同时欢迎扫码加入飞桨框架高层API技术交流群

回顾往期&＃xff1a;

『跟着雨哥学AI』系列&＃xff1a;详解飞桨框架数据管道

『跟着雨哥学AI』系列之二&＃xff1a;详解飞桨框架模型组网

『跟着雨哥学AI』系列之三&＃xff1a;详解飞桨框架模型训练

『跟着雨哥学AI』系列之四&＃xff1a;详解飞桨框架高阶用法

『跟着雨哥学AI』系列之五&＃xff1a;快速上手趣味案例FashionMNIST

『跟着雨哥学AI』系列之六&＃xff1a;趣味案例——基于U-Net的宠物图像分割

『跟着雨哥学AI』系列之七&＃xff1a;趣味案例--动手制作专属证件照

如果您想详细了解更多飞桨的相关内容&＃xff0c;请参阅以下文档。

·飞桨官网地址·

https://www.paddlepaddle.org.cn/

·飞桨开源框架项目地址·

GitHub: https://github.com/PaddlePaddle/Paddle

Gitee: https://gitee.com/paddlepaddle/Paddle

????长按上方二维码立即star&＃xff01;????

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础&＃xff0c;是中国首个开源开放、技术领先、功能完备的产业级深度学习平台&＃xff0c;包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件&＃xff0c;持续开源核心能力&＃xff0c;为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台&＃xff0c;针对企业级需求增强了相应特性&＃xff0c;包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业&＃xff0c;提供零门槛、预置丰富网络和模型、便捷高效的开发平台&＃xff1b;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END

推荐阅读

range
TensorFlow 入门：MNIST 数据集实战

本文详细介绍了 TensorFlow 的入门实践，特别是使用 MNIST 数据集进行数字识别的项目。文章首先解析了项目文件结构，并解释了各部分的作用，随后逐步讲解了如何通过 TensorFlow 实现基本的神经网络模型。 ... [详细]

蜡笔小新 2024-12-05 13:06:15
search
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
search
2016年10月25日数学考试：斐波那契数列与矩阵快速幂的应用

本次考试于2016年10月25日上午7:50至11:15举行，主要涉及数学专题，特别是斐波那契数列的性质及其在编程中的应用。本文将详细解析考试中的题目，并提供解题思路和代码实现。 ... [详细]

蜡笔小新 2024-12-25 13:08:21
object
Unity编辑器插件：NGUI资源引用检测工具

本文介绍了一款基于NGUI的资源引用检测工具，该工具能够帮助开发者快速查找和管理项目中的资源引用。其功能涵盖Atlas/Sprite、字库、UITexture及组件的引用检测，并提供了替换和修复功能。文末提供源码下载链接。 ... [详细]

蜡笔小新 2024-12-24 17:17:06
object
百度AI Studio实战：利用高性能GPU集群进行线性回归

本文介绍百度AI Studio这一集成开发平台，涵盖丰富的AI教程、经典数据集及云端计算资源。通过具体示例——在AI Studio上构建线性回归项目，帮助初学者快速掌握其核心功能与操作方法。 ... [详细]

蜡笔小新 2024-12-20 06:24:41
cmd
新手指南：在Windows 10上搭建深度学习与PyTorch开发环境

本文详细记录了一名新手在Windows 10操作系统上搭建深度学习环境的过程，包括安装必要的软件和配置环境变量等步骤，旨在帮助同样初入该领域的读者避免常见的错误。 ... [详细]

蜡笔小新 2024-12-17 03:14:23
object
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
object
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
audio
如何用GPU服务器运行Python

如何用GPU服务器运行Python-目录前言一、服务器登录1.1下载安装putty1.2putty远程登录 1.3查看GPU、显卡常用命令1.4Linux常用命令二、 ... [详细]

蜡笔小新 2024-12-06 11:54:09
sum
贝叶斯方法的核心理念

在探索概率深度学习的过程中，理解贝叶斯方法是至关重要的一步。本文旨在深入探讨贝叶斯方法的基本理念及其在深度学习中的应用，通过实例解析贝叶斯公式的内涵。 ... [详细]

蜡笔小新 2024-11-28 17:58:47
sum
使用snownlp进行微博情感分析的学习实践

本文介绍了如何利用snownlp库对微博内容进行情感分析，包括安装、基本使用以及如何自定义训练模型以提高分析准确性。 ... [详细]

蜡笔小新 2024-11-27 15:01:46
cmd
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
cmd
深入理解Java中的volatile、内存屏障与CPU指令

本文详细探讨了Java中volatile关键字的作用机制，以及其与内存屏障和CPU指令之间的关系。通过具体示例和专业解析，帮助读者更好地理解多线程编程中的同步问题。 ... [详细]

蜡笔小新 2024-12-27 17:26:33
cmd
APISpace 推出便捷接入的 ChatGPT 服务

随着 ChatGPT 在全球范围内的火热，众多开发者希望利用这一先进技术。然而，由于 OpenAI 官方网站注册流程复杂及支付条件限制，使得国内开发者难以便捷地接入这项技术。为了解决这个问题，APISpace 提供了一种简便的方式，让国内开发者可以轻松体验并使用 ChatGPT。 ... [详细]

蜡笔小新 2024-12-06 19:33:51
cmd
4000名‘数学基础薄弱’的程序员逆袭成功！揭秘如何学好AI与算法

对于那些数学基础较差的程序员来说，数学在编程中的重要性往往在工作中才逐渐显现。通过两个实际案例，我们可以深入了解数学如何帮助程序员更好地理解和优化代码。 ... [详细]

蜡笔小新 2024-12-05 19:05:15

dmcm0006

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章