خانه/مقالات

آموزش کامل تشخیص تصویر ( Image recognition ) با هوش مصنوعی به همراه کد پایتون و معرفی دیتاست‌ های معروف برای تشخیص تصویر

1404/04/21

164

10 دقیقه

admin

مقدمه

تشخیص تصویر (Image Recognition) یکی از شاخه‌های حیاتی در حوزه هوش مصنوعی است که به ماشین‌ها توانایی درک، تحلیل و طبقه‌بندی محتوای تصویری را می‌دهد. این فناوری در بسیاری از صنایع از جمله پزشکی، امنیت، خودروهای خودران، رباتیک، خرده‌فروشی و شبکه‌های اجتماعی به کار گرفته می‌شود.

در این مقاله، ابتدا مفاهیم پایه در تشخیص تصویر، سپس معماری‌های معروف CNN، دیتاست‌های پرکاربرد و در نهایت نحوه پیاده‌سازی یک سیستم تشخیص تصویر با استفاده از PyTorch را به صورت کامل آموزش خواهیم داد.

مفاهیم اولیه در تشخیص تصویر

تشخیص تصویر به معنی شناسایی و طبقه‌بندی اجسام یا ویژگی‌ها در یک تصویر دیجیتال است. این فرآیند معمولاً شامل مراحل زیر است:

ورودی تصویر: دریافت تصویر از منابع مختلف مانند دوربین، پایگاه داده یا اینترنت
پیش‌پردازش: اصلاح اندازه، نرمال‌سازی و حذف نویز تصویر
استخراج ویژگی: پیدا کردن الگوهایی مثل لبه‌ها، اشکال، بافت و رنگ‌ها با استفاده از شبکه‌های عصبی
طبقه‌بندی: دسته‌بندی تصویر با استفاده از مدل آموزش‌ دیده شده

معماری‌های معروف در شبکه‌های CNN

1. LeNet-5 (1998)

یکی از اولین شبکه‌های CNN طراحی شده توسط Yann LeCun برای تشخیص ارقام دست‌نویس. ساختار آن شامل دو لایه کانولوشن، دو لایه pooling و سه لایه fully connected است. این معماری پایه‌ای برای مدل‌های بعدی بود.

2. AlexNet (2012)

معماری انقلابی که برنده مسابقه ImageNet شد. از هشت لایه شامل پنج لایه کانولوشن و سه لایه fully connected استفاده می‌کند و از ReLU به عنوان تابع فعال‌سازی بهره می‌برد. همچنین استفاده از GPU را برای شتاب‌دهی رایج کرد.

3. VGGNet (2014)

ساخته شده توسط تیم Visual Geometry Group از دانشگاه آکسفورد. از چندین لایه کانولوشن ۳×۳ پشت سر هم استفاده می‌کند. این معماری با ساختار منظم خود محبوب شد اما پارامترهای زیادی دارد.

4. GoogLeNet (Inception, 2014)

با معماری ماژولار Inception معرفی شد. از لایه‌های موازی با فیلترهای مختلف (۱×۱، ۳×۳، ۵×۵) استفاده می‌کند. تعداد پارامترها را با استفاده از فشرده‌سازی کاهش داد.

5. ResNet (2015)

شبکه‌های با مسیرهای میان‌بر (skip connections) که اجازه می‌دهند گرادیان بهتر جریان پیدا کند و مدل‌های عمیق‌تر بدون افت کارایی آموزش ببینند. مدل‌های معروف آن شامل ResNet-18، ResNet-50 و ResNet-101 هستند.

6. MobileNet (2017)

مخصوص دستگاه‌های موبایل و IoT طراحی شده. با استفاده از تکنیک Depthwise Separable Convolution باعث کاهش شدید پارامترها بدون افت قابل توجه دقت شده است.

7. EfficientNet (2019)

با استفاده از AutoML توسط گوگل طراحی شد. با ترکیب روش‌های مقیاس‌دهی عمق، عرض و اندازه ورودی باعث بهبود کارایی و دقت شده است.

دیتاست‌های معروف برای تشخیص تصویر

1. MNIST

مجموعه‌ای از تصاویر ارقام دست‌نویس سیاه و سفید (0 تا 9) با اندازه ۲۸×۲۸ پیکسل. برای شروع یادگیری مفید است.

2. Fashion-MNIST

شامل تصاویر لباس‌ها و پوشاک در همان قالب MNIST. جایگزینی سخت‌تر برای MNIST برای ارزیابی مدل‌ها.

3. CIFAR-10 و CIFAR-100

تصاویر رنگی با اندازه ۳۲×۳۲ در ۱۰ یا ۱۰۰ کلاس مختلف شامل هواپیما، پرنده، قورباغه و... مناسب برای مدل‌های ساده تا متوسط.

4. ImageNet

یکی از بزرگ‌ترین دیتاست‌های جهان با بیش از ۱۴ میلیون تصویر در ۱۰۰۰ کلاس. پایه مسابقات سالانه ILSVRC بوده و چالش برانگیزترین مجموعه است.

5. COCO (Common Objects in Context)

شامل بیش از ۳۰۰٬۰۰۰ تصویر با اشیاء متعدد در هر عکس. برای وظایف پیچیده‌تر مانند تشخیص چند شیء و segmentation استفاده می‌شود.

6. TinyImageNet

نسخه سبک‌تر ImageNet برای آزمایش مدل‌ها با منابع محدودتر.

آموزش گام به گام PyTorch ( کد پایتون با توضیحات)

import torch

import torch.nn as nn

import torchvision

import torchvision.transforms as transforms

# استفاده از GPU در صورت وجود

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# تعریف تغییرات داده‌ها: تبدیل به tensor و نرمال‌سازی

transform = transforms.Compose([

transforms.ToTensor(),

transforms.Normalize((0.5,), (0.5,))

])

# بارگیری دیتاست MNIST

train_dataset = torchvision.datasets.MNIST(root='./data', train=True, transform=transform, download=True)

test_dataset = torchvision.datasets.MNIST(root='./data', train=False, transform=transform, download=True)

# ایجاد DataLoader برای آموزش و تست

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)

test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=1000, shuffle=False)

# تعریف شبکه CNN ساده

class SimpleCNN(nn.Module):

def __init__(self):

super(SimpleCNN, self).__init__()

self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1) # لایه کانولوشن با 32 فیلتر

self.pool = nn.MaxPool2d(2, 2) # لایه pooling برای کاهش ابعاد

self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1) # لایه دوم کانولوشن

self.fc1 = nn.Linear(64 * 7 * 7, 128) # لایه fully connected اول

self.fc2 = nn.Linear(128, 10) # خروجی برای 10 کلاس عددی

def forward(self, x):

x = torch.relu(self.conv1(x)) # فعال‌سازی ReLU پس از اولین کانولوشن

x = self.pool(x) # کاهش ابعاد با pooling

x = torch.relu(self.conv2(x)) # فعال‌سازی ReLU پس از دومین کانولوشن

x = self.pool(x) # کاهش ابعاد دوباره

x = x.view(-1, 64 * 7 * 7) # تغییر شکل داده برای لایه fully connected

x = torch.relu(self.fc1(x)) # فعال‌سازی ReLU پس از لایه اول کامل

x = self.fc2(x) # لایه خروجی بدون تابع فعال‌سازی (برای CrossEntropy)

return x

model = SimpleCNN().to(device)

criterion = nn.CrossEntropyLoss() # تابع خطا

optimizer = torch.optim.Adam(model.parameters(), lr=0.001) # بهینه‌ساز Adam

# حلقه آموزش مدل برای 5 دوره (epoch)

for epoch in range(5):

running_loss = 0.0

for i, (images, labels) in enumerate(train_loader):

images, labels = images.to(device), labels.to(device)

# پیش‌بینی مدل، محاسبه خطا و به‌روزرسانی وزن‌ها

outputs = model(images)

loss = criterion(outputs, labels)

optimizer.zero_grad()

loss.backward()

optimizer.step()

running_loss += loss.item()

print(f"Epoch {epoch+1}, Loss: {running_loss / len(train_loader):.4f}")

print("آموزش کامل شد.")

مقایسه TensorFlow vs PyTorch

ویژگی‌ها	TensorFlow	PyTorch
نحوه کدنویسی	گراف محاسباتی ایستا	پویا و قابل اشکال‌زدایی
پشتیبانی گوگل	بله	خیر
سادگی یادگیری	متوسط	آسان‌تر
سرعت اجرا	بالا	رقابتی
جامعه توسعه‌دهندگان	گسترده	رو به رشد

جمع‌بندی:

اگر به دنبال کنترل بالا و اشکال‌زدایی راحت هستید، PyTorch گزینه بهتری است. اگر پروژه بزرگ با استقرار تجاری دارید، TensorFlow را در نظر بگیرید.

تکنیک‌های بهبود عملکرد مدل تشخیص تصویر

افزایش داده (Data Augmentation): چرخش، برش، مقیاس‌بندی تصاویر
نرمال‌سازی Batch (Batch Normalization)
Dropout برای کاهش overfitting
استفاده از مدل‌های از پیش آموزش‌دیده (Transfer Learning) مثل ResNet50، VGG16
تنظیم دقیق ابرپارامترها (Hyperparameter Tuning)

پاسخ به سؤالات پرتکرار (FAQ)

چرا از CNN برای تشخیص تصویر استفاده می‌شود؟
چون CNN توانایی بالایی در شناسایی ویژگی‌های مکانی و محلی تصویر دارد و به صورت خودکار الگوها را یاد می‌گیرد.

بهترین کتابخانه برای شروع چیست؟
پیشنهاد می‌شود با PyTorch شروع کنید چون خواناتر و ساده‌تر برای دیباگ است.

آیا استفاده از دیتاست‌های آماده مثل CIFAR-10 کافی است؟
برای آموزش و آزمایش اولیه بله، اما در پروژه‌های صنعتی باید از دیتاست‌های خاص و سفارشی استفاده کرد.

TensorFlow بهتر است یا PyTorch؟
پاسخ بسته به نیاز پروژه دارد. PyTorch برای تحقیق و توسعه سریع‌تر است ولی TensorFlow در محیط‌های تولیدی و مقیاس بزرگ مزیت دارد.

منابع مفید برای یادگیری بیشتر

کلمات کلیدی مقاله

شبکه عصبی پیچشی هوش مصنوعی چیست؟ python tensorflow بهینه‌سازی مدل CNN tensorflow و pytorch