Introduction to AI

Perceptrons (感知机)

感知机是最简单的人工神经网络模型，是神经网络的基础单元。它的工作原理可以类比为"投票机制"：每个输入特征都有自己的权重（重要性），将所有输入与对应权重相乘后求和，如果超过某个阈值就输出"是"，否则输出"否"。

感知机工作原理动画演示

x₁ x₂ x₃

→

Output

输入 → 加权和 → 激活函数 → 输出

核心思想 f(x) = sign(w·x + b)，其中 w 是权重向量，b 是偏置，sign 是符号函数
几何意义 感知机在特征空间中划出一条分隔直线（或平面），将数据分为两类
局限性 只能处理线性可分的问题，如 AND、OR 逻辑门，但无法解决 XOR 问题

# 感知机的Python实现示例
import numpy as np

class Perceptron:
    def __init__(self):
        self.weights = None
        self.bias = 0
    
    def predict(self, X):
        linear_output = np.dot(X, self.weights) + self.bias
        return np.where(linear_output > 0, 1, 0)
    
    def train(self, X, y, epochs=100, lr=0.01):
        n_features = X.shape[1]
        self.weights = np.zeros(n_features)
        self.bias = 0
        
        for _ in range(epochs):
            for xi, yi in zip(X, y):
                update = lr * (yi - self.predict(xi)[0])
                self.weights += update * xi
                self.bias += update

Multi-layer Neural Networks (多层神经网络)

多层神经网络（也称为多层感知机 MLP）在单层感知机的基础上增加了隐藏层，可以学习更复杂的非线性模式，解决了单层网络无法处理 XOR 问题的局限性。

多层神经网络结构动画演示

输入层

→

隐藏层1

→

隐藏层2

→

输出层

每层神经元提取不同层次的特征

网络结构 输入层 → 多个隐藏层 → 输出层。每层的神经元与下一层全连接。
非线性激活 隐藏层使用 ReLU、Sigmoid、Tanh 等激活函数，引入非线性变换
表达能力 只需一个隐藏层就能近似任意连续函数（通用近似定理）
类比理解 就像多层"过滤器"，每��提��不同层次的特征：从边缘→纹理→形状→物体

# 多层神经网络前向传播示意
class MLP:
    def __init__(self, layer_sizes):
        self.weights = []
        self.biases = []
        for i in range(len(layer_sizes)-1):
            self.weights.append(np.random.randn(layer_sizes[i], layer_sizes[i+1]) * 0.1)
            self.biases.append(np.zeros(layer_sizes[i+1]))
    
    def forward(self, X):
        self.activations = [X]
        for w, b in zip(self.weights, self.biases):
            z = np.dot(self.activations[-1], w) + b
            a = np.maximum(0, z)  # ReLU激活
            self.activations.append(a)
        return self.activations[-1]

Training Method (训练方法)

神经网络的训练核心是通过反向传播算法（Backpropagation）不断调整参数，使损失函数最小化。

反向传播（Backpropagation）动画演示

前向传播

→

计算损失

←

反向传播

梯度从后向前逐层传播，更新参数

损失函数 衡量预测值与真实值的差距，如交叉熵损失（分类）、均方误差（回归）
梯度下降 沿损失函数的负梯度方向更新参数：θ = θ - lr × ∇θJ(θ)
反向传播 从输出层向输入层逐层计算梯度，利用链式法则高效求导
优化器 SGD、Momentum、Adam、RMSprop 等加速收敛
学习率 控制每步更新的幅度，过大则震荡，过小则收敛慢

# 简化版反向传播
def backprop(loss, learning_rate=0.01):
    # dLoss/dOutput 根据具体损失函数计算
    dLoss_dOutput = ...
    
    # 从后向前传播梯度
    for i in reversed(range(len(layers))):
        dOutput_dZ = activation_derivative(layers[i].output)
        dZ_dW = layers[i].input
        
        gradient = dLoss_dOutput * dOutput_dZ
        layers[i].weights -= learning_rate * np.outer(dZ_dW, gradient)
        layers[i].bias -= learning_rate * gradient
        dLoss_dInput = layers[i].weights @ gradient

Best Practices for Training Classifiers

训练一个好的分类器需要注意以下关键实践：

数据划分 训练集 / 验证集 / 测试集常用比例 70%/15%/15%，或使用 K 折交叉验证
数据预处理 归一化（0-1范围或标准化）、处理缺失值、特征工程
防止过拟合 正则化（L1/L2）、Dropout、Early Stopping、数据增强
防止欠拟合 增加模型复杂度、增加训练轮数、减少正则化强度
batch size 选择 小batch方差大但收敛快，大batch方差小但计算高效，常用32/64/128
学习率调度 学习率衰减、warmup、余弦退火等策略

Convolutional Neural Networks (CNN)

卷积神经网络是处理图像数据的核心技术，通过局部连接和权值共享大幅减少参数数量。

卷积操作动画演示

卷积核 →

卷积核滑动提取特征

卷积层 使用卷积核在图像上滑动提取特征，如边缘、纹理、形状
池化层通过对局部区域进行下采样（如最大池化、平均池化），减少计算量的同时保持特征不变性。权值共享使得卷积核在图像各位置使用相同参数，大幅降低需要学习的参数数量。
经典架构 LeNet→AlexNet→VGG→ResNet→EfficientNet，不断加深优化
在AI安全中的应用 CNN 是图像分类、目标检测、Deepfake检测的基础 backbone

# PyTorch 卷积层示例
import torch.nn as nn

class SimpleCNN(nn.Module):
    def __init__(self, num_classes=10):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 32, kernel_size=3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.fc = nn.Linear(64*8*8, num_classes)
    
    def forward(self, x):
        x = self.pool(torch.relu(self.conv1(x)))  # 32→16
        x = self.pool(torch.relu(self.conv2(x)))  # 16→8
        x = x.view(-1, 64*8*8)
        return self.fc(x)

📚 本章复习要点

感知机：最基础的线性分类器，只能处理线性可分问题
多层网络：通过隐藏层和非线性激活函数，能够学习任意复杂模式
训练过程：前向传播→计算损失→反向传播→参数更新
CNN：专为图像设计，通过卷积和池化提取空间特征
AI安全关联：理解模型结构是学习后续攻击与防御的基础