机器如何学习？初学者友好解析

引言

在我之前的文章中，我分享了AI的概述以及如何在2025年开始学习AI。今天，作为这个系列的延续，让我们更深入地探索AI世界，并探讨一个基本概念。

你是否曾想过，为什么你的手机摄像头能识别你的脸，或者Gmail如何自动分类垃圾邮件？答案在于机器学习——但这到底是什么意思？

想象一下教孩子区分猫和狗。父母展示现实世界的例子，指出差异，直到孩子学会独立识别它们。机器学习的工作原理类似——我们在训练期间提供尽可能多的例子，让系统基于大量数据预测结果。

手写识别应用程序就是一个完美的例子，机器通过分析数千个书写样本来学习阅读不同的手写风格。

机器学习是编程计算机的科学（和艺术），使它们能够从数据中学习 — Aurélien Géron

机器学习的类型

让我们用简单的术语分解三种主要类型：

监督学习

机器从标记数据中学习，就像通过展示数千个预标记的例子来教它识别“垃圾邮件”或“非垃圾邮件”电子邮件。

示例：电子邮件垃圾邮件检测、医疗诊断系统、图像分类

无监督学习

系统在没有给定特定标签的情况下发现数据中的隐藏模式，就像基于购买行为发现客户群体。

示例：客户细分、推荐系统、市场研究分析

强化学习

机器通过试错学习，对正确行动获得奖励，对错误行动受到惩罚——类似于训练宠物或学习玩游戏。

示例：游戏AI（如AlphaGo）、自动驾驶汽车、聊天机器人优化

现实世界的机器学习应用

你与机器学习的互动可能比你想象的更频繁：

社交媒体动态：算法决定你首先看到哪些帖子
自动驾驶汽车：自动驾驶汽车使用ML算法导航
电子邮件过滤：自动垃圾邮件检测和组织
语音助手：Siri、Alexa和Google Assistant理解你的命令
流媒体服务：Netflix和Spotify推荐
电子商务：Amazon和其他平台上的产品建议

让我们深入一个例子

挑战：预测房屋价值

步骤1：导入库

1
2
3
4


import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt

这里发生了什么？

pandas - 把它想象成Python的Excel。它帮助我们在表格中组织数据
LinearRegression - 这是我们的AI“大脑”，将学习预测房价
train_test_split - 一个帮助器，将我们的数据分成“学习材料”和“考试问题”
matplotlib - 用于创建图表和图形（就像做演示）

步骤2：创建样本数据（我们的房屋例子）

1
2
3
4
5
6
7


# 样本房屋数据
data = {
    'bedrooms': [2, 3, 4, 2, 3, 4, 5, 3, 2, 4],
    'bathrooms': [1, 2, 3, 1, 2, 2, 3, 2, 1, 3],
    'sqft': [1000, 1500, 2000, 900, 1200, 1800, 2500, 1400, 800, 2200],
    'price': [200000, 300000, 400000, 180000, 250000, 350000, 500000, 280000, 150000, 420000]
}

这里发生了什么？

我们正在创建一个字典（就像一个文件柜），有4个类别每个列表包含10个具有其功能的房屋示例

bedrooms - 每个房屋有多少卧室
bathrooms - 每个房屋有多少浴室
sqft - 平方英尺（房屋大小）
price - 每个房屋实际售价

步骤3：将数据转换为DataFrame（像电子表格一样组织）

1

df = pd.DataFrame(data)

它看起来像：

1
2
3
4
5


   bedrooms  bathrooms  sqft   price
0         2          1  1000  200000
1         3          2  1500  300000
2         4          3  2000  400000
...

步骤4：分离特征和目标（输入与输出）

1
2
3


# 特征（输入）和目标（输出）
X = df[['bedrooms', 'bathrooms', 'sqft']]
y = df['price']

这里发生了什么？

X（特征）= 我们对房屋的了解（卧室、浴室、大小）
y（目标）= 我们想要预测的内容（价格）

现实世界的类比：

X = 你向房地产经纪人展示的房屋描述
y = 他们给你的价格估计

为什么这样分离？

机器需要学习：“当我看到这些特征（X）时，价格应该是（y）” 就像教孩子：“当你看到这些线索时，这就是答案”

步骤5：分割数据用于训练和测试（学习与考试）

1
2


# 将数据分成训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

这里发生了什么？

test_size=0.2 意味着20%用于测试，80%用于训练
random_state=42 确保我们每次得到相同的分割（为了一致性）

步骤6：创建AI模型（构建大脑）

1
2
3


# 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

这里发生了什么？

LinearRegression() 创建一个空的“大脑”，可以学习模式
model.fit() 就像“学习”阶段——它研究训练数据

步骤7：进行预测（测试AI）

1
2
3


# 进行预测
new_house = pd.DataFrame([[3, 2, 1600]], columns=['bedrooms', 'bathrooms', 'sqft'])
predictions = model.predict(new_house)

这里发生了什么？

我们创建一个有3间卧室、2间浴室和1600平方英尺的新房子 model.predict() 问我们训练过的AI：“你认为这房子值多少钱？” AI使用它学到的知识给我们一个估计价格

步骤8：显示结果（显示答案）

1
2


print(f"House with 3 bedrooms, 2 bathrooms, 1600 sqft")
print(f"Predicted price: ${predictions[0]:,.2f}")

步骤9：检查模型准确性（我们的AI有多好？）

1
2
3


# 显示准确性
accuracy = model.score(X_test, y_test)
print(f"Model accuracy: {accuracy:.2f}")

我们得到了什么运行 python your-code.py，你会得到这样的结果：

1
2
3


House with 3 bedrooms, 2 bathrooms, 1600 sqft
Predicted price: $311,844.96
Model accuracy: 0.98

最终想法

机器学习不是魔法——它全是关于数据的。你拥有的质量数据越多，你的结果就越准确理解这些基础知识是深入探索AI旅程的最佳基础你每天使用的每个AI应用程序都依赖于这些核心机器学习原则

准备好探索更多AI概念了吗？跟随我们继续这段进入迷人人工智能世界的旅程！ 🔗 喜欢这篇文章吗？查看我的博客上的更多内容： 👉 https://www.techcodx.com