如果你想往数据工程 / 数据科学方向走,用 Python 起步,我推荐大致可以按这条主线:书打基础 → 视频补「大局观」→ 针对性练库 → 在真实项目里串起来。

用两本书把基础打穿

  1. 《Python 数据科学手册》(强烈推荐先看)

    • 覆盖 IPython / Jupyter、NumPy、Pandas、Matplotlib、Scikit-learn 等一整套工具,适合当「总览 + 手册」。
    • 官方 GitHub 有完整 Jupyter Notebook,可以边看边跑代码,非常适合自学和做笔记复现。
  2. 《利用 Python 进行数据分析》(Wes McKinney)

    • 本书的作者同时也是 Pandas 库的作者之一,这本基本等于「Pandas 权威指南」,重点练习:索引、分组、时间序列、数据清洗。
    • 适合作为「把表格数据摸透」的专项训练。

建议顺序: 先用《数据科学手册》跑一遍流程,再用《利用 Python 进行数据分析》把 Pandas 打实。

核心库与思维方式

围绕「表 → 数组 → 可视化 → 算法」四个环节:

  • NumPy:数值计算地基

    • 多维数组、广播、向量化运算,是后面所有库(Pandas、SciPy、Scikit-learn)的共同基石。
  • Pandas:一切「表格数据」的第一选择

    • 索引、数据清洗、缺失值处理、分组聚合、时间序列,练到顺手为止。
    • 做数据工程时,大量临时转换、对账、检查质量都会用到。
  • Matplotlib + 衍生可视化库

    • Matplotlib 是「底座」,几乎所有 Python 可视化库都依赖它。
    • 在此基础上了解:

      • Seaborn:统计图更顺手;
      • Plotly:交互式图表,方便做 demo / 仪表盘。
  • SciPy & Scikit-learn(点到为止)

    • SciPy:数值优化、插值、信号处理等,遇到复杂算法可以来这里找。
    • Scikit-learn:掌握基础模型(线性回归、树模型、特征工程管线)就够用,大部分数据工程任务只要会「调一个简单模型」就能跑通实验。
  • xarray / Dask(进阶,可选)

    • 面向多维时序、气象、遥感等大数组数据,可以把它们看作「带标签的多维表格」。
    • Dask 用来做「超出单机内存」的数据处理,是从「分析脚本」往「工程化」迈步的重要工具。

用高质量视频补齐「工程直觉」

推荐这几场时长 1–2 小时的英文讲座:

  • https://www.youtube.com/watch?v=5rNu16O3YNE&t=681s
  • https://www.youtube.com/watch?v=ZB7BZMhfPgk&t=45s
  • https://www.youtube.com/watch?v=rIofV14c0tc&t=308s

这些视频有一个共同的特点:讲的是「怎么在实际工作中做数据项目」而不是「语法教学」

演讲者通常是有多年一线经验的工程师 / 科学家,内容更偏:

  • 如何设计数据流水线
  • 怎么权衡「先做出来」和「做得优雅」
  • 常见坑和工程实践

建议: 先在书本 + 实操打完基础后再看这些视频,会有哦,原来他们是这样串起来的的感觉。

如何用这条路线自我迭代

  1. 先通读 + 跑书上的代码,别纠结 API 是否有小改动,重点是思路。
  2. 再挑一两个你自己的小项目(比如日志清洗、公开数据分析),刻意用 Pandas / NumPy / 可视化把流程走一遍。
  3. 遇到瓶颈再回来看视频和文档,把工程师的思路、抽象方法慢慢融进自己的习惯里。