数据科学可视化教学与机器学习普及

本文介绍某中心数据科学家通过创建交互式可视化教程,降低机器学习学习门槛的创新实践。文章详细阐述了MLU Explain平台如何通过动画和幽默元素解释统计检验、过拟合等概念,并分享开源数据可视化库的开发历程。

2012年,《哈佛商业评论》将数据科学称为"21世纪最性感的职业"。虽然标题看似夸张,但很容易理解企业高管为何对数据科学如此着迷。

“这个领域发展迅猛且意义重大。数据科学可以应用于各个领域,正是这种爆发式增长促使我们创作解释性内容”,某中心网络服务(AWS)数据科学家Jared Wilber表示。

Wilber在机器学习大学团队中承担特殊职责,他协助创建可视化解释材料,帮助他人理解机器学习的基础概念。其团队近期推出了MLU Explain公共网站,该平台通过趣味动画可视化文章,以易于理解的方式阐释机器学习概念。

“学习机器学习具有挑战性,根据背景不同存在多重入门障碍。需要具备数学、统计学、计算机科学等领域的先验知识,而且教学内容往往形式枯燥,与机器学习系统交互和建立直觉还需要专门的软件配置。虽然概念复杂,但交互式文章能使学习过程更轻松。”

Wilber的教育动画解释器都融入了适量幽默元素。“使用幽默的目的是让机器学习背后的概念尽可能显得平易近人。因为很多概念初次接触时就像数学墙一样令人望而生畏。”

例如在解释统计检验(假设检验)概念时,他参与创建了《置换检验:可视化解释》。这个假设性案例引导读者通过测试比较哪种羊驼洗发水能提高羊毛质量,辅以粉色和蓝色羊驼的动画演示(颜色区分与卡通动物性别无关)。通过这个主题,Wilber逐步引导读者了解随机化、响应值、检验统计量、置换、检验统计量分布、p值等概念。

Wilber的解释能力始于图书馆时光。中学时期他在学校图书馆接触到《魔鬼经济学》和信息图表书籍,由此对统计学和图形学产生浓厚兴趣。在加州大学伯克利分校就读期间,他在伯克利数据科学研究所工作,获得统计学和计算机科学学位后先后任职于两家初创公司。

在伯克利数据科学研究所期间,他接触到Jupyter项目等具有影响力的开源项目,这给他留下深刻印象。一次意外的心脏手术恢复期促使他开发了roughViz.js数据可视化库,该库允许用户在浏览器中绘制手绘风格图表。

Wilber的首个交互式文章是关于滑板运动中音乐使用数十年变化的统计分析,这项工作引起了The Pudding编辑Matt Daniels的注意。这次"伪实习"经历催生了他的首篇出版物《好、棒和绝》。

后来Wilber通过在线招聘加入某中心,最初在人力资源研究团队专注于因果推理和机器学习。约一年后,他通过内部Slack频道发现机器学习大学团队的数据可视化设计职位,这个岗位完美结合了他的机器学习背景和数据可视化热情。

在MLU团队工作的两年间,Wilber最引以为傲的是MLU Explain项目。“希望这些文章能帮助任何背景的人理解或对机器学习产生兴趣。同时推动在教育环境中实现更好的计算界面也很重要,这些文章正是朝着这个方向迈出的一步。”

Wilber表示,在数据科学中找到创造性出口是他热爱的工作部分,而最令人满足的是符合公司"学习与好奇"领导原则的部分。“我们团队帮助某中心软件工程师将机器学习应用于任务中,使他们能够以不同方式使用AI满足客户需求。但真正令人振奋的是,我们现在正在将大量材料外部化,让那些想要学习并对机器学习感到好奇的个人能够以有趣且引人入胜的方式进行学习。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计