本次课程将介绍如何使用 Spark MLlib 对 Twitter 上的流数据进行情感分析,并且利用 Python 的工具包 basemap 可视化美国不同的州对于曾经的总统候选人希拉里及川普的情感分析结果,通过地理信息可视化我们可直观的感受到这两位候选人的受欢迎程度。
实验任务
- Apach Spark 环境配置
- Twitter 数据预处理
- 构建随机森林分类器
- 分析结果可视化
先学知识
课程难度
面向用户
- 本课程主要讲解使用 Spark 对 Twiter 文本数据进行情感分析;该课程适合于对数据分析感兴趣,想要使用 Spark 进行数据分析的用户。