基于大数据方法的豆瓣电影短评分类、预测与搜索（一）

综述

链接：https://pan.baidu.com/s/10DHtZbPnH2SsuaPaZcIuLQ
提取码：tf9p

目前，大数据越来越多的和人工智能关联起来。而人工智能发展迅猛，在多个领域取得了巨大的成就，比如自然语言处理，图像处理，数据挖掘等。而本文正是诞生在如此环境下。首先本文基于Scrapy框架爬取豆瓣短评数据并进行清洗，然后通过hadoop+spark+mongodb完全分布式部署框架来进行数据的分类与采集，最终我们得到了比例为8:1:1的训练集、测试集和验证集。并在此基础上，我们调用了TextCNN、TextRCNN、TextRNN_Att、FastText、Transformer五大文本分类模型训练豆瓣Top250的短评，最后训练出五个可以通过短评来判断电影种类的模型，我们分别计算这五个模型的各个参数，最终选择一个较好的模型——TextRCNN模型来作为我们的后端模型。我们使用Fastapi来进行前后端分离的web应用。同时，我们在此基础上，为了能够让使用者能够仔细观察一个电影的具体情况，找到自己喜欢的电影，我们建立了基于余弦相似度的搜索模型，达到了模糊搜索的功能，并将其与前端相连，形成我们整个完整的项目。

研究背景

目前，大数据越来越多的和人工智能关联起来。而人工智能发展迅猛，在多个领域取得了巨大的成就，比如自然语言处理，图像处理，数据挖掘等。文本挖掘是其中的一个研究方向。根据维基百科的定义，文本挖掘也叫文本数据挖掘，或是文本分析，是从文本中获取高质量信息的过程，典型的任务有文本分类、自动问答、情感分析、机器翻译等。文本分类是将数据分成预先定义好的类别，一般流程为：1. 预处理，比如分词，去掉停用词；2. 文本表示及特征选择；3. 分类器构造；4. 分类器根据文本的特征进行分类；5. 分类结果的评价。</br>
由于近年来人工智能的快速发展，文本分类技术已经可以很好的确定一个未知文档的类别，而且准确度也很好。借助文本分类，可以方便进行海量信息处理，节约大量的信息处理费用。广泛应用于过滤信息，组织与管理信息，数字图书馆、垃圾邮件过滤等社会生活的各个领域。</br>

同时，随着网络的发展，电影事业的发展越来越繁荣，其的种类也越来越繁多。目前电影主要可以分为动作、喜剧、犯罪、爱情、科幻、战争等多种类型。而不同类型的电影，读者关于它们的评论却大相径庭。在基于hadoop+spark完全分布式平台的本次项目，我们主要针对于犯罪、喜剧、科幻和战争四种类型差异较大的电影，采用爬虫爬取到的不同类型的电影的影评作为数据集，运用TextCNN、TextRCNN、TextRNN_Att、FastText、Transformer五种文本分类模型来进行训练，最后选取一个预测结果结果最好的模型加载作为我们的fastapi+webUI实现的后端。最后因为电影在大数据报中仅能展示部分，而不能展示其的具体介绍。因此我又打算通过基于余弦相似度的分类算法来做一个小型的搜索系统。</br>
以上就是我项目的研究背景。