茱莉亚·斯拉格、戴维·罗宾逊著的《文本挖掘(基于R语言的整洁工具)》介绍了如何使用tidytext包以及其他基于R语言的tidy工具来进行文本挖掘。tidytext包提供的函数相对简单,但如何使用这个包则很重要。因此,本书还提供了真实的、极具吸引力的文本挖掘案例。
本书重点介绍实际软件实例和数据展示,几乎没有公式,但是有大量的代码。
| 书名 | 文本挖掘(基于R语言的整洁工具) |
| 分类 | |
| 作者 | (美)茱莉亚·斯拉格//戴维·罗宾逊 |
| 出版社 | 机械工业出版社 |
| 下载 | 抱歉,不提供下载,请购买正版图书。 |
| 简介 | 编辑推荐 茱莉亚·斯拉格、戴维·罗宾逊著的《文本挖掘(基于R语言的整洁工具)》介绍了如何使用tidytext包以及其他基于R语言的tidy工具来进行文本挖掘。tidytext包提供的函数相对简单,但如何使用这个包则很重要。因此,本书还提供了真实的、极具吸引力的文本挖掘案例。 本书重点介绍实际软件实例和数据展示,几乎没有公式,但是有大量的代码。 内容推荐 当前很多数据都是非结构化的大规模文本,这给分析和可视化带来了挑战。茱莉亚·斯拉格、戴维·罗宾逊著的《文本挖掘(基于R语言的整洁工具)》使用实用的tidytext软件包来介绍文本挖掘技术,该包是由Julia Silge和David Robinson共同开发的R软件包(类似于ggplot2和dplyr软件包),开发时采用了整洁原则。本书将会介绍如何利用tidytext以及其他整洁工具使文本分析变得更容易、更有效。 本书展示如何将文本转换为数据框,然后提取和可视化文本的特征;并介绍如何将自然语言处理(NLP)融入有效的工作流程中;实用的代码示例和数据分析将帮助你了解文学作品、新闻和社交媒体中的有用信息。 目录 前言 第1章 整洁文本格式 比较整洁文本结构与其他数据结构 unnest_tokens函数 整理Jane Austen的作品 gutenbergr包 词频 总结 第2章 基于整洁数据的情感分析 情感数据集 内连接的情感分析 比较三个情感词典 最常见的正面单词和负面单词 Wordclouds模块 除单词外的其他文本单元 总结 第3章 分析词和文件频率:tf-idf Jane Austen小说中的词项频率 Zipf定律 bind_tf_idf函数 物理学语料库 总结 第4章 词之间的关系:n-gram及相关性 n-gram词条化 用widyr包对单词对计数并计算相关性 总结 第5章 非整洁格式转换 使文档-词项矩阵整洁 将整洁文本数据转换为矩阵 总结 第6章 主题建模 LDA 示例:博大的图书馆馆藏 LDA方法的替代实现 总结 第7章 案例研究:Twitter归档文件比较 单词使用情况的比较 单词使用情况的变化 收藏和转发 总结 第8章 案例研究:NASA元数据挖掘 NASA如何组织数据 共现单词与相关单词 计算描述字段的tf-idf 总结 第9章 案例研究:分析Usenet文本 预处理 新闻组中的单词 情感分析 总结 参考文献 |
| 随便看 |
|
Fahrenheit英汉词典电子书栏目提供海量电子书在线免费阅读及下载。