网站首页  英汉词典  古诗文  美食菜谱  电子书下载

请输入您要查询的图书:

 

书名 文本挖掘(基于R语言的整洁工具)
分类
作者 (美)茱莉亚·斯拉格//戴维·罗宾逊
出版社 机械工业出版社
下载 抱歉,不提供下载,请购买正版图书。
简介
编辑推荐

茱莉亚·斯拉格、戴维·罗宾逊著的《文本挖掘(基于R语言的整洁工具)》介绍了如何使用tidytext包以及其他基于R语言的tidy工具来进行文本挖掘。tidytext包提供的函数相对简单,但如何使用这个包则很重要。因此,本书还提供了真实的、极具吸引力的文本挖掘案例。

本书重点介绍实际软件实例和数据展示,几乎没有公式,但是有大量的代码。

内容推荐

当前很多数据都是非结构化的大规模文本,这给分析和可视化带来了挑战。茱莉亚·斯拉格、戴维·罗宾逊著的《文本挖掘(基于R语言的整洁工具)》使用实用的tidytext软件包来介绍文本挖掘技术,该包是由Julia Silge和David Robinson共同开发的R软件包(类似于ggplot2和dplyr软件包),开发时采用了整洁原则。本书将会介绍如何利用tidytext以及其他整洁工具使文本分析变得更容易、更有效。

本书展示如何将文本转换为数据框,然后提取和可视化文本的特征;并介绍如何将自然语言处理(NLP)融入有效的工作流程中;实用的代码示例和数据分析将帮助你了解文学作品、新闻和社交媒体中的有用信息。

目录

前言

第1章 整洁文本格式

 比较整洁文本结构与其他数据结构

 unnest_tokens函数

 整理Jane Austen的作品

 gutenbergr包

 词频

 总结

第2章 基于整洁数据的情感分析

 情感数据集

 内连接的情感分析

 比较三个情感词典

 最常见的正面单词和负面单词

 Wordclouds模块

 除单词外的其他文本单元

 总结

第3章 分析词和文件频率:tf-idf

 Jane Austen小说中的词项频率

 Zipf定律

 bind_tf_idf函数

 物理学语料库

 总结

第4章 词之间的关系:n-gram及相关性

 n-gram词条化

 用widyr包对单词对计数并计算相关性

 总结

第5章 非整洁格式转换

 使文档-词项矩阵整洁

 将整洁文本数据转换为矩阵

 总结

第6章 主题建模

 LDA

 示例:博大的图书馆馆藏

 LDA方法的替代实现

 总结

第7章 案例研究:Twitter归档文件比较

 单词使用情况的比较

 单词使用情况的变化

 收藏和转发

 总结

第8章 案例研究:NASA元数据挖掘

 NASA如何组织数据

 共现单词与相关单词

 计算描述字段的tf-idf

 总结

第9章 案例研究:分析Usenet文本

 预处理

 新闻组中的单词

 情感分析

 总结

参考文献

随便看

 

Fahrenheit英汉词典电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 frnht.com All Rights Reserved
更新时间:2025/11/22 12:44:00