跳到主要内容

沙巴体育下载博客

欢迎改变的地方

情感分析:Microsoft SQL Server 2019大数据集群和StreamSets数据操作平台

By 张贴在 工程 2020年1月29日

在这篇博客文章中,学习如何通过整合 Microsoft SQL Server 2019大数据集群 和  StreamSets 沙巴体育下载平台.

在与大数据进行交互和管理时,可以更灵活地使用数据进行机器学习和分析任务. 这个过程允许数据团队成员部署可伸缩的SQL Server集群, Apache火花, 以及在Kubernetes上运行的HDFS容器.

SQL Server 2019大数据集群可以创建一个虚拟数据中心,用户可以从多个来源查询数据, 结构化和非结构化通过单一, 通过统一的接口 混合基. StreamSets通过提供一个数据集成平台来从不同的数据源物理移动数据,从而增强了数据集线器, 位置, 并以连续可靠的方式进行格式化, 允许您构建一个现代化的数据中心,推动实时分析. 

考虑到SQL Server大数据集群部署在Kubernetes集群上作为一组容器, 使用配置代理很容易在相同的环境中部署streamset. 供应代理是一个运行在Kubernetes中的容器化应用程序. 代理与 StreamSets 自动为streamset数据平面组件提供容器,用于跨数据栈移动数据. 供应包括自动部署, 注册, 开始, 扩展和停止数据平面容器. 

如上所述, 在这篇博文中, 沙巴体育手机版将研究两种技术之间的集成,以对来自推特的流数据进行情感分析.

观看演示视频

这个演示分为两个流程,如下所述.

吸收:推特到Apache卡夫卡

情绪-analysis-streamsets

  • 摄取
  • 变换 
    • StreamSets提供超过60个开箱即用的处理器. 该管道中的转换包括使用丢弃已删除和重复的tweet 流选择器,将推特的API返回的推文数组转换为使用的单个推文记录 领域主,扁平化嵌套推文结构 场压延机,以及使用过滤和重命名字段 场剂场重命名.
  • 商店

情感分析:Apache卡夫卡 To SQL Server 2019大数据集群

情绪-analysis-tweets

*** Azure情感分析API输入示例:

{
  “文档”:(
    {
      “语言”:“en”,
      "id": "1",
      “文本”:“RT @Uno平台:嗨,推特用户——你们有人会参加奥兰多的Ignite大会吗?? 沙巴体育手机版会去的,很想聊聊,喝杯咖啡."
    },
    {
      “语言”:“西文”,
      "id": "2",
      "text": "MS-500 está reservado mientras estoy en# MSIgnite2019. Ahora a golpear los libros!"
    },
    {
      “语言”:“en”,
      "id": "3",
      “文本”:“看看@VirtDesktopTT的十大微软点燃2019年VDI管理员会话. 你不会想错过的."
    }
  ]
}

*** Azure情感分析API输出示例:

{
  “文档”:(
    {
      "id": "1",
      “分数”:0.92
    },
    {
      "id": "2",
      “分数”:0.85
    },
    {
      "id": "3",
      “分数”:0.64
    }
  ],
  “错误”:[]
}

SQL Server 2019大数据集群查询情感分析

一旦推 数据和情感分析得分存储在SQL Server大数据集群中, 他们已经准备好询问了 Azure Data Studio.

检索tweet记录.

SELECT * FROM [dashdb].(dbo).(手段);

基于得分范围创建“箱子”.

select 
(select count (*) 
从dbo.手段
分数在0和0之间.24)为“得分在0 - 0之间的推文”.24",
(select count (*) 
从dbo.手段
分数在0之间.25和0.49)为“得分在0之间的推文”.25 - 0.49",
(select count (*) 
从dbo.手段
分数在0之间.50和0.74)为“得分在0之间的推文”.50 - 0.74",
(select count (*) 
从dbo.手段
分数在0之间.75和1)为“得分在0之间的推文”.75 - 1";

 

Summary

在这个博客中,我已经说明了如何容易地开始 Microsoft SQL Server 2019大数据集群 和StreamSets数据操作平台. 在突出显示的用例中, 您学习了如何使用机器学习对使用这两种技术的流数据快速获得见解.

了解更多关于 StreamSets 沙巴体育下载平台StreamSets和微软 伙伴关系. 

回到顶部

沙巴体育手机版使用cookie来改善您对沙巴体育手机版网站的体验. 单击“允许所有人同意”并继续访问沙巴体育手机版的网站. 隐私政策

(类^ =“wpforms——”)
(类^ =“wpforms——”)