乐鱼体育官网数据冲洗(一):相闭数据的替代
时间:2024-05-22浏览次数:
 有时咱们的数据里充满了种种简写或符号,而正在治理、揭示数据的经过中,咱们需求的是数据各字段的具体名称,所以就需求对咱们的数据集举行洗濯与治理。前些天遭遇一个某藏书楼借阅数据,给出的央求是统计借阅图书的种别,数据里有每次借阅书本的中图分类号,如A122,A暗示马列毛邓,A1暗示马克思恩格斯著作,A12暗示单行著作,A122暗示1848~1863年间。  有时咱们的数据里充满了种种简写或符号,而正

  有时咱们的数据里充满了种种简写或符号,而正在治理、揭示数据的经过中,咱们需求的是数据各字段的具体名称,所以就需求对咱们的数据集举行洗濯与治理。前些天遭遇一个某藏书楼借阅数据,给出的央求是统计借阅图书的种别,数据里有每次借阅书本的中图分类号,如A122,A暗示马列毛邓,A1暗示马克思恩格斯著作,A12暗示单行著作,A122暗示1848~1863年间。

  有时咱们的数据里充满了种种简写或符号,而正在治理、揭示数据的经过中,咱们需求的是数据各字段的具体名称,所以就需求对咱们的数据集举行洗濯与治理。前些天遭遇一个某藏书楼借阅数据,给出的央求是统计借阅图书的种别,数据里有每次借阅书本的中图分类号,如A122,A暗示马列毛邓,A1暗示马克思恩格斯著作,A12暗示单行著作,A122暗示1848~1863年间。每一本书都有一个独立的分类号,依据需求只需求对分类号的第一个字母,也即分类号一级索引举行统计,并将统计结果里的字母用中文交换。所以这是一个初学级此外小义务,用Python就能够随便的杀青。

  源文献是一个80万行的Excel(囧),索引号正在某一列下,我需求治理的数据梗概有四万行。将其导入至sourceData.csv文献,便于读取,数据款式如下图。

  正在百度上查问获得各分类号与中文名称之间的对应相干,存放正在中图分类法.txt文献中。

  咱们按行读取的数据形如I267/121,而咱们只需求最最先的字母,所以提取每行第一个元素即可。统计词频咱们能够声明一个字典变量,将每一个一级索引动作一个key,假使字典里有该key,则值+1,不然创筑key.

  为了后面能直观地看出种种别图书借阅数目的异同,咱们正在此将该字典依据值的巨细降序分列。正在此需求用上sorted(dic,value,reverse)函数。因为sorted函数并褂讪更原字典,于是需求授与该函数的返回值——分列后的列外。

  因为分类号及其对应相干的数据为一行以逗号,离隔的文本,于是需求将其转换成字典。该数据行形如A,马列毛邓,终端另有一个换行符,为了将其变为字典,就需求正在剔除换行符的环境下以逗号将其分开为两个字符串。

  于是咱们现正在有两个变量,一个是存储了分类号与其对应中文的字典:{A: 马列毛邓, B: 玄学宗教...},一个是排序好的列外,列外元素为索引号及展现次数。咱们现正在需求将索引号交换为字典中对应索引号的值,将结果用两个变量暗示(便当后面绘图)。

  这里我用到了第三方库pyecharts,这个库是一个天生Echarts图外的python类库,性能宏大,图外也雅观。行使该库绘图除了可参考官方文档以外,还可参考这篇——种种图外的具体代码。

  第二、三个参数为坐标轴的值乐鱼体育官网。运转后正在源码所正在目次天生一个网页,内部即是动态的可视化图外。

  【4月更文挑拨第2天】正在数据洗濯经过中,治理大宗反复数据广泛涉及以下办法

  数据洗濯的首要办法蕴涵**剖释数据、治理反复值、治理空白值、治理很是值、数据圭臬化和数据汇集

  【4月更文挑拨第3天】数据洗濯的首要办法蕴涵**剖释数据、治理反复值、治理空白值、治理很是值、数据圭臬化和数据汇集

  【5月更文挑拨第19天】本文钻探了DataFrame的高级性能,蕴涵数据洗濯、转换和分组操作。正在数据洗濯时,行使fillna治理缺失值,设定阈值或统计手段治理很是值。数据转换涉及圭臬化和编码,如将分类数据转为数值。分组操影响于按特定列鸠合企图,扶助众级分组和自界说鸠合函数。左右这些才力能有用治理和认识数据,为计划供应扶助。

  SGAT丨hapmap 款式hmp.txt文献转换,基因型和外型文献样品合系筛选提取的迅疾手段

  SGAT丨hapmap 款式hmp.txt文献转换,基因型和外型文献样品合系筛选提取的迅疾手段

  php洗濯数据实战案例(4):依据合系数组类似值名称举行筛选后对分歧的目标予以统一企图的治理计划

  php洗濯数据实战案例(4):依据合系数组类似值名称举行筛选后对分歧的目标予以统一企图的治理计划

  正在“合系外单”中行使数据筛选性能筛选文本时条目只要”包罗“,此作品通过减少一个”下拉单选“组件,变相治理这个题目。

  【LeetCode从零单排】No.8 String to Integer (丧尽天良的一道题)

Copyright 2012-2023 leyu·乐鱼(中国)体育官方网站 版权所有 HTML地图 XML地图--备案号:豫ICP备20000747号  备案号:豫ICP备20000747号  
地址:河南省郑州市金水区丰庆路126号3号楼24层2401号  邮箱:19659724@qq.com  电话:13938535296