python提取pdf简历中的信息,写入excel(代码片段)

Wang_AI Wang_AI     2023-01-26     462

关键词:

今天为大家分享一个真实的案例。

今天接到人力资源部同事的需求,想把他人投递的PDF简历资料里的关键信息数据,提取到excel表中汇总。

目标资料背景:是由求职者自行编制的简历材料,投递到人力资源部。由于其数据格式的不确定,对数据信息的采集带来了一定困难。

我的解答思路是:先从PDF文档中抓取文字信息保存到word文档中,然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中

import pdfplumber
from docx import Document

with pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:
    first_page = rpdf.pages[0]
    print(first_page.extract_text())

doc = Document()
rpdfword = first_page.extract_text()

pages = doc.add_paragraph(rpdfword)

doc.save('测试2.docx')

结果如下:

2. 将word中读到的文字输入到excel中

#导入所需库
from docx import Document
import xlwings as xw

#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):
    app=xw.App(visible=False,add_book=False)
    app.display_alerts=False
    app.screen_updating=False
    wb=app.books.open(path)
    sht=wb.sheets[sheetname]
    weizhi = []
    try:
        i = 0
        while i!=len(write_cols):
            j = 0
            while j!=len(write_rows):
                weizhi.append(write_cols[i]+str(write_rows[j]))
                j+=1
            i+=1
        k=0
        while k!=len(a):
            sht.range(weizhi[k]).value=a[k].text
            print(weizhi[k])
            k+=1
    finally:
        wb.save()
        wb.close()
        app.kill()

if __name__ == "__main__":
    #打开word文档
    document = Document(u"测试2.docx")
    
    #获取所有段落
    all_paragraphs = document.paragraphs    
    print(len(all_paragraphs))
        
    
    excel_path =r'报名人员信息统计表(模板).xls'
    SheetName = r'Sheet1'
    
    wcols = ['c','d','i','h','e','f','j','L']
    #新读取一个简历要换一行
    wrow = [3]
    excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下:

在读取word中文字时,需要注意调配相应关键信息字符信息,必要时可以删除非关键信息。

觉得还不错就给我一个小小的鼓励吧!

使用 python 2.7/pyMel 从 Excel 中提取信息?

】使用python2.7/pyMel从Excel中提取信息?【英文标题】:ExtractinformationfromExcelwithpython2.7/pyMel?【发布时间】:2015-04-1522:22:33【问题描述】:我知道这要求很多,但我已经研究了很多在Excel文档中使用python查找列或查找行的方法。但是... 查看详情

使用 Python 提取和合并 Excel 数据

】使用Python提取和合并Excel数据【英文标题】:ExtractingandconsolidatingExceldatausingPython【发布时间】:2018-03-1300:58:14【问题描述】:我有一个包含40张左右的Excel(.xlsx)文件。每个工作表具有相同的结构,但包含不同的数据。我想从每... 查看详情

使用python写入HDFS中的excel文件

】使用python写入HDFS中的excel文件【英文标题】:WritetoanexcelfileinHDFSusingpython【发布时间】:2020-05-1910:44:19【问题描述】:尝试使用zeppelin笔记本在HDFS上使用Openpyxl将数据帧写入excel工作簿。下面是我的代码-withpd.ExcelWriter(\'hdfs:///ip/... 查看详情

如何提取pdf中的数据将pdf转换成excel

要对pdf里面的数据进行统计,里面的东西挺多的,想把pdf先转换成excel然后在对有用的数据进行编辑统计,怎么弄如何将PDF转换成excel用烁光PDF转换器转换操作步骤:1、首先在电脑上下载安装烁光PDF转换器这款软件,可进入官网i... 查看详情

如何从 excel 列中提取数据到 Python 中的列表?

】如何从excel列中提取数据到Python中的列表?【英文标题】:HowtoextractdatafromanexcelcolumntoalistinPython?【发布时间】:2019-01-2008:42:24【问题描述】:我正在尝试从excel中的列中提取数据到Python中的列表中。我有以下代码:#ExtractingLabel... 查看详情

人口普查分析:利用python+百度文字识别提取图片中的表格数据(代码片段)

...数据,因此打算用来练个手。尝试了两种方法:1.python的pdfplumber包:利用pdfpumber中的extract_table()方法,可以直接将pdf中表格抽取转换成excel,但是对于不规则的表格(比如有合并单元格、分布在两页中)... 查看详情

求助:使用python将excel中的内容写入到txt文件

如图:将excel中的内容,按照其类别,分别写入到三个txt文件(若excel的内容在数据库中,该怎么做)参考技术A先将数据读取,用XLSWRITE命令可以将数据写入excel中,具体help一下,很简单 查看详情

从python内存中的MPEG(.ts)文件中提取音频,而不将MPEG写入文件

】从python内存中的MPEG(.ts)文件中提取音频,而不将MPEG写入文件【英文标题】:ExtractaudiofromaMPEG(.ts)fileinmemoryinpython,WithoutwritingMPEGtoafile【发布时间】:2020-02-2616:10:09【问题描述】:我正在做一个项目,该项目需要从.ts(MPEG-2传... 查看详情

快速提取文件中的汉字(或者有用的信息)(代码片段)

...ft,right,mid函数,还是使用分列都无能为力。下面介绍通过Python的正则表达式,一键轻松提取中文。应用先来说说IPythonipython是一个python的交互式shell,比 查看详情

自动化神器!python批量读取身份证信息写入excel(代码片段)

今天分享一个实用技能,利用Python批量读取身份证信息写入Excel。读取以图片形式的身份证为例,信息读取我们使用百度文字识别OCR来实现,百度接口提供了免费额度,日常使用基本差不多够了,下面来具体看... 查看详情

使用 Python 将列表中的数据帧写入多个 excel 文件

】使用Python将列表中的数据帧写入多个excel文件【英文标题】:WritedataframesfromalistintomultipleexcelfileusingPython【发布时间】:2021-05-1503:44:01【问题描述】:我有:list_of_DataFrames=[df_1,df_2,df_n,...]我想将这些数据帧中的每一个写入一个... 查看详情

从 Python 中的嵌套 Json 中提取信息

】从Python中的嵌套Json中提取信息【英文标题】:ExtractinformationfromnestedJsoninPython【发布时间】:2021-11-0505:39:34【问题描述】:我有一个dataset包含嵌套的json对象。我希望从这个嵌套的json中提取信息并将其放入python中的DataFrame中。... 查看详情

python实现pdf扫描件生成docx或excel功能

参考技术A应项目需求需要获取PDF扫描文件的内容,但寻遍整个网络能达到这种功能的产品,都要会员充值。苦于囊中羞涩也只好编写功能代码来实现了。如PDF中表格图片图-1效果生成图-2整个步骤为:读取PDF文件->生成图片->... 查看详情

怎样用python提取信息呢?分享这3个pythonpdf库

很多时候我们都会用Python去取数据文件,这些文件中很多都是PDF格式,有些PDF文件解析的时候只能解析一部分内容出来,大段的文字没有解析出来,那怎么样才能用Python提取这些信息呢?下面小千就给大家分... 查看详情

将贝宝电子邮件中的数据提取到 PDF 中?

】将贝宝电子邮件中的数据提取到PDF中?【英文标题】:PulldatafrompaypalemailintoPDF?【发布时间】:2016-05-2612:26:38【问题描述】:我在网上查看过,但找不到任何相关信息,尽管我觉得这将是一个常规问题,我现在有一家商店,它... 查看详情

使用python读取excel中的数据,并重新写入到新的excel中

参考技术A使用Python3运行起初是读取excel中的数据,进行相关的计算将结果追加在后面,没有找到合适的办法,就只能采用这种读取数据,进行相关操作,重新写入的方法(1)使用xlrd打开xls文件,读取数据(2)将需要的数据放进list中... 查看详情

使用 pandas 在 python 中将值写入 excel

】使用pandas在python中将值写入excel【英文标题】:Writingvaluestoexcelinpythonusingpandas【发布时间】:2018-10-1708:32:26【问题描述】:我是python新手,想将excel文件中的ZipCode传递给“uszipcode”包,并将该特定邮政编码的状态写入excel表中... 查看详情

将excel文件中选择的工作表打印为python中的pdf

】将excel文件中选择的工作表打印为python中的pdf【英文标题】:Printchosenworksheetsinexcelfilestopdfinpython【发布时间】:2013-05-1700:13:45【问题描述】:我需要编写一个python脚本来读取excel文件,找到每个工作表,然后使用excel中定义的... 查看详情