Python请求：如何获取空白隐藏输入的值

作者：谦谦骄子_458 | 来源：互联网 | 2023-08-10 11:20

我正在尝试抓取这个网站：https://case.occ.ok.gov/ords/f?p=1004:203拼图的缺失部分是弄清楚如何p_request

我正在尝试抓取这个网站：https : //case.occ.ok.gov/ords/f? p = 1004: 203

拼图的缺失部分是弄清楚如何p_request在发出最终请求之前“获取”数据负载中的参数。在查看“主”页面时，此字段为空，因此无法使用它传递给我的 POST 请求。

下面的代码不起作用，因为我p_request在有效负载中有一个空白参数，尽管我通过开发人员控制台的测试知道如果我能够获得该p_request字段，它将起作用。

# Query Main Site to Build Payload url = 'https://case.occ.ok.gov/ords/f?p=1004:203' r = requests.get(url) soup = BeautifulSoup(r.text,'lxml') # Get COOKIE COOKIEs = {} cookdat = r.COOKIEs COOKIEs['ORA_WWV_APP_1004'] = cookdat.get('ORA_WWV_APP_1004') COOKIEs['X-Oracle-BMC-LBS-Route'] = cookdat.get('X-Oracle-BMC-LBS-Route') # Create Payload inputs = soup.select('input') d_inputs = {i['id']:i.get('value','') for i in inputs} data = [ ('p_flow_id', '1004'), ('p_flow_step_id', '203'), ('p_instance', '%s'%d_inputs['pInstance']), ('p_debug', ''), ('p_request', ''), ('p_widget_name', 'worksheet'), ('p_widget_mod', 'PULL'), ('p_widget_action', ''), ('p_widget_num_return', '100000'), ('x01', '8980043036046866'), ('x02', '8985720770049096'), ('f01', 'R8980010866046866_column_search_current_column'), ('f01', 'R8980010866046866_search_field'), ('f01', 'R8980010866046866_row_select'), ('f02', ''), ('f02', ''), ('f02', '50'), ('p_json', '{"pageItems":{"itemsToSubmit":[{"n":"P203_LASTNAME","v":"%s"},{"n":"P203_FIRSTNAME","v":""},{"n":"P203_SEARCH_CRITERIA","v":"1"}],"protected":"%s","rowVersion":"","formRegionChecksums":[]},"salt":"%s"}'%(letter,d_inputs['pPageItemsProtected'],d_inputs['pSalt'])), ] # POST request retrieve data r = requests.post('https://case.occ.ok.gov/ords/wwv_flow.ajax', COOKIEs=COOKIEs, data=data) print(r.text)

在开发者控制台中，我看到这个字段在提交我想要的类型时出现，即使它在主页上是空白的：

我如何“检索”这个字段，这是请求工作所必需的？

回答

这对我有用

import requests import json from bs4 import BeautifulSoup # globals users = [] letter = "A" # session session = requests.Session() # get page auth = session.get('https://case.occ.ok.gov/ords/f?p=1004:203') soup = BeautifulSoup(auth.text, 'html.parser') inputs = soup.select('input') d_inputs = {i['id']: i.get('value', '') for i in inputs} # create params params = { 'p_flow_id': d_inputs['pFlowId'], 'p_flow_step_id': d_inputs['pFlowStepId'], 'p_instance': d_inputs['pInstance'], 'p_debug': '', 'p_request': 'Search', 'p_reload_on_submit': d_inputs['pReloadOnSubmit'], 'p_page_submission_id': d_inputs['pPageSubmissionId'], 'p_json': json.dumps({"pageItems": { "itemsToSubmit": [ {"n": "P203_LASTNAME", "v": "{}".format(letter)}, {"n": "P203_FIRSTNAME", "v": ""}, {"n": "P203_SEARCH_CRITERIA", "v": "1"} ], "protected": d_inputs['pPageItemsProtected'], "rowVersion": "", "formRegionChecksums": [] }, "salt": d_inputs['pSalt'] }) } # Send request to APEX session.post( 'https://case.occ.ok.gov/ords/wwv_flow.accept', data=params ) # get page with data (first) data_page = session.get( 'https://case.occ.ok.gov/ords/f?p=1004:203:{}::NO:::'.format( d_inputs['pInstance'] ) ) table_soup = BeautifulSoup(data_page.text, 'html.parser') # new params inputs = table_soup.select('input') d_inputs = {i['id']: i.get('value', '') for i in inputs} json_ajax_data = json.loads(data_page.text.split( 'interactiveReport(' )[1].split(');})();')[0]) # get data for next pages params_news = { 'p_flow_id': params['p_flow_id'], 'p_flow_step_id': params['p_flow_step_id'], 'p_instance': params['p_instance'], 'p_debug': '', 'p_request': 'PLUGIN={}'.format(json_ajax_data['ajaxIdentifier']), 'p_widget_name': 'worksheet', 'p_widget_mod': 'ACTION', 'p_widget_action': 'PAGE', 'p_widget_action_mod': 'pgR_min_row=51max_rows=50rows_fetched=50', 'p_widget_num_return': 50, 'x01': d_inputs['R8980010866046866_worksheet_id'], 'x02': d_inputs['R8980010866046866_worksheet_id'], 'p_json': params['p_json'] } # get next page data next_page = session.post( 'https://case.occ.ok.gov/ords/wwv_flow.ajax', data=params_news ) next_page_soup = BeautifulSoup(next_page.text, 'html.parser') next_page_table_with_data = table_soup.find('table', {'class': 'a-IRR-table'}) next_page_rows = next_page_table_with_data.find_all('tr') # parse rows for row_next_page in next_page_rows: cells_next_page = row_next_page.find_all('td') if len(cells_next_page) > 0: users.append( { 'name': cells_next_page[0].text, 'surname': cells_next_page[1].text } ) print(users)

[ {'name': 'ANDERSON', 'surname': 'MICHAEL L AND KAREN'}, {'name': 'ALVAREZ', 'surname': 'PETRA'}, ... ]

推荐阅读

python
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
get
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
search
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
get
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
python
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
get
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
match
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
python
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
replace
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
get
C#中获取进程主窗口句柄的实现方法

本文介绍了如何在C#中启动一个应用程序，并通过枚举窗口来获取其主窗口句柄。当使用Process类启动程序时，我们通常只能获得进程的句柄，而主窗口句柄可能为0。因此，我们需要使用API函数和回调机制来准确获取主窗口句柄。 ... [详细]

蜡笔小新 2024-12-27 03:39:09
get
Splay Tree 区间操作优化

本文详细介绍了使用Splay Tree进行区间操作的实现方法，包括插入、删除、修改、翻转和求和等操作。通过这些操作，可以高效地处理动态序列问题，并且代码实现具有一定的挑战性，有助于编程能力的提升。 ... [详细]

蜡笔小新 2024-12-26 18:47:12
get
优化Kafka流状态存储查询的最佳实践

本文探讨了如何优化和正确配置Kafka Streams应用程序以确保准确的状态存储查询。通过调整配置参数和代码逻辑，可以有效解决数据不一致的问题。 ... [详细]

蜡笔小新 2024-12-26 18:17:14
get
Apache Jena 中 Txn.executeWrite 方法详解与代码示例

本文详细介绍了 Apache Jena 库中的 Txn.executeWrite 方法，通过多个实际代码示例展示了其在不同场景下的应用，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-26 17:55:52
get
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
get
使用JPA Criteria API构建动态查询条件

本文介绍如何使用JPA Criteria API创建带有多个可选参数的动态查询方法。当某些参数为空时，这些参数不会影响最终查询结果。 ... [详细]

蜡笔小新 2024-12-26 09:26:16

谦谦骄子_458

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章