久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

用ChatGPT寫一個數(shù)據(jù)采集程序

 編程教室 2023-05-31 發(fā)布于江蘇


大家好,歡迎來到 Crossin的編程教室 ,!

上次我們討論了ChatGPT在輔助編程學(xué)習(xí)上的一些用法:

如何用ChatGPT學(xué)Python

既然ChatGPT可以理解并生成代碼,,那么自然而然,它的作用不僅僅是幫助學(xué)習(xí)代碼,,同樣也可以直接用在實際的軟件開發(fā)當(dāng)中。

對于網(wǎng)頁上的數(shù)據(jù)采集及處理是Python的常見應(yīng)用場景之一,。我們來看下ChatGPT是不是也能完成這樣的任務(wù),。

假設(shè)我們現(xiàn)在需要抓取并整理某個網(wǎng)頁上的表格數(shù)據(jù):

https:///static/score.html

我們直接來問問ChatGPT,,能不能給個抓取的代碼:

ChatGPT給了我們一份代碼,,但很遺憾,把這個代碼復(fù)制到編輯器中運行后,,生成的Excel是空的。

簡單調(diào)試后發(fā)現(xiàn),,原來是因為頁面上的表頭元素用的是<th>標(biāo)簽

而ChatGPT因為沒有獲知具體的頁面代碼信息,直接當(dāng)做<td>標(biāo)簽來處理,,所以沒采集到表頭信息,。

這種情況下,,我們可以手動對代碼做一些修改。

或者,,我們點擊回答下方的“Regenerate response”,讓它重新回答一次試試:

這次ChatGPT給出的代碼比之前簡潔:

import pandas as pd
# 讀取網(wǎng)頁上的表格url = 'https:///static/score.html'tables = pd.read_html(url)
# 假設(shè)目標(biāo)表格是第一個表格table = tables[0]
# 將表格保存為Excel文件output_file = 'table.xlsx'table.to_excel(output_file, index=False)
print(f"表格已保存為 {output_file}")

運行后,,成功得到了我們要的結(jié)果:

順利拿到數(shù)據(jù)后,我們再進一步,,讓ChatGPT來對數(shù)據(jù)進行排序。當(dāng)然,,在排序前,我們需要告訴它關(guān)于表格內(nèi)容的必要信息:

代碼:

import pandas as pd
# 讀取網(wǎng)頁上的表格url = 'https:///static/score.html'tables = pd.read_html(url)
# 假設(shè)目標(biāo)表格是第一個表格table = tables[0]
# 將缺失值替換為0table.fillna(0, inplace=True)
# 計算每個學(xué)生的均分table['均分'] = table.mean(axis=1)
# 按均分降序排序table.sort_values(by='均分', ascending=False, inplace=True)
# 將表格保存為Excel文件output_file = 'sorted_table.xlsx'table.to_excel(output_file, index=False)
print(f"按均分排序后的表格已保存為 {output_file}")

這次,,ChatGPT完美實現(xiàn)了我們提出的需求:

可以看出,,雖然ChatGPT很強大,但并不能保證每次生成的代碼都是完美,,仍然可能需要引導(dǎo)它修正或人工干預(yù)。

但即便如此,,它也已經(jīng)算得上一個十分得力的編程助手,,可以大大提高開發(fā)效率。尤其像數(shù)據(jù)處理這種場景,,以往開發(fā)時常常需要查找各種函數(shù)及其參數(shù)的使用方法,。

我現(xiàn)在做數(shù)據(jù)分析已經(jīng)快離不開它了,。

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多