一時free一時happy,,一直free一直happy 上線一周,, gemini-2.0-flash-exp、gemini-2.0-flash-thinking-exp 已經成為了我日常對話頻率最高的模型之一,。 看著名字很長,,其實就是對標 GPT-4o 和 o1。 2.0-flash 在 SWE-bench(代碼能力評估) 得分超過 Claude-Sonnet-3.5,,2.0-flash-thinking 在 LMArena 所有類別拿到冠軍,且速度比 o1 快 5 倍,! 重要的是,,他們還把思考過程公開了(o1每次都會因為這點被吐槽) 還有還有,不同于貴到肉疼的 o1 API,, 也區(qū)別于“升級版封號斗羅pro-max-plus-ultra”的 Claude(額度是上午充的,,號是中午沒的。,。,。) Gemini 它免費啊,! 這就能做很多事了,,翻譯、編程,、日常對話,、聯(lián)網搜索、中文視頻聊天,、視頻剪輯,、屏幕共享,把我其他AI應用的活也搶了,。 之前用別家模型的 API 是為了節(jié)約成本,,這次是真的離不開 Gemini 了。 上一次,,我是因為 API 價格跳水,,梳理了在日常工作流里面如何搭配不同模型的 API 和網頁版。 當時我的選擇是:
但經過這兩周的反復嘗試后,這幾個應用都被 Gemini 取代了,,好處就是不需要自建服務集合十來個API,,也不需要擔心費用了,。 官方的羊毛好暖好貼心~ 一、日常對話 & 聯(lián)網搜索 先來簡單說說,,如何獲取 Gemini 的 API Key:
本地的大模型對話端我還是推 Chatbox,作者的更新是真的快,,我是自來水?? 軟件操作界面的右下角“設置”里面就可以選擇 Gemini,Chatbox 支持了幾乎是全系列的模型,,單單是Gemini 系列足足有30個,。 再分享一下我的默認設置:上下文消息上限保留12-18個、Temperature保留0.5~0.7,。 能回答“9.11跟9.9哪個大”的推理模型免費用上了,! 再來就是高頻的使用場景 - 代碼生成了。 Cursor已經算是半取代我的 vscode,,我的 vscode 現(xiàn)在只出現(xiàn)在云端了,。 給大家看看實際生成的速度: 二、網頁 & PDF翻譯 沉浸式翻譯,,也是老朋友了,, 基本上網頁、PDF翻譯都已經是主力工具,,我額外會搭配一個 Bob 來滿足更靈活的劃詞翻譯和圖片翻譯,。 因為這兩款軟件原生就支持 Gemini API Key, 設置上基本沒有難度: 1.5-flash 的翻譯速度還是蠻快的,,雖說比不上非大模型的翻譯接口,,但勝在翻譯質量是真的高。 視頻聊天 & 屏幕共享 不得不說,,Gemini 2.0 這個實時語音加屏幕獲取太有用了,。體驗感比 GPT mac 應用的實時屏幕更加絲滑。 這次用的是這款軟件:https://www.,, 跟官網相比的話,,多支持了中文聊天。 視頻里我就嘗試讓 Gemini 幫我調整生成的圖片風格,,整體感覺可以充當聊天助理,,要用在實時輔助的話,還是有一段距離的,。 也期待后續(xù)能跟 AI 眼鏡,、AI 耳機聯(lián)動起來,搞點新花樣。 視頻剪輯 & 輔助視頻生成 Gemini能看懂多模態(tài),,輸入多模態(tài)的好處還有更多,。 一開始是 @晨然 測試 Gemini 自動剪輯的時候,發(fā)現(xiàn) 2.0 可以直接理解到精確毫秒的信息,。而且在沒有給大量 prompt 情況下給出了這個效果的剪輯,,剪除了氣口,保留了有效信息,。 而 @海辛 根據這個特點實現(xiàn)了控制時間軸的視頻生成,,簡單來說就是靠在 prompt 上寫上具體的時間節(jié)點來控制鏡頭的運動, 具體的步驟就是:
<提示語> 視頻每一個分鏡的開始時間和畫面詳細描述,,時間需要精確到小數點后兩位,,畫面描述需要非常詳細,比如環(huán)境描述,、人物表情穿著,、氛圍等 </提示語> 關鍵這還是有論文支持的(666)。 |
|