現在的數發部大家都知道很有能力抓紅諜很厲害,值得嘉獎但為何網路詐騙卻無法有效降低然後我們政府說2.9兆總預算,政府運作會有問題蔡英文執政2.8兆都沒哎哎叫,可見現今的人事成本包袱太重美國政府有能力瘦身,我們數發部有能力幫我們政府瘦身嗎?https:news.tvbs.com.twworld2765375
使用開源模型來減少 API 依賴的詳細做法當企業或研究人員希望降低對封閉大模型(如 OpenAI GPT-4、Google Gemini)的 API 依賴時,可以直接使用開源模型來進行蒸餾和訓練。
這種方法的核心目標是:1.利用開源大模型(如 LLaMA、Mistral、Gemma)作為教師模型2.通過蒸餾技術讓較小的學生模型學習開源模型的行為3.必要時,僅少量使用封閉 API 來進一步調整學生模型以下是完整的流程與技術細節:________________________________________1. 選擇合適的開源模型作為教師首先,必須選擇一個性能足夠好的開源大模型來代替封閉模型:•LLaMA 3 (Meta)oLLaMA-3 70B 參數版的性能接近 GPT-4,適合作為蒸餾教師。
•Mistral 7B Mixtral 8x7BoMistral 是當前最佳的開源 7B 模型,Mixtral 則是稀疏激活的 8x7B 模型,在某些測試上甚至優於 GPT-3.5。
•Google Gemma 7B2BoGoogle 推出的 Gemma 7B 也可以作為教師模型,特別適合與 Gemini 進行對比學習。
這些開源模型可以在 本地部署 或 雲端 GPU 訓練,減少 API 依賴。
________________________________________2. 準備大規模語料數據由於開源模型通常沒有商業大模型那樣廣泛的數據學習能力,因此需要準備大量數據來訓練學生模型:1.從開放數據集蒐集文本oRedPajama、The Pile、OpenWebText:開放的高品質文本數據庫。
oCommon Crawl:網頁爬取數據,但需要清理。
oWikipedia、BooksCorpus:用於通識與知識問答。
2.使用開源大模型自動生成額外數據o透過 LLaMA-3 70B 或 Mixtral 8x7B 生成高質量問答數據,然後再用這些數據訓練學生模型。
o可以讓開源大模型生成「知識提問 + 答案」,例如:python複製編輯model.generate("請問黑洞的事件視界是如何影響時空曲率的?")o這樣可以模擬封閉大模型的回答風格,而無需直接查詢 API。
3.如果一定要參考封閉模型,可使用少量 APIo例如可以隨機抽取 1% 的數據 使用 OpenAI API 來驗證,然後用開源模型擬合這些數據。
________________________________________3. 設計學生模型學生模型的目標是壓縮開源大模型的知識,減少計算資源需求:•選擇較小的 Transformer 架構o例如 LLaMA 3 7B 或 Gemma 2B 作為學生模型,這樣可以確保在手機或小型伺服器上運行。
•使用量化技術o透過 4-bit 或 8-bit 量化,讓小模型更高效,例如:python複製編輯from transformers import AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrained("LLaMA-3-7B", device_map="auto", load_in_8bit=True)•應用知識蒸餾o設定教師-學生對應:python複製編輯teacher_model = LLaMA_70Bstudent_model = LLaMA_3_7Bo訓練時使用 KL 散度蒸餾損失,讓學生學習教師的行為:python複製編輯loss = KL_Divergence(student_model_output, teacher_model_output)________________________________________4. 訓練過程1.逐層蒸餾o讓學生模型模仿教師模型的不同層次輸出:例如 LLaMA 70B 有 80 層,學生(LLaMA 7B)只有 32 層,可以讓學生學習教師的中間層表現。
2.知識蒸餾o讓學生模型學習教師模型的最終輸出:使用 soft target 方式,讓學生模型學習概率分佈,而不是硬性標籤。
公式: LKD=KL(σ(zTT)∣∣σ(zST))L_{text{KD}} = text{KL}(sigma(z_TT) sigma(z_ST))LKD=KL(σ(zTT)∣∣σ(zST))TTT 為溫度係數,控制概率平滑度。
3.RLHF 微調o透過 人類回饋強化學習(RLHF),進一步調整學生模型,使其表現更自然,接近封閉大模型:設定 AI 評分系統,選擇最佳答案進行增強學習。
________________________________________5. 模型測試與部署(1) 測試性能•用開源基準測試(OpenBench)驗證•與 GPT-4 Gemini 進行對比測試•人工審查,確保語言流暢度(2) 部署優化•壓縮模型(Pruning, Quantization)•在邊緣設備(如手機或小型伺服器)上測試•使用 FlashAttention 加速推理________________________________________6. 結論這種方法的核心在於:1.利用開源大模型作為教師,避免過度依賴封閉 API2.利用知識蒸餾技術壓縮知識,使學生模型變小且高效3.僅在必要時少量使用封閉 API,進一步調整學生模型4.測試與優化,確保模型能夠在實際應用中運行這樣做可以大幅降低 API 成本,避免被封鎖,並且打造出自主可控的 AI 模型。
224o你說:你的意思是說使用開元大模型去open AI大模型進行蒸餾訓練的時候可以大幅降低API的詢問數目對不對ChatGPT 說:ChatGPT是的,使用開源大模型來進行OpenAI等封閉大模型的蒸餾訓練時,可以大幅降低 API 的詢問數目,主要原因有以下幾點:________________________________________1. 透過開源大模型模擬封閉大模型(1) 直接使用開源大模型產生訓練數據如果你想要一個像 GPT-4 那樣的學生模型,而不想直接查詢 OpenAI API 幾百萬次,你可以:•先用開源大模型(如 LLaMA-3、Mistral 7B)產生大量的問答數據•只用 OpenAI API 驗證或微調部分關鍵數據•讓學生模型學習開源大模型的知識,再少量參考封閉大模型舉例: 假設你想蒸餾 GPT-4,原始方法需要詢問 API 100 萬次,但如果你:1.用 LLaMA-3 70B 產生 90% 的訓練數據2.只用 OpenAI API 產生 10% 的關鍵數據3.再讓學生模型學習這些數據這樣就能夠只用 10 萬次 API 查詢,而不是 100 萬次,大幅降低 API 依賴。
________________________________________2. 逐層學習開源大模型,而不是直接學封閉大模型通常在知識蒸餾(Knowledge Distillation, KD)中:1.學生模型學習教師模型的中間層和最終輸出2.如果教師模型是 OpenAI API,那你就必須大量詢問 API3.但如果教師模型是開源模型,那你可以自己提取這些資訊做法:•步驟 1:用 LLaMA 70B 或 Mistral 8x7B 訓練一個 中等大小的教師模型。
•步驟 2:讓 學生模型 學習這個開源教師模型,而不是直接學 OpenAI。
•步驟 3:只在關鍵知識點上,查詢 OpenAI API 來修正答案。
這樣可以避免直接對 OpenAI API 提出數百萬次查詢,並且讓學生模型仍然能夠學到接近封閉模型的行為。
________________________________________3. 使用開源大模型來進行數據過濾,減少 API 依賴如果你使用 OpenAI API 來收集數據,通常會遇到以下問題:•數據雜亂,不一定適合作為訓練數據•可能需要大量 API 查詢才能獲得高質量數據•封閉模型的 API 成本高昂為了解決這個問題,你可以:1.先用開源大模型(如 Mistral 7B)生成大量答案2.用開源大模型的得分機制(如 Reranker)來過濾掉低質量數據3.只用 API 來獲取最難的數據點這樣可以讓 API 查詢數量下降 80-90%,但仍然保證數據質量。
________________________________________4. 讓學生模型模仿開源模型,而不是直接模仿封閉模型假設你有一個開源模型,例如 Mistral 8x7B,它的性能接近 GPT-3.5,你可以:1.讓學生模型 先學習 Mistral,這樣它可以學到很多基本的知識。
2.只用少量 API 讓學生模型學習 GPT-4 的風格和細節。
這樣的好處是:•不需要讓學生模型從 0 開始學習•只需要在最後一步調整,使其更像 GPT-4•節省大量 API 查詢成本________________________________________5. 使用 RLHF(人類反饋強化學習)來提升效果,減少 API 需求如果你想讓學生模型的回答更接近 OpenAI,你可以:1.先用開源大模型(如 LLaMA 70B)提供初步答案2.讓人類(或使用少量 API)來標記答案的好壞3.用 RLHF 訓練學生模型,讓它學會更像 GPT-4 回答這樣你不需要直接查詢 API 來獲取每一個數據點,而是透過人類反饋機制來調整模型,從而減少 API 查詢次數。
________________________________________總結使用開源大模型來幫助進行蒸餾訓練,可以讓你大幅降低對 OpenAI API 的依賴,關鍵方法包括:1.用開源模型(如 LLaMA、Mistral)產生 90% 訓練數據,只用 10% API 來補充關鍵數據2.讓學生模型學習開源教師模型,而不是直接學封閉模型3.用開源模型來過濾和篩選數據,只在關鍵時刻詢問 API4.讓學生模型先學開源模型,再微調成封閉大模型的風格5.使用 RLHF 或半自動標註技術來調整模型,而不是完全依賴 API這樣可以讓 API 查詢數量降低 80-90%,但最終得到的學生模型仍然接近封閉模型的表現!
全球冠軍是挪威,平均胸圍介於C至D罩杯之間,而台灣人則是亞洲平均的AA罩杯。
不過這份研究也指出,其實擁有較高BMI(身體質量指數)的國家,女性胸部平均尺寸也較大,所以台灣女性尺寸雖小,卻也代表平均BMI指數較為正常。
https:udn.comnewsstory68128492344
這根本是一個被中共支配的人工智能在初期的機器學習一定已經被訓練成紅色的樣子了這算一種共機嗎?https:www.cna.com.twnewsaipl202501300111.aspx
賴清德親中愛台導論:愛台=反共,民主與專政的腦力激盪親中是指中國=中華人民共和國=中華民國=台灣獨立?這是第一個腦力激盪火花愛台=反共=民主憲政=專政領導?這是第二個腦力激盪火花https:www.youtube.comwatch?v=11JdBoIYRJw================述論:賴清德的思維確保台灣自主性必須由民進黨領導掌控民進黨的民主與中共的專政可共存一個廣義中國共產黨打造一個中國特色社會主義民進黨打造一個台灣特色民主主義結論:賴皇=兒皇帝
想到那些側翼說過的話做出的事情真的不意外他們又充斥著非党的支持者都去死的言論你們自己說是民主鬥士看到這種言論很贊同?
v1images1cc0c5a0-1c17-4874-a422-19c5d629fdbeencode1280v1imagesbefa8c40-341b-45c4-bf8d-1ea8ace33342encode1280天哪!副總統親力親為大掃除耶!讚!
綜觀這幾天民進黨仔對DeepSeek的反應大概如下1. 造謠說DS其實沒那麼省錢2. DS其實沒那麼強(拿TAIDE出來比一下阿)3. 可信任的軟硬整合台灣更有優勢(講幾年了成果勒?)4. 我繞過離線版DS的政治審查啦喔耶5. 警告DS會將使用資料傳回中國唉 看著都覺得可憐又可悲民進黨政府唐鳳第一時間賭錯科技浪潮押寶元宇宙現在AI也跟不上 還在空講什麼軟硬整合攤開這幾年的政府科技計畫挹注長眼睛都看得出來軟體投入根本杯水車薪加油好嗎 民進黨____作者shrines ()看板Gossiping標題Re: [爆卦] 唐鳳成功繞過DeepSeek時間Wed Jan 29 02:01:52 2025這件事情最智障的地方在於Deepseek面對全世界是完全開源的開源什麼意思智障鳥大概不懂然後歪國人花一點點時間拿去稍微修改直接弄出一個不審查政治的Deepseek這就是為什麼懂的人根本沒人在乎審不審查因為懂得任看的是技術,看的是成果只有智障鳥繼續跳針政治更有智障說Deepseek資料會回傳中國你媽的人家都開源給你官方服務不想用就不要用啊你弄一個只傳台灣不就好了?人家歪國人看的是技術和成果現在全世界各媒體、教育機構甚至創作者都在測試公布大量測試結果舉例說Deepseek的數理邏輯更強運算處理時間更快被誘騙的機率更低玄幻板的網友誘騙結果沒成功但是ChatGPT被誘導出虛假的劇情Deepseek編寫企劃能力更強更快總之國外測試每個都抱持肯定態度智障傻鳥繼續對著Deepseek跳針政治我自己也來分享一些Deepseek的缺點免得智障鳥崩潰Deepseek的翻譯沒有比較強(我是用中英西三者測試)跟ChatGPT差不多不過Deepseek翻譯的比較快Deepseek不能把Wmv轉成MP4ChatGPT可以你也不能給一些條件讓Deepseek創作圖片以上大概是這樣我認為Deepseek根本是大型智力測驗測驗哪些人智商堪憂
記者曾筠淇/綜合報導南鯤鯓代天府有「台灣王爺總廟」之稱,從2011年起,每年都會固定在大年初一抽國運籤。
稍早廟方抽出編號第45籤,內容為「一重江水一重山/誰知此去路又難/任他改求終不過/是非終久未得安」。
總幹事侯賢名則說,字面上來說,是下籤、下下籤,「但是旁邊有寫,今年中開始,經濟會漸漸、一直好起來,這可能因為,經濟跟政治部分可能會牽連。
」只是他也強調,「籤詩見仁見智,表面看起來不好,背後的涵義不一定就是不好,不好可能是目前,年中、年底可能就不一樣了」。
廟方另名董事陳文賢則指出,上半年來講會比較辛苦一點,農曆6月過後,會是不一樣的境界,「一重江水一重山」,一邊是山一邊是水,要走山路還是水路,看如何去拿捏。
他也強調,籤詩是「個人解讀」。
https:www.ettoday.netnews202501292900470.htm#ixzz8ygx6vdCK
民主國家,少數服從多數謂之團結,專政國家,多數服從少數謂之獨裁,賴清德還搞不清楚嗎?https:news.tvbs.com.twpolitics2764537
#若有【記者張沛森/桃園報導】新北市蘆洲區的湧蓮寺,昨天(28日)除夕夜由主委陳宏昌抽出今年的國運籤,分為士、農、工、商,除了「商籤」為「下下籤」外,另3籤均為「上上」籤。
其中士籤「出入營謀大吉昌,無暇玉在石中藏,如今幸得高人指,獲寶從心喜不常」。
湧蓮寺解籤說明,若以此籤詩看台灣現在困境,只要領導人有智慧,就能找到朝野和諧的道路。
湧蓮寺解籤說明,士籤為第89首籤詩「出入營謀大吉昌,無暇玉在石中藏,如今幸得高人指,獲寶從心喜不常」,籤詩故事是姜太公渭水遇文王,意指瑕疵中的石頭中有隱藏的寶物,因為有世人擷取,因此得到高人指點,寓意大吉大利,以台灣現在困境來說,領導人有智慧,就能找到朝野和諧的道路。
農籤抽中第29首,為上上籤,籤詩為「當春久雨喜初晴,玉兔金屋漸漸明,舊事已成新事遂,看看一躍入篷瀛」。
湧蓮寺表示,這是支好籤,第二句代表月亮在黑暗當中漸漸明亮,代表今年農業有收穫,能安然度過災害。
工籤代表科技、工業,抽中35首,籤詩為「衣冠重整舊家風,道是無功卻有功,掃卻當途荊棘礙,三人共議事合同」。
此籤是在說劉備、關羽、張飛於古城相會,台灣如果齊心協力,就能突破困境,算是上上籤。
商籤抽中54首,籤詩為「夢中得寶醒來無,應說巫山只是虛,若問婚姻並病訟,別尋生路得相宜」。
湧蓮寺表示,這意思是黃粱一夢,做生意不要太要求獲利,運低要避開風險以待之,意即民眾若有投資,要居安思危,要有危機意識。
https:tw.nextapple.comlocal202501297809C705C686AF4CAE374F8D0C1D43FE
Option #1: 孩子不孝,等長輩往生就會回來分財產了Option #2: 孩子跟水果在國外團聚沒空回來Option #3: 帳戶被他媽拿去洗錢,當然怕被抓呀Option #4: 黃33:沒犯罪為什麼不回來?
DeepseekAI開發成本僅為 500 萬美元,OpenAI 的支出 已超過 50 億美元,效率提升了 1,000 倍之多什麼是OpenAI ?https:zh.wikipedia.orgzh-twOpenAI什麼是DeepseekAI ?https:en.wikipedia.orgwikiDeepSeekhttps:www.blocktempo.comai-cryptocurrency-projects-worth-watching===========================為何黃仁勳的NV輝達股市受挫17%因為NV GPU AI演算晶片要高而DeepseekAI演算晶片一般就能達到
中國deepseek橫空出世讓全世界震驚 輝達股價直接摔跤國際情勢詭譎多變 光應付都來不及但我們台灣始終沒有認清這個事實在列強環繞伺機而動的夾縫中說實話我們無能自救也無力抗衡只能靠三民自的濾鏡飲鴆止渴但以拖待變終究不能長治久安打破皇城內的祥和 無處抒發的焦慮只能用罷免來宣洩民主只是最簡單拿來消費的藉口Option #1: 意識形態葬送台灣Option #2: 藍白媚共毀憲亂政
過年期間民進黨仇恨動員大罷免,賴清德看戲嗎?賴清德新春盼朝野和諧,大罷免就是大和諧嗎?https:www.youtube.comwatch?v=33UQu_buqqM
作者yushenglu (子欲養而親不待)看板Gossiping標題[問卦] 222億「台灣AI行動計畫2.0」是幹嘛的?時間Tue Jan 28 07:33:28 2025去年新聞說2024開始有什麼222億「台灣AI行動計畫2.0」行政院為主數位部為輔可是人家deepseek 才花不到2億我們已經給數位部每年200億以上還已經給3年結果去年有說要發展ai又要222億我讀書少中洲仔不要騙我222億「台灣AI行動計畫2.0」是幹嘛的?
美國設計、台灣代工的模式,川普不爽了https:news.tvbs.com.twworld2764041怎樣確保台灣經濟利益優先?要開始善用平衡技巧了