<dfn id="siuuq"><code id="siuuq"></code></dfn>
<menu id="siuuq"><kbd id="siuuq"></kbd></menu>
  • <menu id="siuuq"><acronym id="siuuq"></acronym></menu>
  • <menu id="siuuq"></menu>
  • <tbody id="siuuq"><nav id="siuuq"></nav></tbody>
    <li id="siuuq"></li>
    <tr id="siuuq"></tr>
    <dd id="siuuq"></dd>
  • <menu id="siuuq"></menu>
    <dfn id="siuuq"><source id="siuuq"></source></dfn><dfn id="siuuq"><dl id="siuuq"></dl></dfn>
    發(fā)表于 2024-11-19 01:10:53 河南| 2024-11-19 16:41編輯 | 發(fā)自安卓客戶端
    早就想寫的教程了,看到有人問我,那簡單寫了吧。

    適合小白的,
    一整套翻譯“豎排日文pdf小說”流程:


    看到評論區(qū)的回復(fù)補(bǔ)充:
    我似乎應(yīng)該把最好的方案效果截圖放在開頭:

    圖片是1984年的,不夠清晰,且?guī)Ш芏嘧⒁粜∽值呢Q排日文pdf文檔

    原圖:

    譯圖:

    這里你看注音小字,和那個底部序號都不會識別,從而干擾翻譯。
    注音小字我試了很多張都沒有,底部序號小概率還是會出現(xiàn)。




    我最開始沒發(fā)最好的效果,是因?yàn)槲耶吘箤懙氖钦麄€流程的教程
    要說單發(fā)個效果最好的付費(fèi)方案效果圖,
    那我還寫了效果差點(diǎn)的/麻煩的免費(fèi)方案啊,這不純抬高預(yù)期嗎
    沒辦法,只能先發(fā)圖,不啰嗦了開始全流程:

    第一,豎排日文pdf文件下載,


    隨你在各個論壇,或者“安娜圖書館”這種庫存下載。
    (這個要.提.子.)
    https://zh.annas-archive.org/



    第二,簡單處理,
    你可以用這個網(wǎng)站將pdf文件拆分為幾百張圖:


    https://tools.pdf24.org/zh/split-pdf



    第三,文字識別,這里拓展一下:


    可以不要錢的:
    識別豎排日文的軟件
    似乎只有pc端的“.a.b.b.y.y.”

    我反正之前試過

    不滿意識別率,但是也能用。


    你可以自己去找,額,學(xué)習(xí)版
    我看b站似乎就有學(xué)習(xí)版
    但是有一說一,我?guī)啄昵把b這個直接給我電腦搞藍(lán)屏了一次,
    并且當(dāng)時d盤的頭像還被這軟件替換了,功能倒是沒問題
    換電腦之后就再沒用過這軟件

    要錢的:
    我之前和一個人鼓搗好幾天找好方案,
    或者識別率不行,
    或者能識別,但是像google和白描的ocr識別,
    會把“日文注音小字”也識別出來
    翻譯質(zhì)量直接大打折扣。

    最后感覺只有“團(tuán)子翻譯器”的批量漫畫翻譯功能,

    https://translator.dango.cloud/

    識別率還可以,又不會識別注音小字。

    別急,這個流程也有問題,不是那么簡單的。
    1:費(fèi)用20/月,
    這倒還好,你可以攢一堆書然后一起識別嘛
    2:這軟件說到底是翻譯漫畫的,
    他沒有做適配識別小說的便捷流程,


    我給作者反饋過,但他似乎是不想做

    也就是說,你確實(shí)可以用這軟件一鍵識別一本豎排日文pdf
    (把流程二導(dǎo)出的幾百張圖導(dǎo)入漫畫翻譯功能,然后導(dǎo)出文字)
    但是,你點(diǎn)“導(dǎo)出文字”,
    軟件會把原文,譯文,
    包括你用的翻譯服務(wù)名全導(dǎo)出混在一起

    你只能手動一條條把日文復(fù)制出來
    只要日文,翻譯功能在別的軟件做

    我拜托過一個程序朋友,寫程序分離出日文
    結(jié)果不能保證百分百準(zhǔn)確率,也就是說你還是一條條復(fù)制吧。

    快捷鍵我記得是ctrl加選,
    反正我感覺復(fù)制幾百張圖的識別日文,
    也就十分鐘吧,可看你接受程度



    總結(jié),團(tuán)子翻譯器這套流程,
    就是你從首頁選項(xiàng)卡點(diǎn)進(jìn)那個圖片翻譯的功能,
    然后批量導(dǎo)入圖片,翻譯好,關(guān)閉圖片翻譯,
    再回到首頁選項(xiàng)卡找翻譯記錄導(dǎo)出txt文字。
    翻譯服務(wù)就選谷歌之類的都行,畢竟我們只要日文。
    然后手動ctrl把導(dǎo)出文字里的識別日文復(fù)制出來。
    注意我看到評論區(qū)提示,重新去截圖才發(fā)現(xiàn)的:
    你得一次導(dǎo)入好幾張圖翻譯,單獨(dú)一張圖,翻譯歷史里沒有記錄。



    第四,有了識別到的日文之后,
    就是AI翻譯了。

    這里直接去看我第一個教程

    簡單來說就是,隨你手機(jī)或者電腦下載“沉浸式翻譯”
    然后自己去注冊AI大模型的官網(wǎng)注冊API服務(wù),
    (教程我第一個教程寫了,沉浸式翻譯的教程也寫了

    https://immersivetranslate.com/zh-Hans/docs/services/deepseek/

    然后導(dǎo)入配置到沉浸式翻譯里調(diào)用服務(wù)就能簡單翻譯電子書了。

    這里我只簡單補(bǔ)充點(diǎn)新結(jié)論:

    在翻譯質(zhì)量方面,質(zhì)量和提示詞(prompt)關(guān)系很大

    在沉浸式翻譯默認(rèn)的提示詞下,中英翻譯是“deepseek”最好
    然后切換到“意譯大師”那個提示詞,
    這個流程似乎是翻譯一遍,優(yōu)化一遍,增加質(zhì)量但也增加消耗的token
    此時就是qwen 2.5 72b效果最好
    然后中日翻譯是claude 3.5 sonnet效果最好。
    (不過claude價格可比上面這倆貴,你要性價比,
    與其claude選常規(guī)提示詞翻譯一遍,
    不如選這倆便宜的模型加上意譯大師提示詞,
    翻譯一遍優(yōu)化一遍更好還便宜。


    哦這里說的翻譯一遍優(yōu)化一遍是他內(nèi)部翻譯的流程

    我們用那就是傻瓜操作,點(diǎn)一下等翻譯好








    最后再順便補(bǔ)充下,
    和標(biāo)題沒什么關(guān)系,
    就是一些ocr識別服務(wù)的大雜燴。


    我研究方案的時候,接觸了不少。
    你如果想批量識別橫排的,不管是繁體簡體,中文英文,
    那我上面提的“白描”也行,這個也要錢,手機(jī)電腦都有,
    價格在“果殼剝殼”賣好像是二十幾買斷。
    然后白描也能識別表格,

    但是識別公式,據(jù)說是“mathpix”最好
    這軟件我用過,也是收費(fèi),而且有點(diǎn)惡心人的
    然后簡單的ocr識別,各個手機(jī)廠商似乎都推出了自己的服務(wù)
    谷歌的“智能鏡頭”也還行。
    復(fù)雜的,一整本pdf里識別表格公式,這個就很難了,
    我看b站有人在研究用AI多模態(tài)大模型和傳統(tǒng)ocr服務(wù)結(jié)合來識別。

    再順帶一提,github上也有不錯的開源軟件
    比如有個叫“manga ocr”的似乎是可以識別豎排日文
    但本人智力有限,實(shí)在是不會部署,
    有的別的軟件部署之后也不會寫代碼做到批量識別
    總之就是擺了,不會用。



    最后,我才發(fā)現(xiàn)本軟件排版技巧

    你選了“字體加紅加粗”之后
    如圖,想要正文呈現(xiàn)的效果是換行,
    你得在編輯界面,這個代碼之后空一行
    同理,想正文空一行,就得在編輯這里空兩行
    我說之前發(fā)的帖子,排版看著怪呢,很多字就連在一起
    本帖子中包含更多圖片或附件資源

    您需要 登錄 才可以下載或查看,沒有帳號?加入學(xué)院

    21

    34

    分享

    | 樓主| 發(fā)表于 2024-11-19 12:09:27 河南| 2024-11-20 08:00編輯 | 發(fā)自安卓客戶端
    我有要補(bǔ)充的內(nèi)容,就固定在這樓補(bǔ)充了。
    帖子編輯一次都得重新審核太麻煩。

    0:類似的githubocr方案,還有這個
    https://meta.appinn.net/t/topic/62859
    不過這是用來翻譯帶公示表格論文的,
    很明顯這些有實(shí)力的大佬不會研究豎排日文文檔
    這才是目前起碼我找不到合適開源方案,批量簡易翻譯豎排日文pdf文檔的原因

    1:我才想起來,就是如果你的素材比我這個模糊不少
    那似乎可以考慮lr批量加對比度調(diào)整
    和團(tuán)子翻譯器這軟件設(shè)置里我看有個實(shí)驗(yàn)性“超分辨率”
    可以試試,我沒試過,我跑通了這個流程就沒關(guān)系了
    畢竟我又沒有翻譯這種數(shù)的需求。

    2:我剛才改帖子居然秒審核通過,搞得我都不好意思再改了

    3:我其實(shí)沒有這類需求,為什么研究流程呢?
    一是自己對新技術(shù)感興趣,
    二是有人拿著這個1984年的的這個豎排日文pdf問我了
    這就不得不提:我研究那時候還非常熱
    當(dāng)時我有一次吹風(fēng)扇吹得肚子巨疼,真是感覺馬上要噶了。
    要不是刷到一個b站視頻,說是按壓左手什么穴位,確實(shí)緩解了,
    那都難以想象
    就在那天,我輕松不少的時候,都是咬了兩塊餅干,
    繼續(xù)上qq和那人研究流程。
    所以,本人這帖子,耗費(fèi)的精力還是有一點(diǎn)的。

    4:帖子中間不是提到了那個a.b.b.y.y.嘛
    傳說國內(nèi)代理商很強(qiáng),因此在國內(nèi)公開互聯(lián)網(wǎng)上找不到學(xué)習(xí)版
    我一聽這話好家伙,看看資源檢索能力?
    直接就去telegram搜搜看,翻了幾頁就見到了
    當(dāng)然只是這么一找,實(shí)際我肯定不會用
    因?yàn)槲铱碽站評論區(qū)都說這軟件有問題,會和win11安全中心沖突什么的。
    我本來幾年前試用這軟件的時候就沒什么好印象

    5:我想到我末尾提到的“github也有不少優(yōu)秀開源ocr項(xiàng)目,
    只是我完全不懂代碼不知道怎么部署和批量識別”
    我又想了想,感覺簡單需求,還是可以問AI來教我python代碼,如圖
    但問題在于,稍微復(fù)雜的問題,比如我正文提到的“只保留日文”AI代碼,
    公認(rèn)最好的claude也不行。
    你說批量識別文本,我總得要求這些文本打包到一個文檔里,
    還要注意排版,還要消除文檔需要之類的吧?
    感覺ai很難滿足這種需求

    哦ai的代碼能力,公認(rèn)最好的是國外的claude,
    然后平替,國內(nèi)的deepseek也還湊合,
    然后最近剛出的,國外google的類open ai o1的gemini 1114也還行
    本帖子中包含更多圖片或附件資源

    您需要 登錄 才可以下載或查看,沒有帳號?加入學(xué)院

    | 發(fā)表于 2024-11-19 12:55:13 江蘇
    朋友,關(guān)鍵是Z站上和安娜圖書館下載的日文PDF文件,有些小說資源年代太過古老導(dǎo)致PDF文件圖像質(zhì)量模糊不清晰,EPUB日文原版的注音平假小字就難以解決了,PDF文件更是把小字和大字混合在一起狼狽不堪,搞不明白日本搞這種注音平假小字是干嘛的,谷歌機(jī)器翻譯都沒的操作,很多小說資源不是沒得找而是就算找到了也沒得翻譯
    | 發(fā)表于 2024-11-19 13:25:36 上海| 來自小霸王手機(jī)
    關(guān)鍵是日語原版的新小說都找不到
    | 樓主| 發(fā)表于 2024-11-20 08:01:42 河南| 發(fā)自安卓客戶端
    ...???這還能直接吞評論
    | 發(fā)表于 2024-11-20 11:55:11 陜西
    epub還好,可以保留格式復(fù)制文本到word里,然后清除讀音,就可以去掉小字了。 pdf是真的麻煩,先不說ocr的識別率了,那個換行短句就很惡心
    1 | 發(fā)表于 2025-8-24 12:54:47 浙江
    推薦用ImageTrans,支持豎排OCR,也能直接提取PDF中可以復(fù)制的文字,支持合并文字為段落。
    尚未登錄
    您需要登錄后才可以回帖 登錄 | 加入學(xué)院
    <dfn id="siuuq"><code id="siuuq"></code></dfn>
    <menu id="siuuq"><kbd id="siuuq"></kbd></menu>
  • <menu id="siuuq"><acronym id="siuuq"></acronym></menu>
  • <menu id="siuuq"></menu>
  • <tbody id="siuuq"><nav id="siuuq"></nav></tbody>
    <li id="siuuq"></li>
    <tr id="siuuq"></tr>
    <dd id="siuuq"></dd>
  • <menu id="siuuq"></menu>
    <dfn id="siuuq"><source id="siuuq"></source></dfn><dfn id="siuuq"><dl id="siuuq"></dl></dfn>
    国产三级毛片 | 岳扒开下面让我舔是什么意思 | 国产淫片| 三级片中文字幕 | 插大香蕉 |